首页>热点 > 正文

构建高质量多模态预训练语料中国大模型语料数据联盟开源发布“书生·万卷”

2023-08-15 08:50:02来源：新民晚报

(相关资料图)

新民晚报讯（记者叶薇）继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”，上海人工智能实验室（上海AI实验室）于昨天宣布，联合语料数据联盟成员单位，共同开源发布“书生·万卷”1.0多模态预训练语料。

“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分，本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本，2200万个图文交错文档，1000个节目影像视频。其中文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料，数据总量超过5亿个文档，数据大小超过1TB，覆盖科技、文学、媒体、教育、法律等多个领域。图文数据主要来自公开网页，经处理后形成图文交错文档。文档总量超过2200万个，数据大小超过140GB（不含图片），覆盖新闻事件、人物、自然景观、社会生活等多个领域。视频数据主要来自中央广播电视总台和上海文广集团，包含新闻、影视等多种类型的节目影像，总计视频文件数超过1000个，数据大小超过900GB，内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。“书生·万卷”1.0，具备多元融合、精细处理、价值对齐、易用高效等四大特征。

中国大模型语料数据联盟是由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团、上海数据集团、上海市数商协会、金杜律师事务所等单位联合发起成立的开放组织。联盟于今年7月6日世界人工智能大会开幕式上成立，旨在打造国际化、开放型的大模型语料数据生态圈。高质量、多模态、宽领域的数据支持已成为当前人工智能大模型发展的重要基石，中国大模型语料数据联盟将持续通过开源开放，共建包容、开放、有序、共享的人工智能大生态。

标签：

责任编辑：

免责声明

头条新闻

被缅甸语专业录取将从事电诈？高校：已报警！

近日，短视频平台上一位叫“蒙绍奇”的学生，显示被广西外国语学院缅甸
湖北宜昌兴山县突发山体岩石崩塌，致7人遇难

8月14日20时30分左右，兴山县榛子乡平瓦公路（乡村公路）山体突发岩石
财经早班车丨商务部：修订《外国投资者对上市公司战略投资管理办法》

下半年，商务部将继续着力做好三个方面的工作：一是加强政策支持。二是
构建高质量多模态预训练语料中国大模型语料数据联盟开源发布“书生·万卷”

上海人工智能实验室（上海AI实验室）昨天宣布，联合语料数据联盟成员单

精彩新闻

被缅甸语专业录取将从事电诈？高校：已报警！

近日，短视频平台上一位叫“蒙绍奇”的学生，显示被广西外国语学院缅甸
湖北宜昌兴山县突发山体岩石崩塌，致7人遇难

8月14日20时30分左右，兴山县榛子乡平瓦公路（乡村公路）山体突发岩石
“特斯拉被禁入机场停车场”引热议，原因竟是这样！事关人工智能，这项管理暂行办法今起实施，数据安全板块站上风口

《生成式人工智能服务管理暂行办法》于今日起施行，有望促进生成式人工
财经早班车丨商务部：修订《外国投资者对上市公司战略投资管理办法》

下半年，商务部将继续着力做好三个方面的工作：一是加强政策支持。二是
构建高质量多模态预训练语料中国大模型语料数据联盟开源发布“书生·万卷”

上海人工智能实验室（上海AI实验室）昨天宣布，联合语料数据联盟成员单
麦克奥迪08月14日获深股通增持9.79万股

08月14日，麦克奥迪获深股通增持万股，最新持股量为万股，占公司A股总
上半年老牌零部件巨头利润暴涨

近日，麦格纳、采埃孚、电装、法雷奥、舍弗勒、博格华纳等多家跨国零部
央行开展逆回购操作是什么意思它是这样一项操作

对财经新闻有关注的朋友会时不时的看到有关于央行逆回购的新闻，并同时
今天的生活和商文明息息相关

“我长期研究甲骨文、商周的金文材料，通过地下出土的文字材料研究商周
厄瓜多尔一政党领导人遭枪杀

厄瓜多尔警方当地时间8月14日证实，当天下午，该国公民革命党领导人佩
充电宝掉进座椅缝被挤冒烟，东航一客机紧急备降

充电宝掉进座椅缝被挤冒烟，东航一客机紧急备降
俄罗斯马哈奇卡拉加油站爆炸事故已致12人死亡

俄罗斯马哈奇卡拉加油站爆炸事故已致12人死亡
晨读 | 戴蓉：夏日江南

江南的夏日湿热难当，然而想到它的温柔风致，又觉得这溽热也可原谅。
从科创阅读开始寻找最强AI少年

南都讯　记者谢湘南　为促进青少年创新能力培养和科学素养提升，深圳少
美国夏威夷野火遇难者升至96人

截至当地时间13日晚，美国夏威夷州毛伊岛野火遇难者已升至96人。
公募机构：短期内债券市场或维持震荡偏强走势后续仍需观察政策的出台情况和落地效果

【公募机构：短期内债券市场或维持震荡偏强走势后续仍需观察政策的出台
上海今天局部可达大雨最高温33℃

上海今天局部可达大雨最高温33℃
青春的底色

原标题：青春的底色我和法院的故事开始于憧憬，继续于随着岁月递增的信
苹果 iPhone 15 系列手机 USB-C 组件更多实拍图曝光

IT之家8月14日消息，知名苹果产品收藏家Kosutami和MajinBu日前在X平台
恒大汽车获中东资本5亿美元战略投资

8月14日，恒大汽车发布公告，获得总部位于阿联酋迪拜的纽顿集团（NWTN
后端开发需要掌握哪些技术_后端开发需要学什么

1、后端开发人员需要的一个重要技能与SQL和数据库有关。大多数后端系统
滨州公安：集中统一行动现场直击！

迅速集结！雷霆出击！按照公安部、省公安厅统一部署8月11日—13日滨州
「深度」融资难，赚钱更难，自动驾驶挤出估值泡沫

界面新闻记者|伍洋宇界面新闻编辑|文姝琪1擎天智卡公司的倒下是一个信
RMC：米兰、埃弗顿、法兰克福争埃基蒂克，巴黎尚未收到报价

来自RMC体育的报道宣称，AC米兰、埃弗顿以及法兰克福都对巴黎圣日耳曼
美国10年期国债收益率升至去年11月以来最高水平

美国10年期国债收益率升至4 21%，创2022年11月以来的最高水平。交易员
西媒：曼联为阿尔瓦罗标价700万欧，多家俱乐部都对他感兴趣

直播吧8月14日讯据西班牙媒体《Relevo》报道，曼联对小将阿尔瓦罗-费尔
密尔克卫: 密尔克卫化工供应链服务股份有限公司关于回购注销2019年限制性股票激励计划部分限制性股票的公告

密尔克卫:密尔克卫化工供应链服务股份有限公司关于回购注销2019年限制
劲牌持正堂的中药现代化之路

荆楚网（湖北日报网）讯7月3日，湖北省2023年“院士专家企业行”活动在
京东：网传刘强东章泽天夫妇“移民美国”等言论不实，已报案

京东：网传刘强东章泽天夫妇“移民美国”等言论不实，已报案
凤栖“吴”桐逐梦“江”来吴江在上海虹桥站向往来旅客发出招贤榜

江南何处好？乐居在吴江！近日，创新湖区乐居之城吴江城市形象展在上海虹桥高铁站拉开帷幕。在展厅工...
上汽通用汽车迎来新一波智能网联系统的OTA远程升级

近日上汽通用汽车宣布，将在近期对旗下搭载VCS智能座舱系统的部分车型
夜读 | 读者·作者·编者：陆澹安与李福清

一位是兴趣多样、朋友圈广泛的海派文人，一位是醉心中国古典小说和民间
康亚药业股东何仲森质押69万股用于其控制的公司经营所需

康亚药业股东何仲森质押69万股用于其控制的公司经营所需2023 8 1420:16
洲明科技：接受鹏华基金等机构调研

洲明科技（SZ300232，收盘价：7 8元）发布公告称，2023年8月11日15:00-
黑龙江省疾控中心专家：洪涝灾害后食品安全谨记五点

洪涝灾害后如何保障食品安全？有哪些注意事项，记者就此采访了黑龙江省
【世界历史025】古代印度

Part1大约在公元前1500年，大体上是我国的商朝前期，属于印欧语系的雅
陌生FaceTime来电别接听！女子险遭诈骗

近期，一些不法分子通过FaceTime来冒充平台客服，骗取用户或是转移账号
国家防总：维持京津冀防汛三级应急响应

国家防总：维持京津冀防汛三级应急响应
国家能源局：7月份全社会用电量同比增长6.5%

国家能源局：7月份全社会用电量同比增长6 5%
他终于告别了困扰9个多月的导尿管，中西医结合治愈顽疾

按照常规，导尿管一旦插满半年，如果患者仍不能自行排尿，那么导尿管就
火力全开！看“准警士”们如何靠实力“突围”

为建好建强警士队伍，近日，武警上海总队执勤第五支队严密组织开展了20
外交部：敦促有关方面不要向“台独”势力释放错误信号

8月14日，外交部发言人汪文斌主持例行记者会。有记者问，上周，三名波
威扬酒业控股(08509)：解散投资管理委员会

智通财经APP讯，威扬酒业控股(08509)发布公告，公司董事会提述公司股份
江淮汽车7月销量5.06万辆，同比增长15.55%

2023年8月8日，安徽江淮汽车集团股份有限公司（以下简称“江淮汽车”）
康希诺：员工持股平台拟减持不超1.98%股份

康希诺公告，天津千益、天津千睿、天津千智计划通过集中竞价、大宗交易
能链智电与现代汽车集团（中国）共建共享充电服务生态

8月14日，能链智电（NASDAQ：NAAS）与现代汽车集团（中国）（以下简称
联影医疗：股东及董监高等自愿延长锁定期推出股权激励计划

证券时报网讯，8月14日晚，联影医疗(688271)发布《首次公开发行限售股
见光不见灯闵行这条路景观灯升级了

最近路过沪闵路七莘路的市民发现，这一带的夜景灯光漂亮了许多，草坪上
7月上海CPI同比上涨0.4%

国家统计局上海调查总队近日发布，7月份本市CPI同比上涨0 4%。
上海发布雷电黄色预警

上海中心气象台2023年08月14日18时05分发布雷电黄色预警信号：预计未来
“闵行区政府投资基金”位列全国50强，60多亿元撬动社会资本投资超千亿元

在2023年中国政府引导基金50强主榜单中，闵行区政府引导基金位列第29位
上海中国航海博物馆副馆长严俊接受纪律审查和监察调查

上海中国航海博物馆副馆长严俊涉嫌严重违纪违法，目前正接受上海市纪委
MSN全部离开欧洲，是世代的更替&金钱的力量❓

MSN全部离开欧洲，是世代的更替&金钱的力量❓,欧洲,足球,msn,内马尔·
豆瓣3.9！《超能一家人》上映不足1个月直接网播

《超能一家人》上映不足1个月，宣布网播
阿拉等侬打电话！上海市、区生态环境局长明天起轮番接热线

保护生态环境，共建生态之城——8月15日是首个“全国生态日”，如何让
国内首款减重自主创新药来了！张江仁会生物贝那鲁肽注射液获批

近日，国家药品监督管理局官网显示，由张江仁会生物申报的贝那鲁肽注射
有效联动静安区北部医联体让居民享受优质便捷连续医疗服务

静安区北部医联体牵头单位、市北医院院长陈俊峰今天（14日）介绍说，“
皮肤癣怎么治疗皮肤癣怎么治

1、医院我也去过很多家偏方也试过都没治好治疗这病主要还是靠药物做好
高淳砖墙镇：规范早市秩序，营造良好市容市貌

热热闹闹的早市给集镇增添了浓郁的烟火气，然而随之而来的占道经营、垃
终于和支教的哥哥姐姐们当了校友！云南受帮扶女孩今年梦圆华理

今年9月，将有一位来自云南寻甸的女孩，跨越2200多公里的距离，来到上
夯实打防管控举措，黄浦警方开展夏夜集中清查整治行动

近期，黄浦公安分局在全区范围组织开展“砺剑2023”第七次集中清查整治
海南海口房价还会涨吗？乾坤湖二手房还能不能买~

海南海口房价还会涨吗？乾坤湖二手房还能不能买~乾坤湖二手房还能不能
部分地区能见度不足500米！黑龙江省气象台发布最新预报

黑龙江省气象台2023年8月14日17时发布8月14日夜间至8月17日白天全省天
江苏龙卷风致2死15伤，为何江苏龙卷风多发？

8月13日，江苏省盐城市大丰区发生龙卷风自然灾害，灾害已造成2人死亡，
新民艺评丨一名外科医生的“内症”——毕飞宇长篇小说《欢迎来到人间》读札

毕飞宇携新作《欢迎来到人间》即将参加2023上海书展。
上半年四师各团场医院诊疗地方群众1.9万人次

“听说有四师的专家来我们乡义诊，我一大早就赶过来了，看病省心省力又
造车梦圆！贾跃亭亲手交付首辆法拉第未来FF 91 2.0

造车梦圆！贾跃亭亲手交付首辆法拉第未来FF912 0
国家金融监督管理总局批复同意平安财险、中华财险设立上海再保险运营中心

8月14日电，国家金融监督管理总局14日公布批复文件，分别同意中国平安
巨头出手！砸盘“元凶”找到了？

8月14日，大盘全天探底回升，三大指数仍收跌，沪指相对偏强。
锂矿竞拍价飙涨1771倍！行业“抢锂”战仍未消停？

锂尽管目前锂电池的原材料价格已经部分回落，但企业对于锂矿的渴求仍未
“智”上赋能 “链”上发力——从港口运行看我国经济韧性

“智”上赋能“链”上发力——从港口运行看我国经济韧性---不仅是山东
上海家化危机四伏，六神还能火多久？

几代国人的夏日“续命神器”、被大家戏称为“sixgod”的本土“香水”—
泰信基金陈颖：医药反腐重塑投资逻辑好公司将长期受益

随着医药领域反腐的渐趋深入，医药、医疗板块的调整引发了市场的关注。
乡镇发展抢先看 | 在东平镇，感受最美“花样年华”

开栏的话2023年是全面贯彻党的二十大精神的开局之年，也是实施“十四五
媒体：湖南双峰溺亡案家属称女子不会游泳，疑点重重当调查清楚

极目新闻评论员吴双建日前，湖南双峰一名女子在溪口水库溺亡，因牵涉到
机场联络线有新进展！申昆路停车场主体结构基本完成

机场联络线有新进展！申昆路停车场主体结构基本完成
阿富汗官员：全国大学已准备好重新招收女生，但需塔利班同意

阿富汗官员：全国大学已准备好重新招收女生，但需塔利班同意
天键股份：天键医疗科技（广东）有限公司已取得耳内式助听器、耳背式助听器、盒式助听器的医疗器械注册证

每经AI快讯，有投资者在投资者互动平台提问：目前贵公司可供医药商业的
Apple Watch十周年或有重大更新

【环球网科技综合报道】8月14日消息，根据彭博社记者马克·古尔曼其社
孙红雷大师讲堂现场整活反客为主介绍主持人

齐鲁网·闪电新闻8月14日讯由中国国家话剧院、山东省文化和旅游厅、济
外交部回应“中方车队在巴基斯坦遇袭”

外交部回应“中方车队在巴基斯坦遇袭”
机构调研快报：近两百家机构扎堆这家公司（名单）

“没有调查，就没有发言权”，在资本市场上更是如此。机构在大举建仓一
特色居村级退役军人服务站——“红色”陶宅

陶宅村退役军人服务站以小阵地践行大服务，营造尊崇、关爱退役军人的浓
俄罗斯莫斯科交易所指数突破3200点

当地时间8月14日，俄罗斯股市开盘后快速上涨，截至当天上午10时，莫斯
金海两长荟丨充分发挥桥梁纽带作用，80后的楼组长热心又全能

说起“楼组长”，在人们的印象中都是一群略有年纪或是刚退休的热心叔叔
我的游戏屋我做主！上海这群萌娃为自己设计了“小人国”

翻过懒人沙发，跨过彩虹桥，在“洞洞墙”上埋下暗号，躲进“星空”下的
自治区十四运射箭项目决出最后5块金牌

8月13日，自治区第十四届运动会射箭项目比赛进入最后一天，决出青年组
陕西空港广电丝路电商产业园,启动!

抢抓数字经济机遇,推动数字经济与临空经济深度融合,8月14日,“数字
2020VolkswagenAtlasCrossSport首次驾驶回顾

在这些毛茸茸的、就地避难的日子里，可能很明显，理发和刮胡子可以让一
游客拍到珍稀云豹?专家:是大橘猫基本信息讲解

大家好，今日关于【游客拍到珍稀云豹?专家:是大橘猫】的话题登上了各大
吉利两线作战：银河纯电新车11月底量产，对标比亚迪汉

图片来源@视觉中国汽车像素独家获悉，吉利银河对标比亚迪汉的首款纯电
Viper三场比赛0战绩，KT战队碾压晋级，赛后直言差距太大

大家好，S13赛季的比赛已经正式开始了，相信绝大多数的玩家都关注了最
普陀萌娃化身“灌篮高手”！“乐学成长”公益课精彩不断

为丰富辖区青少年儿童暑期生活，提高孩子们的运动技能，培养吃苦耐劳、
新普陀小学“知心老师”进社区，共筑幸福“童”心园

日前，新普陀小学的“知心老师”带领7名少先队员来到长征镇梅六居民区
连维权平台也是假的！骗子有了新套路：假冒12315

前天上午，农行上海浦东浦三路支行成功阻截一起以假冒维权平台客服骗取
6人小车塞进13人！上海浦东交警严查超载违法

8月8日18时48分许，上海浦东交警在外环高速沪南入口匝道处查处一起超载
科博达领跌超4%，数字经济ETF（159658）盘中溢价频现，前一交易日获资金净流入

截至11:30午间收盘，数字经济ETF（159658）跌0 63%，该基金盘中溢价频
科学家利用人工智能的力量来揭示不同类型的帕金森病

弗朗西斯·克里克研究所和伦敦大学学院皇后广场神经病学研究所的研究人
“特种兵式”跨越11省市还原一段“三线”建设历史 | 2023暑假百景

历时24天，“特种兵式”跨越西北、西南、东北、华北、华中11省市，寻访
公安部交管局推出优化机动车登记服务新措施

据公安部交管局消息，近日，公安部推出公安机关服务保障高质量发展若干

精华推荐

猜你喜欢

重磅推荐

精彩要闻

关于我们| 联系方式| 版权声明| 供稿服务| 友情链接

京ICP备12018864号-30 营业执照公示信息

上海商网版权所有，未经书面授权禁止使用

Copyright©2008-2020 By www.shbiz.com.cn All Rights Reserved