• 我的订阅
  • 科技

开源数据总量逾2TB,多模态语料“书生·万卷”发布

类别:科技 发布时间:2023-08-14 22:46:00 来源:人民资讯

本文转自:人民日报客户端

沈文敏

继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”,上海人工智能实验室于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。

“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等特征。其中,文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等领域。图文数据主要来自公开网页,经处理后形成图文交错文档,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等领域。视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-15 06:45:16

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

千行百业加速拥抱大模型(AI前沿观察)
...国内大模型快速发展对高质量数据的迫切需求,推动中文语料数据资源加快共建共享。今年7月,2023世界人工智能大会发起成立了中国大模型语料数据联盟。8月,上海人工智能实验室宣布,
2023-12-22 03:26:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间
2023-03-15 13:30:00
产品周报262期 | 快手职级体系调整,微信公众号新增图片修改功能
...5,共10级,改为连续编号,不再设细分小档。中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”上海人工智能实验室(上海AI实验室)8月14日宣布,联合语料数据联盟成
2023-08-18 09:00:00
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?
...地”的弱智吧,最近竟摇身一变成了——最佳中文AI训练语料库?由此受到启发,是否并不是训练AI的优质数据不够用,而是还有更多宝藏数据资源值得深挖?近日,由中科院深圳先进技术研究
2024-04-15 17:00:00
首个语料库建设导则面世!近二十家企业共同发布
...海7月6日电 (记者唐小丽)高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。7月6日上午,2024世界人工智能大会语料主题论坛在上海世博中心举办。本次论坛以“语料
2024-07-06 17:50:00
上海:加速实施“模塑申城”
...的AI生态圈探营现场。人民网记者 董志雯摄在AI应用中,语料质量直接决定了模型的性能。库帕思正专注于大模型和垂类模型的发展,聚焦高质量人工智能语料供给。库帕思成立于2024年
2025-02-20 15:49:00
星环科技创始人、CEO孙元浩:大数据与AI将深度融合|AI 领先者心声・2025
...数据技术和AI大模型技术将进一步深度融合,通过自动化语料开发工具将文档、图片、音视频等海量多模态语料转换为高质量的专业领域知识,通过多模型统一技术架构实现统一存储管理,帮助企
2025-01-02 19:49:00
...关问题的专业能力,研发团队完成了地理学全谱系高质量语料库构建、地理科学语言大模型构建、地理科学研究智导平台研发等工作,让“坤元”具备“懂地理”“精配图”“知人心”“智生图”等
2024-09-19 15:08:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...右我们对世界的认识方式。 文化出海应包括数据出海,语料库是未来文化软实力如果仔细分析Sora生成内容的美学要素,就能够轻易发现,它的审美范式依旧是这一“犹他大学—好莱坞—皮
2024-04-10 10:41:00
更多关于科技的资讯:
82岁老人换了新手机,但不熟悉操作,结果误开通多项收费业务。3月11日,老人收到扣费短信后向网格员求助,顺利取消了扣费服务
2026-03-11 17:36:00
中新经纬3月11日电 (董湘依)近年来,中国文化“新三样”(网文、网剧、网游)在海外迅速走红。全国两会期间,全国政协委员
2026-03-11 19:27:00
中新经纬3月11日电 题:“养龙虾”火出圈 ,算力变成稀缺资源作者 薛洪言 星图金融研究院常务副院长、苏商银行特约研究员2026年的早春
2026-03-11 19:28:00
河北新闻网讯(闫丽颖、唐福刚)近日,开滦股份范各庄矿聚焦“物理隔离+智能管控”核心需求,创新应用一套具备智能闭锁、声光报警
2026-03-11 19:51:00
中国联通eSIM尝鲜季再添新力
3月11日上午,中国联通eSIM尝鲜季——三星国内首款eSIM手机Galaxy S26系列首销仪式在西单北营业厅隆重举行
2026-03-11 14:14:00
大皖新闻讯 家里空调、冰箱等家电出故障,找维修却怕遇上“小病大修”“坐地起价”。别愁,专为安徽消费者打造的家电维修“放心平台”来了
2026-03-11 14:55:00
近日,备受瞩目的2025年度“吴文俊人工智能科学技术奖”获奖名单正式揭晓。罗普特(股票代码:688619.SH)作为主要完成单位参与的《面向海上安防的通感算一体化大数据智能处理关键技术及产业化》项目
2026-03-11 15:01:00
新华保险“空中柜面”让保单服务零距离
鲁网3月11日讯“您好,欢迎使用新华保险空中柜面服务!”当客户通过手机视频联系接通后台柜员时,这一句温暖的问候便会准时响起
2026-03-11 16:35:00
新华社记者 曾晋“你‘养龙虾’了吗?”这句略显无厘头的有趣问话,说的可是最近科技圈的一件大事。此“龙虾”并非餐桌上的美味
2026-03-11 16:02:00
长白时评评论员 丁铁巴基斯坦独立新闻社日前报道,曾是大型农场专属的现代农业机械化,正因中国农机驶入全球田间地头被改写,手工耕作的辛劳正被高效的机械作业替代
2026-03-11 11:32:00
降噪新科技,轻松听清晰,潜能发展更可期----科利耳Nucleus™ 8以创新聆听赋能成长
在移动互联高度发达的当下,听损人士的生活场景愈发多元:孩子们在游乐场嬉戏,笑声与广播声交织;学生们在校园里讨论,声音此起彼伏
2026-03-11 13:01:00
海湾深化转型,打造第二增长曲线
2025年,海湾安全技术有限公司(以下简称"海湾")迈入发展新阶段,在消防行业深度变革的浪潮中交出了一份亮眼的答卷。新年伊始
2026-03-11 13:02:00
八马以科技为翼,武夷山超级工厂破解茶行业非标发展桎梏
中国茶行业千年发展,却长期受困于“非标”痛点,品质参差、产能有限成为行业升级的最大阻碍。而作为“高端中国茶第一股”的八马茶业
2026-03-11 13:04:00
实现社保一站式便民服务厦门“汇智办”让缴费人“会自办”东南网3月11日讯(海峡导报记者 孙春燕 通讯员 杨楠欢 叶璐璐 廖皓宇) 受春节过后的“返工潮”影响
2026-03-11 13:46:00
探路制造出海“关键一跃”:华南师范大学调研团队走进华翱集团
面对复杂多变的国际环境,佛山制造业正迎来新一轮深度转型的关键期。从深耕国内市场到逐鹿全球蓝海,如何实现从单一“产品出海”向涵盖“技术-制造-品牌”的全链条出海跨越
2026-03-11 13:04:00