• 我的订阅
  • 科技

开源数据总量逾2TB,多模态语料“书生·万卷”发布

类别:科技 发布时间:2023-08-14 22:46:00 来源:人民资讯

本文转自:人民日报客户端

沈文敏

继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”,上海人工智能实验室于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。

“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等特征。其中,文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等领域。图文数据主要来自公开网页,经处理后形成图文交错文档,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等领域。视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-15 06:45:16

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

千行百业加速拥抱大模型(AI前沿观察)
...国内大模型快速发展对高质量数据的迫切需求,推动中文语料数据资源加快共建共享。今年7月,2023世界人工智能大会发起成立了中国大模型语料数据联盟。8月,上海人工智能实验室宣布,
2023-12-22 03:26:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间
2023-03-15 13:30:00
产品周报262期 | 快手职级体系调整,微信公众号新增图片修改功能
...5,共10级,改为连续编号,不再设细分小档。中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”上海人工智能实验室(上海AI实验室)8月14日宣布,联合语料数据联盟成
2023-08-18 09:00:00
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?
...地”的弱智吧,最近竟摇身一变成了——最佳中文AI训练语料库?由此受到启发,是否并不是训练AI的优质数据不够用,而是还有更多宝藏数据资源值得深挖?近日,由中科院深圳先进技术研究
2024-04-15 17:00:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...右我们对世界的认识方式。 文化出海应包括数据出海,语料库是未来文化软实力如果仔细分析Sora生成内容的美学要素,就能够轻易发现,它的审美范式依旧是这一“犹他大学—好莱坞—皮
2024-04-10 10:41:00
...共性、公益性数据共同空间,构建面向行业的高质量中文语料数据库,推动典型行业数据汇集、访问、共享、处理和使用。基于隐私计算支撑样本数据流通安全,搭建可信数据标注和模型训练环境。
2023-11-13 10:50:00
星环科技成功举办数据要素市场与大模型语料库论坛
...1场数据交易节及20场主题论坛。11月26日,由中国大模型语料数据联盟指导,上海数据交易所、星环信息科技(上海)股份有限公司主办,上海市数商协会协办的“数据要素市场与大模型语
2023-11-27 16:02:00
商汤科技发布“书生·浦语”大模型 中文考试超越ChatGPT
...的数据集。CNMO获悉,早在今年3月,商汤科技便发布了多模态多任务通用大模型“书生(INTERN)2.5”。据官方介绍,“书生2.5”实现了通过文本来定义任务,并根据给定视觉
2023-06-08 00:13:00
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...000张GPU,我们只要1200张。”Yi的训练数据主要来源于公开语料的爬取和数据库。李开复介绍,训练数据的难点在于重复率高、质量低。通过清晰,团队从100多T的数据中筛选出
2023-11-06 12:13:00
更多关于科技的资讯: