• 我的订阅
  • 科技

开源数据总量逾2TB,多模态语料“书生·万卷”发布

类别:科技 发布时间:2023-08-14 22:46:00 来源:人民资讯

本文转自:人民日报客户端

沈文敏

继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”,上海人工智能实验室于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。

“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等特征。其中,文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等领域。图文数据主要来自公开网页,经处理后形成图文交错文档,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等领域。视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-15 06:45:16

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

千行百业加速拥抱大模型(AI前沿观察)
...国内大模型快速发展对高质量数据的迫切需求,推动中文语料数据资源加快共建共享。今年7月,2023世界人工智能大会发起成立了中国大模型语料数据联盟。8月,上海人工智能实验室宣布,
2023-12-22 03:26:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间
2023-03-15 13:30:00
产品周报262期 | 快手职级体系调整,微信公众号新增图片修改功能
...5,共10级,改为连续编号,不再设细分小档。中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”上海人工智能实验室(上海AI实验室)8月14日宣布,联合语料数据联盟成
2023-08-18 09:00:00
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?
...地”的弱智吧,最近竟摇身一变成了——最佳中文AI训练语料库?由此受到启发,是否并不是训练AI的优质数据不够用,而是还有更多宝藏数据资源值得深挖?近日,由中科院深圳先进技术研究
2024-04-15 17:00:00
首个语料库建设导则面世!近二十家企业共同发布
...海7月6日电 (记者唐小丽)高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。7月6日上午,2024世界人工智能大会语料主题论坛在上海世博中心举办。本次论坛以“语料
2024-07-06 17:50:00
上海:加速实施“模塑申城”
...的AI生态圈探营现场。人民网记者 董志雯摄在AI应用中,语料质量直接决定了模型的性能。库帕思正专注于大模型和垂类模型的发展,聚焦高质量人工智能语料供给。库帕思成立于2024年
2025-02-20 15:49:00
星环科技创始人、CEO孙元浩:大数据与AI将深度融合|AI 领先者心声・2025
...数据技术和AI大模型技术将进一步深度融合,通过自动化语料开发工具将文档、图片、音视频等海量多模态语料转换为高质量的专业领域知识,通过多模型统一技术架构实现统一存储管理,帮助企
2025-01-02 19:49:00
...关问题的专业能力,研发团队完成了地理学全谱系高质量语料库构建、地理科学语言大模型构建、地理科学研究智导平台研发等工作,让“坤元”具备“懂地理”“精配图”“知人心”“智生图”等
2024-09-19 15:08:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...右我们对世界的认识方式。 文化出海应包括数据出海,语料库是未来文化软实力如果仔细分析Sora生成内容的美学要素,就能够轻易发现,它的审美范式依旧是这一“犹他大学—好莱坞—皮
2024-04-10 10:41:00
更多关于科技的资讯:
为夯实业务转型升级根基,切实提升普惠金融服务质效,近日,滦州农商银行举办信贷新模式及信贷产品专题培训会。该行信贷相关条线骨干
2026-01-19 17:02:00
1月18日,由城市头条有限公司主办的融媒体平台“城市头条”宣布其官方移动应用“城市头条APP”已正式在官网及各主要应用商店上线
2026-01-19 16:55:00
肥乡联社始终践行“以客户为中心”的服务理念,聚焦网点服务提质增效,不断创新服务模式、精进服务技能、丰富厅堂服务内涵,将服务触角深度延伸至城乡末梢
2026-01-19 14:55:00
1月18日,2026华杰新品盛典暨AIX大家居智能增长引擎发布会在石家庄举办。本次活动以“格物·开悟”为内核,聚焦面向核心伙伴的 "能力交付",共同探索家居行业的智造升级与增长新
2026-01-19 15:35:00
近日,中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)凭借在保险主业、社会责任
2026-01-19 15:50:00
当黄仁勋在 CES 展台上宣告物理 AI 的 “ChatGPT 时刻” 已至,屏幕这头的大学生群体瞬间分裂成两派:有人对着能精准缝合的手术机器人畅想未来
2026-01-19 15:59:00
2026年深圳网上年货节启动
中国消费者报深圳讯(记者黄劼)1月16日,2026年深圳网上年货节启动仪式在深圳市南山区京东Mall南山店成功举行。年货节以“暖冬嘉年华 年货合家欢”为主题
2026-01-19 14:17:00
鲁网1月19日讯近日,国家水利部正式发布《节水先进成熟适用技术设备名录(2025年)》。在此次国家级节水技术评选中,泰安市科技创新成果“双星闪耀”——东平力创科技有限公司与泰安市智慧能源科技有限公司的领先技术成功入选
2026-01-19 11:06:00
“智改数转”激活新动能 固安制造业向“新”力十足
河北新闻网讯(万倩、臧子祺、韩佳臻)近日,在固安县萨牌智能驱动技术(河北)有限公司的测试车间里,一台智能叉车正静默而精准地执行着指令
2026-01-19 11:06:00
光储直柔一体机亮相武汉工商学院
荆楚网(湖北日报网)讯(记者唐天琪 通讯员王蕾、蓝静)1月16日,一台可实现电力能源“自产、自储、自用、自调”的光储直柔一体机在武汉工商学院正式亮相
2026-01-19 12:01:00
江南时报讯 近日,苏州横扇中新智地产业园区1138KWp分布式光伏项目顺利并网发电。从方案落地到设备投运,吴江横扇供电所以“靠前对接
2026-01-19 13:05:00
重庆钢铁成功取得CRCC认证,正式进入铁路耐候钢市场
近日,重庆钢铁铁标耐候钢产品顺利通过中铁检验认证中心(CRCC)权威认证,标志着公司在该产品质量管理体系与实物质量上全面契合铁路行业严苛标准
2026-01-19 14:00:00
携手商家共拓增长新空间助力线下消费,抖音生活服务城市生态大会济南站启幕
鲁网1月19日讯1月16日,“域见美好生活·这一站济南”2026抖音生活服务城市生态大会暨北部大区年度盛典在济南召开。大会由山东省文化和旅游厅
2026-01-19 11:40:00
京东联合五大服饰品牌发布2025超级面料消费观察
你是否曾设想,一件衣物也能如“智能空调”般自动调节温度?你是否曾设想,穿过的羽绒服无需刻意清洗?你是否曾设想,冬日的保暖衣物能够自主发热
2026-01-19 11:07:00
潍坊国补正式落地,三联家电41周年店庆点燃消费热情
鲁网1月19日讯1月17日上午,潍坊市奎文区2026年家电以旧换新暨海尔年货节、三联家电41周年店庆启动仪式在三联家电东风店户外广场隆重举行
2026-01-19 11:03:00