• 我的订阅
  • 科技

大模型“百花齐放” 业界合力“充实”中文语料数据

类别:科技 发布时间:2023-09-08 21:31:00 来源:每日看点快看

本文转自:中国新闻网

中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。

上海人工智能实验室主任助理王延峰说,ChatGPT令人惊艳,但它对中文的理解还不尽人意。

大模型“百花齐放” 业界合力“充实”中文语料数据

9月8日,中国大模型语料数据联盟在上海又吸纳了一批新成员。中新网记者 郑莹莹 摄

大模型时代带来以数据为中心的人工智能领域新发展,但“投喂”哪些数据备受关注。王延峰在接受记者采访时表示,语料数据不仅要量大,而且要高质量,“就像培养一个孩子一样,投入高质量的教育,才有高质量的‘输出’。”

对于中文语料数据的不足,他表示,中文语料数据对于大模型能力的提升至关重要,业界需要高质量的中文语料数据集。

上海蜜度信息技术有限公司(简称:蜜度)首席技术官刘益东在受访时指出,目前中国国内的大模型训练里,非常缺少高质量的中文语料数据集,“现在很多市面上的大模型主要是基于外文资料,再加上少量的中文资料,这样训练出来的大模型,对中文的理解能力以及对中文内容的生成能力是有欠缺的。”

蜜度是此次加入中国大模型语料数据联盟的9位“新成员”之一。现场,蜜度发布了包含7000多万条数据的开源中文语料数据集。

刘益东说,在大模型“百花齐放”的发展背景下,需要有一些机构或团体去做“公共建设”,去推动这个行业的发展,企业乐于加入其中。

上海市经济和信息化委员会人工智能发展处处长王志佳表示,“百模大战”不是一场零和游戏,携手并进才能把生成式人工智能真正与生产力相结合,把大模型这个“冷灶”真正“烧热”起来。

他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-09 00:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...京召开发布会,面向社会发布用于大模型的首批中文基础语料库。据悉,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚
2023-12-22 18:20:00
大模型驱动行业创新 媒体机构探索AI数据要素开发
...未来,AI将创造出一种新型的“人机共存消费模式”。“语料数据是大模型训练的重要‘燃料’,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。”王巍表示,从目
2023-11-15 08:28:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
国内首个类ChatGPT模型发布,服务器被挤崩
...在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。MOSS的研发团队也承认:“MOSS的模型基座学习了3000多亿个英文
2023-03-02 13:52:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...发布了第一个开源大模型,百川智能是如何做到的?训练语料对大模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数
2023-06-15 16:53:00
AI搜索的知乎方案,以专业答主和优质语料减少AI幻觉
...到25亿美元,并受到英伟达创始人黄仁勋的青睐。国内则百花齐放,先后涌现了天工AI、腾讯元宝、月之暗面Kimi、零一万物万知等应用。随着6月29日知乎发布知乎直答,牌桌上再添一
2024-08-07 12:12:00
...少业内人士已嗅到一丝危机:全能,意味着需要更强大的语料库来训练AI,而优质的AI语料已经越来越稀缺。AI语料,简单来说,就是用于训练和优化人工智能模型的数据集合。这些数据可以
2024-06-06 08:18:00
知乎 AI 革命:智能搜索与实时问答的融合
...和未来,有三个基本的视角:它是大语言模型预训练中文语料最重要来源之一,例如最近现象级的大模型聊天应用 Kimi Chat,就以知乎为重要的训练资料来源(甚至是 80% 以上的
2024-03-31 21:00:00
业界:发挥优势多措并举推动人工智能与产业融合发展
...人兼CEO梅涛在发言中表示,一是加速技术创新,二是营造百花齐放的发展生态,三是持续加强基础算力设施建设。
2023-08-29 18:51:00
更多关于科技的资讯: