• 我的订阅
  • 科技

大模型“百花齐放” 业界合力“充实”中文语料数据

类别:科技 发布时间:2023-09-08 21:31:00 来源:每日看点快看

本文转自:中国新闻网

中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。

上海人工智能实验室主任助理王延峰说,ChatGPT令人惊艳,但它对中文的理解还不尽人意。

大模型“百花齐放” 业界合力“充实”中文语料数据

9月8日,中国大模型语料数据联盟在上海又吸纳了一批新成员。中新网记者 郑莹莹 摄

大模型时代带来以数据为中心的人工智能领域新发展,但“投喂”哪些数据备受关注。王延峰在接受记者采访时表示,语料数据不仅要量大,而且要高质量,“就像培养一个孩子一样,投入高质量的教育,才有高质量的‘输出’。”

对于中文语料数据的不足,他表示,中文语料数据对于大模型能力的提升至关重要,业界需要高质量的中文语料数据集。

上海蜜度信息技术有限公司(简称:蜜度)首席技术官刘益东在受访时指出,目前中国国内的大模型训练里,非常缺少高质量的中文语料数据集,“现在很多市面上的大模型主要是基于外文资料,再加上少量的中文资料,这样训练出来的大模型,对中文的理解能力以及对中文内容的生成能力是有欠缺的。”

蜜度是此次加入中国大模型语料数据联盟的9位“新成员”之一。现场,蜜度发布了包含7000多万条数据的开源中文语料数据集。

刘益东说,在大模型“百花齐放”的发展背景下,需要有一些机构或团体去做“公共建设”,去推动这个行业的发展,企业乐于加入其中。

上海市经济和信息化委员会人工智能发展处处长王志佳表示,“百模大战”不是一场零和游戏,携手并进才能把生成式人工智能真正与生产力相结合,把大模型这个“冷灶”真正“烧热”起来。

他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-09 00:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...京召开发布会,面向社会发布用于大模型的首批中文基础语料库。据悉,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚
2023-12-22 18:20:00
大模型驱动行业创新 媒体机构探索AI数据要素开发
...未来,AI将创造出一种新型的“人机共存消费模式”。“语料数据是大模型训练的重要‘燃料’,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。”王巍表示,从目
2023-11-15 08:28:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
国内首个类ChatGPT模型发布,服务器被挤崩
...在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。MOSS的研发团队也承认:“MOSS的模型基座学习了3000多亿个英文
2023-03-02 13:52:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...发布了第一个开源大模型,百川智能是如何做到的?训练语料对大模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数
2023-06-15 16:53:00
AI搜索的知乎方案,以专业答主和优质语料减少AI幻觉
...到25亿美元,并受到英伟达创始人黄仁勋的青睐。国内则百花齐放,先后涌现了天工AI、腾讯元宝、月之暗面Kimi、零一万物万知等应用。随着6月29日知乎发布知乎直答,牌桌上再添一
2024-08-07 12:12:00
中文公共语料库建设新范式:腾讯AI向善语料库正式开放申请
2025年7月11日,腾讯AI向善语料库开放发布会在北京举行,这次发布会的主题是“AI时代没有旁观席,AI普惠一个不能少”。发布会上,腾讯与百余家社会组织公益共创的AI向善语料库
2025-07-11 22:07:00
...少业内人士已嗅到一丝危机:全能,意味着需要更强大的语料库来训练AI,而优质的AI语料已经越来越稀缺。AI语料,简单来说,就是用于训练和优化人工智能模型的数据集合。这些数据可以
2024-06-06 08:18:00
业界:发挥优势多措并举推动人工智能与产业融合发展
...人兼CEO梅涛在发言中表示,一是加速技术创新,二是营造百花齐放的发展生态,三是持续加强基础算力设施建设。
2023-08-29 18:51:00
更多关于科技的资讯:
海尔智慧家庭与小度战略合作:双向控制,生态互通
伴随市场需求从单品向全屋智能深入,智能家居生态正从过去单一入口向着多入口、多圈层的生态体系迈进。特别是互联平台的兼容性方面
2025-11-16 15:16:00
摘要:本文围绕企业绩效管理体系的构建与完善展开研究,首先明确该体系的核心构成,包含目标设定、过程监控、评估实施与结果应用四个相互衔接的环节
2025-11-15 05:22:00
厦门软件园健康马拉松赛开跑 引入AI陪跑员
厦门网讯(厦门日报记者 林露虹 摄影报道)“我的‘跑友’是机器人!”昨日,厦门软件园第十七届健康马拉松赛在软件园二期热力开跑
2025-11-15 08:20:00
吉林本土动画电影《疯狂电脑城》,凭啥在海外频频获奖?
在温哥华华语电影节上,吉林动画学院师生联合打造的《疯狂电脑城》摘得“最佳动画片奖”,这已经不是该片第一次出海,2024年
2025-11-15 19:01:00
摘要:本文聚焦数字化转型背景下企业行政管理效率提升问题,首先剖析数字化转型与企业行政管理的内在关联,指出二者通过流程优化
2025-11-15 05:22:00
2025网聚美好安徽|“双路由”直连上海 看宿州腾“云”而上
大皖新闻讯 11月14日,“皖美十四五 再启新征程”2025网聚美好安徽网络主题活动采访团走进位于宿州高新区的汴水之畔超级计算中心
2025-11-15 10:05:00
“世界舞台”上秀一圈,南京收获了什么?
进博会圆满落幕,南京交易分团意向成交9.98亿美元“世界舞台”上秀一圈,南京收获了什么?□南京日报/紫金山新闻记者 黄琳燕11月10日
2025-11-14 08:38:00
埃斯顿工业机器人出货量持续增长 宁企连续三季霸榜国内“一哥”
11月13日,在江宁开发区埃斯顿智能制造示范车间内,工业机器人正在做各种场景应用展示。宁企埃斯顿今年前三季度机器人总销量约25000台
2025-11-14 08:39:00
一批创新产品亮相“宁创新品”信创产业教育专场活动 只需3步,20分钟完成全班作业批改南报网讯(记者徐宁)上传空白试卷和答案
2025-11-14 08:39:00
以AI引擎打造数字化转型山西模式
图片由讲述人提供讲述人 山西数据流量谷副总经理邵同旭我是山西数据流量谷的邵同旭,长期专注于数据要素与人工智能领域。多年来
2025-11-14 08:52:00
岁末是金融服务的“大考期”,业务量激增、客户需求多元叠加。张家口农商银行宣泰支行聚焦柜面运营核心环节,以“压降投诉、提升质量
2025-11-14 10:07:00
秋实如今,快节奏的都市生活中,“情绪消费”成为一种新的消费方式。数据显示,超九成青年认可情绪价值,近六成青年愿意为情绪价值买单
2025-11-14 11:28:00
新华社记者王雨萧周蕊一杯咖啡,能勾勒出怎样的经济图景?从云南绵延百万余亩的咖啡种植园,到上海梧桐树下香气氤氲的创意特调
2025-11-14 11:28:00
惠依近日,深圳大学深圳城市传播创新研究中心发布《短视频用户的算法实践与“破茧”报告》。《报告》显示,与一些人担忧“信息茧房”形成对比
2025-11-14 11:28:00
如新荣获2025消费责任对话活动客户服务创新典型案例
2025年11月5日,以“大力提振消费 品质服务担当”为主题的消费责任对话活动在成都成功举办。本次活动由中国消费者协会
2025-11-14 11:29:00