• 我的订阅
  • 科技

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

类别:科技 发布时间:2024-04-15 17:00:00 来源:搜狐科技
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

出品|搜狐科技

作者|郑松毅

谁能想到,被誉为“最大原创段子手孵化地”的弱智吧,最近竟摇身一变成了——最佳中文AI训练语料库?

由此受到启发,是否并不是训练AI的优质数据不够用,而是还有更多宝藏数据资源值得深挖?

近日,由中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校组成的联合研究团队,为推动中文AI的发展,前往各大中文社交媒体和论坛取材,经过严格筛选和细致处理,构建了一份高质量中文指令微调数据集“COIG-CQIA”,用于AI训练。

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

论文称,这份数据集中的数据来源于知乎、小红书、豆瓣、弱智吧等社交平台,旨在构建一个多样化的指令微调数据集,以提升大模型对中文指令的理解和响应能力。

在AI训练之余,研究人员也好奇地测验了下不同平台的数据质量,获得下图跑分。

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

其中,“Ruozhiba(弱智吧)”数据集在头脑风暴、分类、生成、总结等八个评测项目中夺得最高分,且总评分稳居第一。

看到这,网友们调侃道,“人工智能取代一切,但无法取代弱智。”

“弱智吧”的数据究竟有啥特别之处?什么样的数据对AI来说是优质的?带着这些问题,搜狐科技对话了清华大学自动化系教授、中国人工智能学会常务理事陶建华。

什么样的数据是优质的?

“弱智吧”还真不是顾名思义,它是百度贴吧上的一个子版块。在弱智吧,吧友是段子手、是诗人、是哲学家,唯独不是弱智。

话不多说,先展示一些吧友整理的经典语录供大家细品:

“为什么要感到伤心,难道你的生活还不够可笑吗?”

“被门夹过的核桃,还能补脑吗?”

“每天吃一粒感冒药,还会感冒吗?”

“我买了一斤藕,为什么半斤都是空的?”

“变形金刚买保险是买车险还是人险?”

“去自首的路上被抓了还算自首吗?”

“每个人都在赚钱,那么谁在亏钱?”

可以看出,在弱智吧,深层次的幽默和思想常以无厘头的风格藏在字里行间。话说回来,把这样“奇葩”的数据喂给AI模型有什么作用呢?

陶建华向搜狐科技介绍,“弱智吧中的帖子有不少脑筋急转弯和双关语,包含更复杂的逻辑,并且表达简洁干练,数据较为干净,属于一种高质量数据。用这样的数据训练出的大模型,在部分场景的确会让人感觉逻辑推理能力更强。”

但他强调,“大模型的训练数据更应追求平衡性,弱智吧这样的数据的确会对逻辑推理能力有一定帮助,但在解决实际问题时,往往需要更广泛的覆盖不同场景和类型的数据。”

相信很多人会问,究竟什么样的数据属于优质数据,是大家追求的?

陶建华认为,优质的数据应具备以下3个特点:多样性、干净合理、及时性。

多样性主要指的是数据应该具有多种不同的来源,涉及不同领域、主题、风格的内容,覆盖面要广,甚至包括不同语言,并且不同领域的数据数量要均衡。这种多样性使得大模型能够更全面地理解和处理各种场景和任务。

干净合理是指数据要干净、无噪声,数据应该尽量减少错误与不合理的内容,确保数据的正确性。

及时性是指数据可以随着时间推移持续扩充与更新。

他表示,在一些专业领域,往往也需要一些带有对齐语义标签的数据。带有标签的数据能够明确指示数据样本与其对应属性或类别之间的关系。这种对应关系对于监督学习等机器学习算法至关重要,以便进行准确的预测和分类。

此外,在多模态大模型构建过程中,大规模也经常需要具有语义对齐的多模态数据,对模型的构建也是非常重要的。这些数据能够使大模型学习到不同模态(如图片和文字)之间的映射关系,从而能够实现“以图生文”、“以文生图”等性能。

2026年数据预言是真是假?

数据,是人工智能赖以发展的核心资源。如何解决“数据瓶颈”是未来一段时期我们即将面临或已经面临的挑战。

据业内人士分析,GPT-3于2020年推出,使用了3000亿的token;去年上线的GPT-4使用了12万亿token;如果遵循当前的增长轨迹,GPT-5可能会需要 60 万亿到 100 万亿的token。

根据去年 Epoch AI人工智能预测组织的一项研究,AI公司可能在 2026 年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于 2030 年至 2060 年之间。这意味着,“数据瓶颈”或成为制约AI发展的关键因素。

陶建华则认为,随着数据针对不同领域、主题、类别等方面的覆盖逐渐丰富,高质量数据的增长趋势的确会在一定程度上放缓,但在数字化快速发展的时代,每天都会生成大量的数据,尤其是会不断产生新的应用领域(包括专业领域),高质量数据依然会继续增长。

“当然在算力受限的情况下,数据量大,不一定代表模型就能处理的过来,因为算力的制约,导致大模型的参数规模无法迅速扩大,必然也会影响对更大规模数据的处理能力。”

陶建华介绍,在某些领域,数据还会存在稀疏不够的情况,有时采用“合成数据”也是一种弥补数据短缺的方法,即利用仿真技术或者AIGC技术生成数据,来扩充数据的规模,在很多情况下,也能取得很好的模型训练和应用效果。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-15 17:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“百花齐放” 业界合力“充实”中文语料数据
...型这个“冷灶”真正“烧热”起来。他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。
2023-09-08 21:31:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
...少业内人士已嗅到一丝危机:全能,意味着需要更强大的语料库来训练AI,而优质的AI语料已经越来越稀缺。AI语料,简单来说,就是用于训练和优化人工智能模型的数据集合。这些数据可以
2024-06-06 08:18:00
...京召开发布会,面向社会发布用于大模型的首批中文基础语料库。据悉,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚
2023-12-22 18:20:00
知乎 AI 革命:智能搜索与实时问答的融合
...容有更多被采集、使用和预训练的可能。参与国家级中文语料库建设,成为重要的语料建设者。整个社区的激进 AI 化。AI 进行提问,更负责回答。知乎社区将出现大量的 AI 数字人作
2024-03-31 21:00:00
千行百业加速拥抱大模型(AI前沿观察)
...云、中科创达、蚂蚁集团等17家企业发布《“中文互联网语料库”共建共享倡议书》。数据交易日益兴起,为大模型获取语料资源提供了新途径。《上海市推动人工智能大模型创新发展若干措施(
2023-12-22 03:26:00
...量、规模化、低成本。去年11月,景联文入围了杭州国家语料库首批高质量数据集建设先行先试“揭榜挂帅”名单。公司入选榜单的是《教育大模型英文知识数据集》产品。其中包含了经标准化处
2026-02-11 17:58:00
中文公共语料库建设新范式:腾讯AI向善语料库正式开放申请
2025年7月11日,腾讯AI向善语料库开放发布会在北京举行,这次发布会的主题是“AI时代没有旁观席,AI普惠一个不能少”。发布会上,腾讯与百余家社会组织公益共创的AI向善语料库
2025-07-11 22:07:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。而在数据质量上,通过质量模型对数据进行打分,对原始数据
2023-06-15 16:53:00
更多关于科技的资讯:
聚焦雄安新区丨“人工智能+”开拓产业发展新赛道
“人工智能+”开拓产业发展新赛道——2026年雄安新区“人工智能+”创新生态系列活动观察人工智能,是雄安新区大力发展的主导产业之一
2026-02-12 08:47:00
在多个短视频平台和电商平台上,不少账号公开发布视频,称可以绕开一些平台的人脸识别验证。这些视频中,有人遮挡住手机摄像头
2026-02-12 08:58:00
当前,健康中国战略深入实施,智能健身市场需求激增,舒华体育深化"AI运动科技"定位,推动奥运技术全面渗透至各类场景,让大众共享科学健身成果
2026-02-12 09:28:00
以旧换新激活潍坊消费新引擎:一场政策引领的绿色消费革命
鲁网2月11日讯(记者 王玉龙)2025年,潍坊市消费品以旧换新直接拉动消费160亿元,是2024年的4.2倍;129万人次享受到20
2026-02-12 09:56:00
“西湖纹样”小程序正式上线杭州日报讯 第十九届杭州文博会上,西湖区的展馆前天天大排长龙。纹样编织袋、纹样透卡、纹样茶点礼盒
2026-02-12 06:41:00
2月6日,上海超导科技股份有限公司向太原钢铁(集团)有限公司发出一封感谢信,披露太钢与该企业一场历时五年的联合攻坚结出的硕果
2026-02-12 07:31:00
李建南摘要:随着大模型在预测、生成与复杂模式识别中的广泛应用,统计建模范式正在经历深刻转变。相较于以概率假设与参数推断为核心的传统统计模型
2026-02-12 07:32:00
以科技自立自强构筑创新高地杭州日报讯 近日,在湖州莫干山高新区,灵心巧手(Linkerbot)年产3万套具身智能机器人灵巧手的超级工厂项目正在全速推进
2026-02-12 07:11:00
中新经纬2月11日电 据国家市场监督管理总局网站消息,2月4日,国务院反垄断反不正当竞争委员会印发施行《关于公用事业领域的反垄断指南》(以下简称《指南》)
2026-02-11 20:18:00
季季有主题,周周有优惠!2026年河北省电影惠民观影促消费活动启动
河北日报客户端讯(记者肖煜)为积极响应落实国家电影局全国电影惠民消费季安排,进一步激活河北电影市场消费潜力,丰富群众文化生活
2026-02-11 22:05:00
2025国际宠物博览会落幕:Benarmi倡导全生命周期健康管理
12月20日,2025国际宠物博览会在北京市平谷区博物馆、体育中心拉开帷幕,汇聚全球名宠、产业企业与创新项目,集中展现宠物经济的前沿动态与发展趋势
2026-02-11 20:08:00
“民生科幻”领军人吴楚新作《背叛文明》出版,聚焦星际外交博弈
如果高等文明的馈赠是一颗带毒的蜜糖,那人类是否有智慧拒绝唾手可得的诱惑?当思想需要向未来跨出一大步时,阅读科幻依然是当下最高效的途径
2026-02-11 17:22:00
随着云计算、大数据、人工智能等数智技术的迅猛发展,传统劳动形态正经历着前所未有的变革。工作场所的虚拟化、劳动时间的弹性化以及用工关系的多元化
2026-02-11 17:31:00
厦门城市可信数据空间开放试运行推出“马上有数”进驻激励计划 首发5个月资源免费共享东南网2月11日讯 (海峡导报记者 康泽辉) 近日
2026-02-11 17:50:00
元梦空间荣膺两项大奖 闪耀2025人工智能未来设计大赛
2025年11月10日,由工业和信息化部工业文化发展中心主办的2025“人工智能未来设计大赛”全国总决赛在山西太原圆满落幕
2026-02-11 17:50:00