• 我的订阅
  • 科技

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

类别:科技 发布时间:2024-04-15 17:00:00 来源:搜狐科技
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

出品|搜狐科技

作者|郑松毅

谁能想到,被誉为“最大原创段子手孵化地”的弱智吧,最近竟摇身一变成了——最佳中文AI训练语料库?

由此受到启发,是否并不是训练AI的优质数据不够用,而是还有更多宝藏数据资源值得深挖?

近日,由中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校组成的联合研究团队,为推动中文AI的发展,前往各大中文社交媒体和论坛取材,经过严格筛选和细致处理,构建了一份高质量中文指令微调数据集“COIG-CQIA”,用于AI训练。

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

论文称,这份数据集中的数据来源于知乎、小红书、豆瓣、弱智吧等社交平台,旨在构建一个多样化的指令微调数据集,以提升大模型对中文指令的理解和响应能力。

在AI训练之余,研究人员也好奇地测验了下不同平台的数据质量,获得下图跑分。

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

其中,“Ruozhiba(弱智吧)”数据集在头脑风暴、分类、生成、总结等八个评测项目中夺得最高分,且总评分稳居第一。

看到这,网友们调侃道,“人工智能取代一切,但无法取代弱智。”

“弱智吧”的数据究竟有啥特别之处?什么样的数据对AI来说是优质的?带着这些问题,搜狐科技对话了清华大学自动化系教授、中国人工智能学会常务理事陶建华。

什么样的数据是优质的?

“弱智吧”还真不是顾名思义,它是百度贴吧上的一个子版块。在弱智吧,吧友是段子手、是诗人、是哲学家,唯独不是弱智。

话不多说,先展示一些吧友整理的经典语录供大家细品:

“为什么要感到伤心,难道你的生活还不够可笑吗?”

“被门夹过的核桃,还能补脑吗?”

“每天吃一粒感冒药,还会感冒吗?”

“我买了一斤藕,为什么半斤都是空的?”

“变形金刚买保险是买车险还是人险?”

“去自首的路上被抓了还算自首吗?”

“每个人都在赚钱,那么谁在亏钱?”

可以看出,在弱智吧,深层次的幽默和思想常以无厘头的风格藏在字里行间。话说回来,把这样“奇葩”的数据喂给AI模型有什么作用呢?

陶建华向搜狐科技介绍,“弱智吧中的帖子有不少脑筋急转弯和双关语,包含更复杂的逻辑,并且表达简洁干练,数据较为干净,属于一种高质量数据。用这样的数据训练出的大模型,在部分场景的确会让人感觉逻辑推理能力更强。”

但他强调,“大模型的训练数据更应追求平衡性,弱智吧这样的数据的确会对逻辑推理能力有一定帮助,但在解决实际问题时,往往需要更广泛的覆盖不同场景和类型的数据。”

相信很多人会问,究竟什么样的数据属于优质数据,是大家追求的?

陶建华认为,优质的数据应具备以下3个特点:多样性、干净合理、及时性。

多样性主要指的是数据应该具有多种不同的来源,涉及不同领域、主题、风格的内容,覆盖面要广,甚至包括不同语言,并且不同领域的数据数量要均衡。这种多样性使得大模型能够更全面地理解和处理各种场景和任务。

干净合理是指数据要干净、无噪声,数据应该尽量减少错误与不合理的内容,确保数据的正确性。

及时性是指数据可以随着时间推移持续扩充与更新。

他表示,在一些专业领域,往往也需要一些带有对齐语义标签的数据。带有标签的数据能够明确指示数据样本与其对应属性或类别之间的关系。这种对应关系对于监督学习等机器学习算法至关重要,以便进行准确的预测和分类。

此外,在多模态大模型构建过程中,大规模也经常需要具有语义对齐的多模态数据,对模型的构建也是非常重要的。这些数据能够使大模型学习到不同模态(如图片和文字)之间的映射关系,从而能够实现“以图生文”、“以文生图”等性能。

2026年数据预言是真是假?

数据,是人工智能赖以发展的核心资源。如何解决“数据瓶颈”是未来一段时期我们即将面临或已经面临的挑战。

据业内人士分析,GPT-3于2020年推出,使用了3000亿的token;去年上线的GPT-4使用了12万亿token;如果遵循当前的增长轨迹,GPT-5可能会需要 60 万亿到 100 万亿的token。

根据去年 Epoch AI人工智能预测组织的一项研究,AI公司可能在 2026 年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于 2030 年至 2060 年之间。这意味着,“数据瓶颈”或成为制约AI发展的关键因素。

陶建华则认为,随着数据针对不同领域、主题、类别等方面的覆盖逐渐丰富,高质量数据的增长趋势的确会在一定程度上放缓,但在数字化快速发展的时代,每天都会生成大量的数据,尤其是会不断产生新的应用领域(包括专业领域),高质量数据依然会继续增长。

“当然在算力受限的情况下,数据量大,不一定代表模型就能处理的过来,因为算力的制约,导致大模型的参数规模无法迅速扩大,必然也会影响对更大规模数据的处理能力。”

陶建华介绍,在某些领域,数据还会存在稀疏不够的情况,有时采用“合成数据”也是一种弥补数据短缺的方法,即利用仿真技术或者AIGC技术生成数据,来扩充数据的规模,在很多情况下,也能取得很好的模型训练和应用效果。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-15 17:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“百花齐放” 业界合力“充实”中文语料数据
...型这个“冷灶”真正“烧热”起来。他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。
2023-09-08 21:31:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
...少业内人士已嗅到一丝危机:全能,意味着需要更强大的语料库来训练AI,而优质的AI语料已经越来越稀缺。AI语料,简单来说,就是用于训练和优化人工智能模型的数据集合。这些数据可以
2024-06-06 08:18:00
...京召开发布会,面向社会发布用于大模型的首批中文基础语料库。据悉,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚
2023-12-22 18:20:00
知乎 AI 革命:智能搜索与实时问答的融合
...容有更多被采集、使用和预训练的可能。参与国家级中文语料库建设,成为重要的语料建设者。整个社区的激进 AI 化。AI 进行提问,更负责回答。知乎社区将出现大量的 AI 数字人作
2024-03-31 21:00:00
千行百业加速拥抱大模型(AI前沿观察)
...云、中科创达、蚂蚁集团等17家企业发布《“中文互联网语料库”共建共享倡议书》。数据交易日益兴起,为大模型获取语料资源提供了新途径。《上海市推动人工智能大模型创新发展若干措施(
2023-12-22 03:26:00
中文公共语料库建设新范式:腾讯AI向善语料库正式开放申请
2025年7月11日,腾讯AI向善语料库开放发布会在北京举行,这次发布会的主题是“AI时代没有旁观席,AI普惠一个不能少”。发布会上,腾讯与百余家社会组织公益共创的AI向善语料库
2025-07-11 22:07:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。而在数据质量上,通过质量模型对数据进行打分,对原始数据
2023-06-15 16:53:00
星环科技成功举办数据要素市场与大模型语料库论坛
...司主办,上海市数商协会协办的“数据要素市场与大模型语料库论坛暨中国大模型语料数据联盟开放日活动”成功举办,活动上200余家大模型数据、人工智能及技术企业及相关机构代表出席会议
2023-11-27 16:02:00
更多关于科技的资讯:
曹县汉服“遇上”拼多多:95后的创业翻盘记
鲁网10月24日讯曹县,素有“中国汉服产业重镇”之称,曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言,汉服市场度过初期蓝海阶段后
2025-10-24 14:29:00
突破光谱检测瓶颈!中国计量大学本科生团队研制高分辨率光谱仪
通讯员:吴瑞鹏 何秋阳近日,第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中,全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”
2025-10-24 15:02:00
开普勒机器人登陆IROS 2025 以开放平台携手全球开发者共筑新生态
10月19日至25日,全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议(IROS 2025)在杭州隆重举行
2025-10-24 15:02:00
蓝月亮:用十二年为洁净艺术种下一棵“树”
10月23日,第十七届国际大学生暨青年艺术博览会(简称:大艺博)开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内
2025-10-24 15:14:00
京东工业与南方电网供应链集团签署战略合作 以数智技术驱动供应链全面升级
10月20日,京东工业与南方电网供应链集团在广州正式签署战略合作协议,双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段
2025-10-24 15:23:00
从OS到AI OS:荣耀MagicOS 10定义AI OS新时代
2025年10月23日,荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径
2025-10-24 15:32:00
最后窗口期!2025FHC上海环球食品展免费领票即将截止
2025FHC上海环球食品展已进入开幕倒计时!这场被誉为“全球食饮贸易超级接口”的盛会,已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积
2025-10-24 15:47:00
K90定价后引热议闪电降价,雷军:标准版12GB+512GB 版本首销月直降300元
2025年10月23日的红米K90发布会后,12GB+512GB版本原定价为3199元,但因用户反馈该版本与其他配置差价过大
2025-10-24 15:57:00
iPhone 17系列首批用户反应褪色? 苹果官方客服回应
近日,部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映,其设备遭遇了机身褪色问题
2025-10-24 15:59:00
阿里夸克AI眼镜开启预售 体验者:轻若无物,稳如长在脸上“看一眼”就能支付
阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元
2025-10-24 16:35:00
河北新闻网讯(梁轩轩)“原以为开业办税很繁琐,没想到这么简单!”近日,石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后
2025-10-24 16:59:00
近日,瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动,通过创新融合中医药文化
2025-10-24 17:06:00
“尖货”频出!临安这里科技含量UpUpUp
是一场什么样的比赛技术“尖货”频出“硬核”创新不断近日,2025“海康创行・瓴创青山”智能物联青山湖科技城高层次人才创业大赛第二期
2025-10-24 17:07:00
日前,邮储银行唐山市分行在其辖内网点全面推广集成化的“智能云柜”系统。该设备功能强大,整合了现金、非现金、凭证管理等逾400项个人业务
2025-10-24 17:08:00
行业领先全场景安装!海尔给“老铁门”装好了智能锁
近年来,智能门锁市场需求快速增长。数据显示,2025年上半年中国智能门锁全渠道销量达897万套,同比增长6.8%。市场火热的同时
2025-10-24 17:09:00