• 我的订阅
  • 科技

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

类别:科技 发布时间:2024-04-15 17:00:00 来源:搜狐科技
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

出品|搜狐科技

作者|郑松毅

谁能想到,被誉为“最大原创段子手孵化地”的弱智吧,最近竟摇身一变成了——最佳中文AI训练语料库?

由此受到启发,是否并不是训练AI的优质数据不够用,而是还有更多宝藏数据资源值得深挖?

近日,由中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校组成的联合研究团队,为推动中文AI的发展,前往各大中文社交媒体和论坛取材,经过严格筛选和细致处理,构建了一份高质量中文指令微调数据集“COIG-CQIA”,用于AI训练。

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

论文称,这份数据集中的数据来源于知乎、小红书、豆瓣、弱智吧等社交平台,旨在构建一个多样化的指令微调数据集,以提升大模型对中文指令的理解和响应能力。

在AI训练之余,研究人员也好奇地测验了下不同平台的数据质量,获得下图跑分。

“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?

其中,“Ruozhiba(弱智吧)”数据集在头脑风暴、分类、生成、总结等八个评测项目中夺得最高分,且总评分稳居第一。

看到这,网友们调侃道,“人工智能取代一切,但无法取代弱智。”

“弱智吧”的数据究竟有啥特别之处?什么样的数据对AI来说是优质的?带着这些问题,搜狐科技对话了清华大学自动化系教授、中国人工智能学会常务理事陶建华。

什么样的数据是优质的?

“弱智吧”还真不是顾名思义,它是百度贴吧上的一个子版块。在弱智吧,吧友是段子手、是诗人、是哲学家,唯独不是弱智。

话不多说,先展示一些吧友整理的经典语录供大家细品:

“为什么要感到伤心,难道你的生活还不够可笑吗?”

“被门夹过的核桃,还能补脑吗?”

“每天吃一粒感冒药,还会感冒吗?”

“我买了一斤藕,为什么半斤都是空的?”

“变形金刚买保险是买车险还是人险?”

“去自首的路上被抓了还算自首吗?”

“每个人都在赚钱,那么谁在亏钱?”

可以看出,在弱智吧,深层次的幽默和思想常以无厘头的风格藏在字里行间。话说回来,把这样“奇葩”的数据喂给AI模型有什么作用呢?

陶建华向搜狐科技介绍,“弱智吧中的帖子有不少脑筋急转弯和双关语,包含更复杂的逻辑,并且表达简洁干练,数据较为干净,属于一种高质量数据。用这样的数据训练出的大模型,在部分场景的确会让人感觉逻辑推理能力更强。”

但他强调,“大模型的训练数据更应追求平衡性,弱智吧这样的数据的确会对逻辑推理能力有一定帮助,但在解决实际问题时,往往需要更广泛的覆盖不同场景和类型的数据。”

相信很多人会问,究竟什么样的数据属于优质数据,是大家追求的?

陶建华认为,优质的数据应具备以下3个特点:多样性、干净合理、及时性。

多样性主要指的是数据应该具有多种不同的来源,涉及不同领域、主题、风格的内容,覆盖面要广,甚至包括不同语言,并且不同领域的数据数量要均衡。这种多样性使得大模型能够更全面地理解和处理各种场景和任务。

干净合理是指数据要干净、无噪声,数据应该尽量减少错误与不合理的内容,确保数据的正确性。

及时性是指数据可以随着时间推移持续扩充与更新。

他表示,在一些专业领域,往往也需要一些带有对齐语义标签的数据。带有标签的数据能够明确指示数据样本与其对应属性或类别之间的关系。这种对应关系对于监督学习等机器学习算法至关重要,以便进行准确的预测和分类。

此外,在多模态大模型构建过程中,大规模也经常需要具有语义对齐的多模态数据,对模型的构建也是非常重要的。这些数据能够使大模型学习到不同模态(如图片和文字)之间的映射关系,从而能够实现“以图生文”、“以文生图”等性能。

2026年数据预言是真是假?

数据,是人工智能赖以发展的核心资源。如何解决“数据瓶颈”是未来一段时期我们即将面临或已经面临的挑战。

据业内人士分析,GPT-3于2020年推出,使用了3000亿的token;去年上线的GPT-4使用了12万亿token;如果遵循当前的增长轨迹,GPT-5可能会需要 60 万亿到 100 万亿的token。

根据去年 Epoch AI人工智能预测组织的一项研究,AI公司可能在 2026 年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于 2030 年至 2060 年之间。这意味着,“数据瓶颈”或成为制约AI发展的关键因素。

陶建华则认为,随着数据针对不同领域、主题、类别等方面的覆盖逐渐丰富,高质量数据的增长趋势的确会在一定程度上放缓,但在数字化快速发展的时代,每天都会生成大量的数据,尤其是会不断产生新的应用领域(包括专业领域),高质量数据依然会继续增长。

“当然在算力受限的情况下,数据量大,不一定代表模型就能处理的过来,因为算力的制约,导致大模型的参数规模无法迅速扩大,必然也会影响对更大规模数据的处理能力。”

陶建华介绍,在某些领域,数据还会存在稀疏不够的情况,有时采用“合成数据”也是一种弥补数据短缺的方法,即利用仿真技术或者AIGC技术生成数据,来扩充数据的规模,在很多情况下,也能取得很好的模型训练和应用效果。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-15 17:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“百花齐放” 业界合力“充实”中文语料数据
...型这个“冷灶”真正“烧热”起来。他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。
2023-09-08 21:31:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
...少业内人士已嗅到一丝危机:全能,意味着需要更强大的语料库来训练AI,而优质的AI语料已经越来越稀缺。AI语料,简单来说,就是用于训练和优化人工智能模型的数据集合。这些数据可以
2024-06-06 08:18:00
...京召开发布会,面向社会发布用于大模型的首批中文基础语料库。据悉,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚
2023-12-22 18:20:00
知乎 AI 革命:智能搜索与实时问答的融合
...容有更多被采集、使用和预训练的可能。参与国家级中文语料库建设,成为重要的语料建设者。整个社区的激进 AI 化。AI 进行提问,更负责回答。知乎社区将出现大量的 AI 数字人作
2024-03-31 21:00:00
千行百业加速拥抱大模型(AI前沿观察)
...云、中科创达、蚂蚁集团等17家企业发布《“中文互联网语料库”共建共享倡议书》。数据交易日益兴起,为大模型获取语料资源提供了新途径。《上海市推动人工智能大模型创新发展若干措施(
2023-12-22 03:26:00
中文公共语料库建设新范式:腾讯AI向善语料库正式开放申请
2025年7月11日,腾讯AI向善语料库开放发布会在北京举行,这次发布会的主题是“AI时代没有旁观席,AI普惠一个不能少”。发布会上,腾讯与百余家社会组织公益共创的AI向善语料库
2025-07-11 22:07:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。而在数据质量上,通过质量模型对数据进行打分,对原始数据
2023-06-15 16:53:00
星环科技成功举办数据要素市场与大模型语料库论坛
...司主办,上海市数商协会协办的“数据要素市场与大模型语料库论坛暨中国大模型语料数据联盟开放日活动”成功举办,活动上200余家大模型数据、人工智能及技术企业及相关机构代表出席会议
2023-11-27 16:02:00
更多关于科技的资讯:
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00