• 我的订阅
  • 科技

AI数据之战:大模型的“燃料”还能烧多久?

类别:科技 发布时间:2024-07-09 17:41:00 来源:IT时报
AI数据之战:大模型的“燃料”还能烧多久?

真实数据即将耗完,合成数据训练成替代品?

作者/ IT时报记者 贾天荣

编辑/ 王昕

AI时代,高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。

近日有外媒报道,OpenAI使用所有公开可用的数据来训练ChatGPT,包括来自互联网的书籍和文章。事实上,在大模型发展如火如荼的当下,任何大模型公司对于高质量语料的需求都不会停止。谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙与舒斯特公司。

但作为人工智能大模型的“燃料”,高质量语料正在面临“枯竭”。

加州大学伯克利分校计算机科学教授斯图尔特・罗素就曾发出警告,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。随着越来越多出版商指责大模型公司窃取受版权保护的数据,一场知识产权的纷争也即将打响,获取数据正变得越来越难。

在2024年世界人工智能大会(WAIC2024)上,如何有效供给高质语料数据,以支持大规模AI模型的产业应用,成为业界内外专家热烈讨论的核心议题之一。面对数据稀缺与模型旺盛需求之间的矛盾,学界与业界正在探索可持续的解决方案,以确保AI健康发展的同时,兼顾创新与知识产权的平衡。

“做大模型应该像造火箭”

“如果我们所有数据都放在一个表格里,那么做数据分析的门槛和成本都会比较低。”在中国科学院院士鄂维南看来,如何将大量的非结构化数据转化为结构化形式,以降低数据分析门槛与成本,成为亟待解决的问题。

AI数据之战:大模型的“燃料”还能烧多久?

非结构化数据,是如文本、图片、语音及视频等数据,因其复杂性和多样性,给大模型的数据分析带来巨大挑战。

鄂维南以全球第一个AI数据库——MyScale数据库为例,该数据库刚刚获得了2024WAIC的硬核大奖SAIL奖,能在同一系统中支持海量结构化、向量、文本、时序、图片等各类异构数据的高效存储和联合查询。他认为,这是目前国际上综合性能最好、功能最强的AI数据库。

鄂维南强调,AI的发展需以“大模型+大数据库”双轮驱动。这意味着所有数据资源应集中于一个数据库内,通过大模型的处理,实现数据价值的最大化。同时,利用专用知识库和高质量数据,低成本地批量生产智能体或小型模型。这一策略不仅适用于特定行业,还能服务于整个科研行业,涵盖化学、材料、生物等多个领域。

针对当前数据处理工具的缺失,院士团队正致力于打造一系列工具,以弥补在数据清洗、整理及训练大模型方面的空白。此外,鄂维南院士还提出了一种创新的“忆立方模型”,旨在通过知识分层处理,减少模型规模,降低训练成本。该模型已在上海临港新片区的试点项目中得到验证,其将模型规模降低10倍,在降低模型规模与成本方面具有潜力。

“我们在数据库方面是有优势的,在高性能计算方面还有很大空间没有挖掘,就像当年造火箭一样,每一样都搞不过别人,但是我们希望整个系统不比别人差。”鄂维南院士呼吁,中国应从底层逻辑出发,深入探索AI的基本原理,并从系统角度布局AI发展,涵盖算力、数据、模型与高性能计算等多个方面。他强调,单纯堆砌大模型并非长久之计,需从整体系统优化入手。

华为上海代表处战略官房思哲也表示,华为在训练其盘古大模型时,也面临着和所有大模型玩家一样的问题:“数据的规模要大,质量要高,种类也要多元化,同时需要这些数据能够以一定的配比形成体系化。”房思哲特别提到了专业知识类和行业知识类数据的获取难度,尤其是在外文数据方面。

事实上,各方对于数据获取的探索从未停止。7月6日,“语料筑基 智生时代”2024WAIC语料主题论坛上,上海市级语料公司库帕思携手大模型语料生态伙伴,集中发布了一批大模型语料成果,包括语料运营平台1.0上线、首批十大高质量语料产品发布等。其中,“语料运营平台1.0”实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

为进一步激发市场主体语料创新活力,增强供给侧能级,加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、文因互联、上海电科智能、海天瑞生集中发布了十大语料数据产品。此外,本次论坛中还发布了金融、生命健康、教育三项行业语料术白皮书。

AI数据之战:大模型的“燃料”还能烧多久?

数据标注 用“魔法”提纯“魔法”

高质量数据的获取,离不开大量的标注工作,一段时间内,数据标注员的需求也随着AI技术的发展而大幅增加。

“AI已经进入了2.0时代。”北京星尘纪元智能科技有限公司总裁章磊回顾了2019年与国家融媒体实验室的合作,当时双方致力于语料的深度清洗、详尽标注与规则制定,三年时间里,这项工作消耗了大量的人力资源,每一句话、每一个实体、每一条问答规则都经过了细致入微的标注。

AI数据之战:大模型的“燃料”还能烧多久?

然而大模型出现之后,这一切开始发生变化。大模型的出现,意味着AI系统本身已具备了相当程度的智能,能够处理复杂的自然语言处理(NLP)任务,无需人工再深入到每一个细节之中:“对我们来说,这看似让工作变得简单,但也带来了全新的挑战。”

大模型的训练和优化,对数据的维度和认知深度提出了更高要求。与此同时,尽管需要人工介入的人员更精简,但对人员的要求却发生了质的飞跃。现在需要的是更高层次的人才,通常具备硕士研究生以上的学术背景,才能承担起大模型语料的深入体系设计工作。

在标贝(青岛)科技有限公司联合创始人兼首席技术官李秀林看来,大模型的出现不仅改变了数据需求的本质,还催生了新的供需动态和合作模式,同时也重新定义了模型在数据生产过程中的角色。

首先,从需求侧来看,大模型对数据规模和类型提出了全新要求。传统的数据需求主要集中在特定场景的精细标注,而现在,无监督学习所需的海量语料成为关键。这不仅增加了数据筛选和清洗的复杂度,还要求更深层次的数据加工技术,以确保数据质量满足大模型训练的高标准。

其次,各行业领域的专业语料在大模型的应用中扮演着至关重要的角色。处理这些领域的语料需要深厚的行业知识和专业技能,远非简单的数据标注所能比拟。这要求数据处理团队不仅要具备技术实力,还要深入了解特定领域的专业知识,才能有效挖掘和利用领域语料的价值。

随着大模型的普及,数据的供应方也在悄然变化。传统的数据公司不再是唯一的来源,许多拥有行业数据的团队或组织开始直接参与到数据供给中来。然而,如何将这些语料有效整合进大模型,成为一道亟待解决的难题。

大模型在数据生产过程中的作用发生了根本性变化。它不再仅仅是被动的数据消费者,而是成为数据生产的参与者和优化者。

由此,自动化标注的发展与应用也成为AI领域的一大热点,其目的是减少人工参与、提高数据处理效率和降低成本。章磊表示,在自动化标注的初期,预标注阶段是主流。借助已有模型的预测能力,数据被初步标记,随后交由人工审核修正,以确保标注的准确性。

然而,随着技术的演进,自动化标注不再局限于简单的模型预测。星尘纪元等企业投入大量资源,自主研发了50余种适用于各类场景的自动化标注工具和算法,实现了任务细分与专项处理,显著提升了标注效率与质量。另一方面,通过分析视频序列中的时序关系,前后帧数据互相监督,实现自我校正,显著提高了动态场景下的标注精度。

章磊表示,理想状态下,自动化标注有望覆盖90%以上的数据处理需求,甚至逼近99%的自动化水平。但在面对复杂或异常数据时,实际的提效比例只有30~50%,章磊认为,AI大模型和多模态技术的驱动下,自动化标注的准确性和覆盖率将持续提升,自动化与人工相结合的模式将成为常态。

李秀林指出,数据标注实际上是一个非常好的人机协同场景,两者相辅相成的过程。随着技术的发展,越来越多的标注工作从完全依赖人工转变为机器辅助或主导,人工的角色更多地转向了质量控制和复杂问题的解决。

在业务实践中,标贝科技经常面临新的、更复杂的标注需求,这些需求往往超出了现有模型的能力范围。面对这种情况,公司在初始阶段可能需要纯人工介入,随后工程师根据任务需求开发和迭代模型,逐步提高自动化标注的比例。这一过程体现了从“纯人工”到“人工为主导”,再到“机器为主导”,最终可能达到人工仅负责质检,甚至完全无需人工干预的演变。

合成数据 完全取代真实数据?

科技巨头们已经在多个场景探索合成数据的应用,如英伟达的元宇宙平台Omniverse拥有合成数据能力omniverse replicator;亚马逊使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题;微软的Azure云服务推出了airSIM平台,创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器……

目前,GPT宣称已经用完了人类互联网的数据,英伟达的Nemotron-4也宣称用了98%的合成数据,而人工标注数据仅有2%。未来,合成数据是否会完全取代真实数据?

多位专家都认为,合成数据和真实数据各有优势和局限性,它们在AI模型训练中的角色和重要性将根据具体的应用场景和需求而变化。在未来,合成数据和真实数据很可能会并存,形成互补,共同推动AI技术的发展。

“合成数据对于大模型训练的重要性是毋庸置疑的。”房思哲透露,华为已经在大模型训练和自动驾驶等领域中使用了合成数据,在对真实世界细节要求不高的情况下,合成数据可以有效补充或替代真实数据,“但在一些对真实性要求更高的场景下,我们觉得合成数据可能使用起来是要谨慎的。”

房思哲表示,行业数据往往需要在真实世界中生成,这涉及人类活动、经验和观察,而这些是合成数据难以完全捕捉的,因此,即使基础大模型可以从合成数据中获益,行业大模型仍然需要大量高质量的真实数据来训练,以确保其在特定应用场景下的准确性和可靠性。

中云开源数据技术(上海)有限公司创始人、CEO陈刚则认为,就工业领域而言,合成数据不会成为主流。他的理由主要基于两个方面,首先,工业数据并非缺乏,而是受限于版权、产权等因素,导致现有数据未能得到充分利用;其次,合成数据在特定场景下(如核电站故障预测)具有应用价值,但在大多数情况下,特别是对于大模型而言,合成数据的迭代可能导致信息失真,使其在工业应用中难以达到实际效果。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-09 21:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

破解AI“胡说八道”,这家公司要给大模型投喂好原料|产品观察
...大模型视为正在疾驰的科技列车,数据语料便是珍贵的“燃料”。其中,语料质量的提升对模型性能取得阶段性突破至关重要。然而一个现实情况是,高质量语料正在被急速消耗。国内大模型厂商所
2024-07-30 00:59:00
千行百业加速拥抱大模型(AI前沿观察)
...技术与实体经济加速融合,应用场景十分广泛。 数据“燃料”加快共建共享数据是大模型训练的“燃料”,数据质量对大模型至关重要。国内大模型快速发展对高质量数据的迫切需求,推动中文
2023-12-22 03:26:00
...,越来越多的业内人士重新将目光投向驱动模型生成的“燃料”——语料。“大模型就像初生的孩子,教他学习、成长的课本就是AI语料,编纂教材的过程就是构建语料库的过程。”杭州城市大脑
2024-06-06 08:18:00
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
...义。是什么:山东提前布局语料库为主流文化传承提供“燃料”主流文化语料库由山东数字文化集团依托人民网、大众报业集团等党报党端党网长期建设发展形成的新闻、理论、评论、政策等权威媒
2025-08-25 16:46:00
大模型驱动行业创新 媒体机构探索AI数据要素开发
...人机共存消费模式”。“语料数据是大模型训练的重要‘燃料’,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。”王巍表示,从目前的情况来看,虽然我国的数据资
2023-11-15 08:28:00
大模型“百花齐放” 业界合力“充实”中文语料数据
...自:中国新闻网中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室
2023-09-08 21:31:00
星环科技成功举办数据要素市场与大模型语料库论坛
...坛、1场数据交易节及20场主题论坛。11月26日,由中国大模型语料数据联盟指导,上海数据交易所、星环信息科技(上海)股份有限公司主办,上海市数商协会协办的“数据要素市场与大模
2023-11-27 16:02:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...日科技网】随着ChatGPT和GPT4.0的相继问世,拉开了大语言模型和生成式AI产业蓬勃发展的序幕。国内外各大企业和科研机构对ChatGPT的持续跟进
2023-05-18 18:00:00
共建上海大模型语料繁荣生态,全球开发者先锋大会“语料筑基 智生时代”论坛在沪举办
...委常委、副区长俞林伟出席论坛并致辞。会议深度聚焦大模型语料前沿主题,汇聚产学研用顶尖智慧,共同探讨语料数据发展的无限机遇与潜力,共建上海大模型语料繁荣生态,为人工智能大模型创
2025-02-23 08:49:00
更多关于科技的资讯:
烟台联通圆满完成2026“百花汇海”山东秧歌会通信保障
胶东在线3月3日讯3月1日,由山东省文学艺术界联合会等单位指导主办的2026“百花汇海”山东秧歌会在烟台海阳市河清岛体育场盛大举行
2026-03-03 20:29:00
涌金楼丨浙江经济第一区确立“首要任务”
余杭“十四五”五年成绩单。受访者供图3月2日,余杭区召开经济高质量发展大会。这是余杭连续第五年以“高质量发展”为题召开大会
2026-03-03 22:27:00
江南时报讯 凌晨2点,扬子江数字视听产业园的“短剧公寓”里,张弛仍然坐在电脑前,屏幕上是他十多个海外短视频账号的数据反馈——当天发布的97条短剧切片
2026-03-03 22:48:00
河北特色产业集群数字金融平台助力解决企业融资难银企互联 点“数”成金“通过平台提供的‘数字信用’,仅用5天我们就拿到了1700万元的授信贷款
2026-03-03 17:55:00
2026全国两会正月十五元宵节,委员们从天津出发共赴盛会!海河传媒中心为委员们送上精心准备的贺卡!万家团圆日,一张贺卡,一份天津情!奋斗再出发!
2026-03-03 18:54:00
去年涨3次,今年集体降价!羽毛球价格“过山车”的背后
大河网讯(记者 莫韶华)“终于等到你,还好我没放弃!”近日,多个羽毛球品牌宣布降价的消息在球友圈刷屏。降价是真是假?幅度有多大
2026-03-03 18:57:00
中国联通精彩亮相MWC2026 聚焦“连接、算力、服务、安全”核心赛道 共筑全球数字新生态
3月2日至5日,2026年世界移动通信大会(MWC2026)在西班牙巴塞罗那盛大举行。中国联通以“数智焕新,向实同行”为主题
2026-03-03 19:24:00
从哲学思辨到技术冲击,再到智能融合,艺术与科技的关系不断被重新定义。围绕“AI与艺术的融合”这一主题,实战派管理美学专家
2026-03-03 17:58:00
鲁网3月3日讯近日,国际权威品牌价值评估机构Brand Finance发布2026“全球电子家电品牌价值50强”榜单(Electronics &
2026-03-03 14:24:00
线下二手店为何圈粉年轻人?
“益客”二手循环商店展示的生活用品“益客”二手循环商店,衣服整齐陈列“善淘”二手店前台,随处可见公益标识 “三兔二手”店一角“三兔二手”店部分商品 不想穿的衣服鞋子
2026-03-03 15:54:00
巴基斯坦政府引进阿里巴巴达摩院多癌筛查AI
近日,阿里巴巴达摩院在巴基斯坦达成系列合作,与巴基斯坦首都医院(Capital Hospital)、卡瓦贾·穆罕默德·萨夫达尔医学院(Khawaja Safdar Medical College)
2026-03-03 14:19:00
AI产品榜:月活2.03亿、增速552%,千问成全球第三大AI应用
3月3日,AI产品榜发布全球AI应用最新数据。榜单显示,MAU(月活用户数)排名前三的AI应用分别为ChatGPT、豆包和千问
2026-03-03 14:49:00
重塑桌面生产力:腾讯应用宝联合微软、英特尔发布《2026年跨端生态趋势白皮书》
全球PC产业正从疫情后的需求透支期转向稳态复苏。中国大陆市场表现尤为强劲,2025年连续两个季度PC出货量实现两位数增长
2026-03-03 14:19:00
AI一键生成以假乱真的卖家秀,无需实拍就能打造“完美”产品效果;批量伪造买家秀、炮制虚假好评,用算法拼凑“走心”体验……日前
2026-03-03 11:14:00
正面硬刚Meta!千问AI眼镜MWC首秀,与全球巨头对垒
在MWC 2026巴塞罗那展会现场,千问AI眼镜与Meta的AI眼镜展台正面对垒。3月2日,千问宣布其首款AI硬件将于3月8日在中国现货发售
2026-03-03 11:16:00