• 我的订阅
  • 财经

AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料

类别:财经 发布时间:2024-04-07 22:22:00 来源:财联社

财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款、无视互联网信息的使用规则,只为了让自家的产品更加先进一些。

《纽约时报》在本周末刊发的调查报道中,揭露了OpenAI、谷歌、Meta等公司为了获取训练语料所采取的一些“走捷径”措施,同时也展现了整个行业迫在眉睫的困境。

美国科技巨头各走“捷径”

2021年末,正在训练GPT-4的OpenAI遇到了一个棘手的问题,公司已经耗尽了互联网上所有可靠的英文文本资源,而他们需要更多、更大规模的数据来训练更强大的模型。

为了处理这个问题,OpenAI的Whisper语音识别工具诞生了——用来转录谷歌旗下视频平台Youtube的视频音频,生成大量的对话文本。

报道称,包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中,并成为聊天机器人ChatGPT的基础。

根据谷歌的政策,禁止用户将平台上的视频用于“独立”应用,同时禁止通过任何自动化手段(爬虫等)访问其视频。

有趣的是,在OpenAI偷偷扒Youtube视频时,谷歌也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此,虽然有谷歌员工知道OpenAI在这么干,也没有出手阻止。因为一旦谷歌对OpenAI提出抗议,也有可能“引火烧身”到自己身上。

对于是否采用Youtube视频训练AI的询问,OpenAI方面回应称,他们使用了“多个来源”的数据。谷歌发言人Matt Bryant则表示,公司对OpenAI的行为一无所知,且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示,公司只会在有明确法律、技术依据时才会采取行动。

谷歌自家的条款,则允许平台使用这些视频开发视频平台的新功能,但这样的措辞是否意味着谷歌能用这些资料开发商用AI,也存在不小的疑问。

与此同时,Meta的内部会议纪要显示,工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划,另外他们还讨论了从互联网上收集受版权保护的内容,并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。

据悉,有Meta的高管表示,OpenAI似乎正在使用受版权保护的材料,所以公司也可以遵循这个“市场先例”。

更显性的变化是,谷歌去年修改了服务条款。根据内部资料显示,推动隐私政策变化的动机之一,包括允许谷歌利用公开的谷歌文档、谷歌地图上的餐厅评论,以及更多在线资料开发AI产品。最终谷歌赶在美国国庆节(7月4日)放假前的7月1日发布了修改后的隐私条款,将“使用公开信息训练AI模型”首次纳入其中。

Bryant回应称,公司不会在没有用户“明确许可”的情况下使用他们的谷歌文档来训练AI,这里指的是自愿参与的实验性功能体验计划。

即便如此还是不够

正因为这些操作,近些年来伴随着人们对AI能力的惊叹,越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭,美国著作权局也正在制定版权法在AI时代的适用指南。

问题在于,即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”,科技公司用来发展下一代AI的数据依然还是不够。

2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好。自那以后,“规模就是一切”成为了人工智能行业的信条。

2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年,谷歌DeepMind对400个人工智能模型进行测试,其中表现最好的模型(之一),一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年,中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token,谷歌PaLM 2的训练数据量则达到3.6万亿个Token。

研究机构 Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。

面对这样的问题,奥尔特曼已经提出了一种解决方法:像OpenAI这样的公司,最终会转向使用AI生成的数据(也被称为合成数据)来训练AI。这样开发人员在创建愈发强大的技术同时,也会减少对受版权保护数据的依赖。

目前OpenAI和一系列机构也正在研究使用两个不同的模型,能否共同生成更有用、更可靠的合成数据——一个系统产生数据,另一个系统对信息进行评判。当然,这种技术路径是否可行,目前仍存争议。

前 OpenAI 研究员Jeff Clune认为,这些AI系统所需的数据就像是穿越丛林的路径,如果这些公司只是在合成数据上训练,AI可能会在丛林里迷失。

(财联社 史正丞 )

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-08 00:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...少业内人士已嗅到一丝危机:全能,意味着需要更强大的语料库来训练AI,而优质的AI语料已经越来越稀缺。AI语料,简单来说,就是用于训练和优化人工智能模型的数据集合。这些数据可以
2024-06-06 08:18:00
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
...东数字文化集团(以下简称山东数文集团)与人民网共建语料库合作签约暨项目推进会在济南举行,山东数文集团与人民网正式签约,共建全国首个主流文化语料库。什么是主流文化语料库?它的建
2025-08-25 16:46:00
AI数据之战:大模型的“燃料”还能烧多久?
...天荣编辑/ 王昕AI时代,高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。近日有外媒报道,OpenAI使用所有公开可用的数据来训练ChatGPT,包括来自互联
2024-07-09 17:41:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
破解AI“胡说八道”,这家公司要给大模型投喂好原料|产品观察
...人类知识。如果将大模型视为正在疾驰的科技列车,数据语料便是珍贵的“燃料”。其中,语料质量的提升对模型性能取得阶段性突破至关重要。然而一个现实情况是,高质量语料正在被急速消耗。
2024-07-30 00:59:00
...和交易平台,针对AI模型公司等下游客户销售和运营视频语料业务,是今年公司根据市场变化确定重点发展的方向之一。”4月30日,中广天择董事长彭勇在2023年度股东大会上说道。20
2024-05-01 11:24:00
推动模塑申城语料普惠计划,百万具身智能数据集率先发布
...申城”的实施方案》,市经济信息化委全面推动模塑申城语料普惠计划。在人工智能领域高级讨论会上,智元机器人会同上海人工智能实验室、国家地方共建人形机器人创新中心以及库帕思,率先发
2024-12-31 09:09:00
大模型“百花齐放” 业界合力“充实”中文语料数据
...中国新闻网中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中
2023-09-08 21:31:00
千行百业加速拥抱大模型(AI前沿观察)
...国内大模型快速发展对高质量数据的迫切需求,推动中文语料数据资源加快共建共享。今年7月,2023世界人工智能大会发起成立了中国大模型语料数据联盟。8月,上海人工智能实验室宣布,
2023-12-22 03:26:00
更多关于财经的资讯:
杭州银行新行长定了 是“75后”张精科!
1月12日,杭州银行发布公告称,该行董事会聘任现任副行长张精科为新任行长,张精科的行长任职资格尚需监管部门核准。记者注意到
2026-01-14 08:23:00
智元机器人公布人形机器人自碰撞规避相关专利
近日,智元机器人关联公司智元创新(上海)科技股份有限公司“人形机器人自碰撞规避方法、机器人、设备及程序产品”专利公布。企查查专利摘要显示
2026-01-14 09:36:00
宁波国资成立商业航天开发公司,注册资本10亿
近日,宁波商业航天开发有限公司成立,注册资本10亿元,经营范围包含:民用航天发射技术服务;火箭控制系统研发;微小卫星科研试验;卫星导航服务等。企查查股权穿透显示,该公司由宁波开发
2026-01-14 09:36:00
佳都科技成立数据科技公司,含AI及机器人业务
近日,广州佳洋数据科技有限公司成立,经营范围包含:智能机器人的研发;人工智能双创服务平台;人工智能硬件销售;集成电路芯片设计及服务等。企查查股权穿透显示,该公司由佳都科技(600
2026-01-14 10:36:00
金龙鱼在海南成立食品科技新公司
近日,益海嘉里(海南)食品科技有限公司成立,注册资本1000万元,经营范围包含:食品用洗涤剂销售;食品添加剂销售;鲜蛋批发;食用农产品批发等。企查查股权穿透显示,该公司由金龙鱼(
2026-01-14 10:36:00
周二,沪深两市小幅高开,早盘震荡为主,但振幅不大,午后空头力量开始提升,商业航天板块遭遇集中兑现,市场情绪也有所走坏,大盘尝试反弹但随后又再度回落
2026-01-14 09:47:00
昨日上午9时,53%vol 500ml陈年贵州茅台酒(15)首日登陆i茅台App,标价4199元,上线即“秒空”,延续了此前其他热门茅台的势头
2026-01-14 07:21:00
16倍大牛股彻底凉凉?天普股份复牌连续跌停
橙柿灵光AI设计师陈陶1月12日,去年的16倍大牛股天普股份复牌即一字跌停,1月13日继续一字跌停。天普股份开年连遭重拳
2026-01-14 07:21:00
最近,西红柿涨价的消息引发关注,“鸡蛋配不上西红柿”成为社交平台热议话题。西红柿价格究竟如何?引起价格波动的原因是什么
2026-01-14 07:52:00
黔西南“企业之家”助推经营主体项目审批跑出“加速度”
2025年12月30日,黔西南州普安县新店风电场项目用地批复正式下达。而就在12月月初,项目方曾因报批材料补正问题,连夜向黔西南州“企业之家”紧急求助
2026-01-14 03:31:00
“新国补”落地近两周 各地消费市场迎来“换新”热潮
新年伊始,多地汽车、家电、数码和智能产品等消费品以旧换新政策正式实施。以旧换新“国补”落地 消费市场火热“新国补”落地已有近两周
2026-01-13 21:40:00
各地推出新举措持续激发冰雪经济活力
央视网消息(新闻联播):这个雪季,各地创新举措丰富供给,持续激发冰雪消费潜力。吉林长春的15处公益冰场已经开放,许多滑冰爱好者在这里展现矫健身姿
2026-01-13 21:40:00
金融活水 润泽颐养生态链——烟台农商银行芝罘区支行以协同之力护航“老有颐养”
胶东在线1月13日讯(通讯员 刘萌莉)随着我国社会老龄化程度持续加深,构建多层次、高质量的养老服务体系已成为关乎民生福祉和社会稳定的重要课题
2026-01-13 22:55:00
多方共探档案智能化未来 中原AI+数智档案赋能新质生产力交流会举行
大河网讯 1月9日,由郑州中博奥技术有限公司与郑州中原科技城科创联盟秘书处联合主办的“中原AI+数智档案赋能新质生产力交流会暨典型应用场景与解决方案发布会”在龙子湖智慧岛举办
2026-01-13 20:06:00
卫宁健康投资成立科技公司
近日,卫宁云(上海)科技有限公司成立,法定代表人为周成,注册资本为1000万元,经营范围包含:专业设计服务;第一类医疗器械销售
2026-01-13 17:00:00