我的订阅
财经

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

类别：财经发布时间：2024-04-07 22:22:00 来源：财联社

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款、无视互联网信息的使用规则，只为了让自家的产品更加先进一些。

《纽约时报》在本周末刊发的调查报道中，揭露了OpenAI、谷歌、Meta等公司为了获取训练语料所采取的一些“走捷径”措施，同时也展现了整个行业迫在眉睫的困境。

美国科技巨头各走“捷径”

2021年末，正在训练GPT-4的OpenAI遇到了一个棘手的问题，公司已经耗尽了互联网上所有可靠的英文文本资源，而他们需要更多、更大规模的数据来训练更强大的模型。

为了处理这个问题，OpenAI的Whisper语音识别工具诞生了——用来转录谷歌旗下视频平台Youtube的视频音频，生成大量的对话文本。

报道称，包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中，并成为聊天机器人ChatGPT的基础。

根据谷歌的政策，禁止用户将平台上的视频用于“独立”应用，同时禁止通过任何自动化手段（爬虫等）访问其视频。

有趣的是，在OpenAI偷偷扒Youtube视频时，谷歌也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此，虽然有谷歌员工知道OpenAI在这么干，也没有出手阻止。因为一旦谷歌对OpenAI提出抗议，也有可能“引火烧身”到自己身上。

对于是否采用Youtube视频训练AI的询问，OpenAI方面回应称，他们使用了“多个来源”的数据。谷歌发言人Matt Bryant则表示，公司对OpenAI的行为一无所知，且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示，公司只会在有明确法律、技术依据时才会采取行动。

谷歌自家的条款，则允许平台使用这些视频开发视频平台的新功能，但这样的措辞是否意味着谷歌能用这些资料开发商用AI，也存在不小的疑问。

与此同时，Meta的内部会议纪要显示，工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划，另外他们还讨论了从互联网上收集受版权保护的内容，并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。

据悉，有Meta的高管表示，OpenAI似乎正在使用受版权保护的材料，所以公司也可以遵循这个“市场先例”。

更显性的变化是，谷歌去年修改了服务条款。根据内部资料显示，推动隐私政策变化的动机之一，包括允许谷歌利用公开的谷歌文档、谷歌地图上的餐厅评论，以及更多在线资料开发AI产品。最终谷歌赶在美国国庆节（7月4日）放假前的7月1日发布了修改后的隐私条款，将“使用公开信息训练AI模型”首次纳入其中。

Bryant回应称，公司不会在没有用户“明确许可”的情况下使用他们的谷歌文档来训练AI，这里指的是自愿参与的实验性功能体验计划。

即便如此还是不够

正因为这些操作，近些年来伴随着人们对AI能力的惊叹，越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭，美国著作权局也正在制定版权法在AI时代的适用指南。

问题在于，即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”，科技公司用来发展下一代AI的数据依然还是不够。

2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）Jared Kaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后，“规模就是一切”成为了人工智能行业的信条。

2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年，谷歌DeepMind对400个人工智能模型进行测试，其中表现最好的模型（之一），一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年，中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token，谷歌PaLM 2的训练数据量则达到3.6万亿个Token。

研究机构 Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。

面对这样的问题，奥尔特曼已经提出了一种解决方法：像OpenAI这样的公司，最终会转向使用AI生成的数据（也被称为合成数据）来训练AI。这样开发人员在创建愈发强大的技术同时，也会减少对受版权保护数据的依赖。

目前OpenAI和一系列机构也正在研究使用两个不同的模型，能否共同生成更有用、更可靠的合成数据——一个系统产生数据，另一个系统对信息进行评判。当然，这种技术路径是否可行，目前仍存争议。

前 OpenAI 研究员Jeff Clune认为，这些AI系统所需的数据就像是穿越丛林的路径，如果这些公司只是在合成数据上训练，AI可能会在丛林里迷失。

（财联社史正丞）

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-04-08 00:45:04

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于语料,灰色,训练,产业,数据,训练的资讯：

AI语料概念爆火，这些浙企藏着富矿

...少业内人士已嗅到一丝危机：全能，意味着需要更强大的语料库来训练AI，而优质的AI语料已经越来越稀缺。AI语料，简单来说，就是用于训练和优化人工智能模型的数据集合。这些数据可以

2024-06-06 08:18:00

AI数据之战：大模型的“燃料”还能烧多久？

...天荣编辑／王昕AI时代，高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。近日有外媒报道，OpenAI使用所有公开可用的数据来训练ChatGPT，包括来自互联

2024-07-09 17:41:00

重磅|标贝科技非平衡专业语料上线助推GPT大模型技术应用落

...。而摆在“中国ChatGPT”面前的问题，首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主，缺少中文特点、文化，难以满足关键行业应用选型和优化的

2023-05-18 18:00:00

破解AI“胡说八道”，这家公司要给大模型投喂好原料｜产品观察

...人类知识。如果将大模型视为正在疾驰的科技列车，数据语料便是珍贵的“燃料”。其中，语料质量的提升对模型性能取得阶段性突破至关重要。然而一个现实情况是，高质量语料正在被急速消耗。

2024-07-30 00:59:00

中广天择2024年发力视频语料业务建设AI模型训练的算料综

...和交易平台，针对AI模型公司等下游客户销售和运营视频语料业务，是今年公司根据市场变化确定重点发展的方向之一。”4月30日，中广天择董事长彭勇在2023年度股东大会上说道。20

2024-05-01 11:24:00

推动模塑申城语料普惠计划，百万具身智能数据集率先发布

...申城”的实施方案》，市经济信息化委全面推动模塑申城语料普惠计划。在人工智能领域高级讨论会上，智元机器人会同上海人工智能实验室、国家地方共建人形机器人创新中心以及库帕思，率先发

2024-12-31 09:09:00

大模型“百花齐放” 业界合力“充实”中文语料数据

...中国新闻网中新网上海9月8日电 (记者郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员，来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中

2023-09-08 21:31:00

千行百业加速拥抱大模型（AI前沿观察）

...国内大模型快速发展对高质量数据的迫切需求，推动中文语料数据资源加快共建共享。今年7月，2023世界人工智能大会发起成立了中国大模型语料数据联盟。8月，上海人工智能实验室宣布，

2023-12-22 03:26:00

中文公共语料库建设新范式：腾讯AI向善语料库正式开放申请

2025年7月11日，腾讯AI向善语料库开放发布会在北京举行，这次发布会的主题是“AI时代没有旁观席，AI普惠一个不能少”。发布会上，腾讯与百余家社会组织公益共创的AI向善语料库

2025-07-11 22:07:00

更多关于财经的资讯：

南通紫琅湖创新母基金成立，出资额5亿

近日，南通紫琅湖创新母基金（有限合伙）成立，出资额5亿元，经营范围包含：股权投资；以自有资金从事投资活动。企查查股权穿透显示，该企业由南通元创科技投资有限公司等共同出资。

2025-08-20 10:12:00

提质增效行稳“智”远上半年南钢股份盈利同比上升18.63

南报网讯（记者刘安琪通讯员邵启明）8月19日晚，南钢股份发布《2025年半年度报告》。上半年，公司实现归属于上市公司股东的净利润14

2025-08-20 07:41:00

A股升温，多家券商营业部迎来“开户热”

A股升温，多家券商营业部迎来“开户热”业内人士：新投资者要提前做功课，不能盲目跟风本报讯（记者曹丽珍）近期A股市场的持续向好

2025-08-20 07:42:00

筑爱之港，温暖启航！中建筑港“幸福家庭日”走进项目一线

8月17日，中建筑港集团“幸福家庭日”家属反探亲暨第八届“中建小海军”夏令营在中建筑港泉惠石化码头项目举办，泉州市总工会权益部相关负责人肖君瑜

2025-08-19 15:47:00

广电总局改进电视剧内容审查工作，今年影视相关企业已注册超10

近日，国家广播电视总局印发实施《进一步丰富电视大屏内容促进广电视听内容供给的若干举措》。《若干举措》强调，要多措并举加强内容建设

2025-08-19 15:48:00

中石化河南炼油化工公司增资至约18.43亿，增幅约18334

近日，中石化（河南）炼油化工有限公司发生工商变更，注册资本由1000万元增至约18.43亿元，增幅约18334%。企查查显示，中石化（河南）炼油化工有限公司成立于2024年6月，

2025-08-19 16:00:00

建行贵州省分行：金融加码文旅出圈

8月，飞瀑击石的黄果树、碧波凝翠的小七孔、万家灯火的西江苗寨、风景瑰丽的赤水丹霞……黔贵大地的绝色风光次第铺展，行之所至心旷神怡

2025-08-19 16:08:00

平安产险贵州分公司向织金县农耀公司捐赠50万元助力南瓜产业发

8月14日，中国平安财产保险股份有限公司贵州分公司(以下简称平安产险贵州分公司)副总经理胡龑一行前往织金县，实地考察了织金县农耀农业开发有限公司的南瓜生产线

2025-08-19 16:08:00

蚂蚁集团在广州投资成立健康科技公司

近日，广州苓语健康科技有限公司成立，法定代表人为张宇，注册资本1000万人民币，经营范围含品牌管理、组织文化艺术交流活动

2025-08-19 16:12:00

山东章鼓等成立新公司，含智能机器人业务

近日，海利天梦（山东）复合材料科技有限公司成立，法定代表人为刘士华，经营范围包含：智能机器人的研发；智能无人飞行器制造；智能无人飞行器销售；民用航空器零部件设计和生产等。企查查股

2025-08-19 16:12:00

囤币拉市值走不通了！频频增发引爆投资者恐慌 “加密财库股”失

财联社8月19日讯（编辑史正丞）对于渴望野蛮增长的小市值上市公司而言，近年来有一条“捷径”可以走：宣布开始囤积加密货币

2025-08-19 16:24:00

聚灿光电注册资本增至9.7亿

近日，聚灿光电（300708）发生工商变更，注册资本由约6.8亿人民币增至约9.7亿人民币。企查查信息显示，该公司成立于2010年，法定代表人为潘华荣，经营范围包括照明器件、显示

2025-08-19 16:24:00

九号机器人在常州投资成立科技新公司

近日，九号零动（常州）科技有限公司成立，法定代表人为张珍源，注册资本1亿人民币，经营范围包括摩托车及零配件批发、电动自行车销售、自行车及零配件零售等。企查查股权穿透显示，该公司由

2025-08-19 16:24:00

中国信达在天津新设企管合伙企业，出资额约19亿

近日，天津信建合企业管理合伙企业（有限合伙）成立，出资额约19.04亿人民币，经营范围为企业管理。企查查股权穿透显示，该企业由中国信达（01359.HK）旗下中国金谷国际信托有限

2025-08-19 16:24:00

长沙北横高速公路公司注册成立

近日，长沙北横高速公路有限公司成立，注册资本1亿元，经营范围包含：集中式快速充电站；充电桩销售；电动汽车充电基础设施运营；新能源汽车换电设施销售等。企查查股权穿透显示，该公司由贵

2025-08-19 16:24:00

头条订阅服务

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料