• 我的订阅
  • 科技

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

类别:科技 发布时间:2024-08-14 09:40:00 来源:新智元

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

【新智元导读】人工智能系统依靠充足、高质量的训练数据来获得高性能,但MIT等机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。

随着GenAI产品开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。

最近,吴恩达在网站The Batch上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的「AI数据荒」雪上加霜。

研究人员发现,C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,曾经触手可及的开放数据越来越难以获取。

这不仅会影响商用AI模型的训练,也会对学术界和非营利机构的研究造成阻碍。

该项目的4位团队主管分别来自MIT Media Lab、Wellesley学院、AI初创公司Raive等机构。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

论文地址:https://www.dataprovenance.org/consent-in-crisis-paper

主持该研究的是非营利组织The Data Provenance Initiative,由来自世界各地的AI研究人员志愿加入组成。论文所涉及的数据标注以及分析全过程已经全部公开在GitHub上,方便未来研究参考使用。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

仓库地址:https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection

具体来说,论文主要有以下几个方面的结论:

对AI数据共享空间的限制正在激增

2023.4~2024.4仅一年的时间,C4、RefineWeb、Dolma数据集中就有5%+的token总量、25%+的关键网页在robots.txt做出了限制。

从服务条款的结果来看,C4数据集的45%已被限制。通过这种趋势可以预测,不受限制的开放网络数据将会逐年减少。

许可的不对称性与不一致性

相比其他的开发者,OpenAI的爬虫更加不受欢迎。不一致性体现在,robots.txt和服务条款(Terms of Service, ToS)中经常存在矛盾之处。这表明用于传达数据使用意图的工具存在效率低下的问题。

从网络爬取的公开训练语料中,头尾内容的特征存在差异

这些语料中有相当高比例的用户生成内容、多模态内容和商业变现内容(俗称带货广告),敏感或露骨内容的比例仅仅略少一些。

排名靠前的网站域名包括新闻、百科和社交媒体网站,其余的组织机构官网、博客和电子商务网站构成了长尾部分。

网络数据与对话式AI的常见用例的不匹配

网络上爬取的相当一部分数据与AI模型的训练用途并不一致,这对模型对齐、未来的数据收集实践以及版权都会造成影响。

研究方法

通常来说,限制网页爬虫的措施有以下两种:

- 机器人排除协议(Robots Exclusion Protocol, REP)

- 网站的服务条款(Terms of Service, ToS)

REP的诞生还要追溯到AI时代之前的1995年,这个协议要求在网站源文件中包含robots.txt以管理网络爬虫等机器人的活动,比如用户代理(user agent)或具体文件的访问权限。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

谷歌开发者网站上的robots.txt文件示例

你可以将robots.txt的效力视为张贴在健身房、酒吧或社区中心墙上的「行为准则」标志。它本身没有任何强制效力,好的机器人会遵循准则,但坏的机器人可以直接无视。

论文共调查了3个数据集的网站来源,具体如表1所示。这些都是有广泛影响力的开源数据集,下载量在100k~1M+不等。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

每个数据来源,token总量排名前2k的网站域名,取并集,共整理出3.95k个网站域名,记为HEADAll,其中仅来源于C4数据集的记为HEADC4,可以看作是体量最大、维护最频繁、最关键领域的AI训练数据来源。

随机采样10k个域名(RANDOM10k),其中再随机选取2k个进行人工标注(RANDOM2k)。RANDOM10k仅从三个数据集的域名交集中采样,这意味着他们更可能是质量较高的网页。

如表2所示,对RANDOM2k进行人工标注时涵盖了许多方面,包括内容的各种属性以及访问权限。为了进行时间上的纵向比对,作者参考了Wayback Machine收录的网页历史数据。

研究所用的人工标注内容都已公开,方便未来研究进行复现。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

结果概述

数据限制增加

除了收集历史数据,论文还使用SARIMA方法(Seasonal Autoregressive Integrated Moving Average)对未来趋势进行了预测。

从robots.txt的限制来看,从GPTBot出现(2023年中期)后,进行完全限制的网站数量激增,但服务条款的限制数量增长较为稳定且均衡,更多关注商业用途。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

根据SARIMA模型的预测,无论是robots.txt还是ToS,这种限制数增长的趋势都会持续下去。

下面这种图计算了网站限制的特定组织或公司的agent比例,可以看到OpenAI的机器人遥遥领先,其次是Anthropic、谷歌以及开源数据集Common Crawl的爬虫。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

从token数量的角度,也能看到类似的趋势。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

不一致且无效的AI许可

不同组织的AI agent的在各网站上的许可程度存在相当大的差异。

OpenAI、Anthropic和Common Crawl的受限占比位列前三,都达到了80%以上,而网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

robots.txt主要用于规范网页爬虫的行为,而网站的服务条款是和使用者之间的法律协议,前者较为机械化、结构化但可执行度高,后者能表达更丰富、细微的策略。

二者本应相互补足,但在实际中,robots.txt常常无法捕捉到服务条款的意图,甚至常常有互相矛盾的含义(图3)。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

现实用例与网页数据的不匹配

论文将网页内容与WildChat数据集中的问题分布进行对比,这是最近收集的ChatGPT的用户数据,包含约1M份对话。

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

从图4中可以发现,二者的差别十分显著。网页数据中占比最大的新闻和百科在用户数据中几乎微不足道,用户经常使用的虚构写作功能在网页中也很难找到。

讨论与结论

近来,很多AI公司都被指责绕过robots.txt来抓取网页数据。尽管很难确认,但似乎AI系统很难将用于训练的数据和推理阶段用于回答用户提问的数据分开。

REP协议的复杂性给网页创建者带来了很大的压力,因为他们很难对所有可能的agent及其下游用例做出细致规定,这导致robots.txt的实际内容很难反映真实意图。

我们需要将用例相关的术语进一步分类并标准化,比如,用于搜索引擎,或非商用AI,或只在AI标明数据出处时才可使用。

总之,这种新的协议需要更灵活地反映网站所有者的意愿,能将有许可和不被允许的用例分开,更好地与服务条款同步。

最为重要的是,从网站数据使用限制的激增中,我们不难看出数据创建者和AI科技公司之间的紧张关系,但背后无辜躺枪的是非营利组织和学术研究人员。

The Batch在转述这篇文章时表达了这样的愿望:

「我们希望AI开发人员能够使用开放网络上提供的数据进行训练。我们希望未来的法院判决和立法能够确认这一点。」

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-14 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

作者 | 虞景霖编辑 | 邓咏仪AI模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。8月8日,OpenAI推出
2023-08-08 17:40:00
为训大模型不择手段的 AI 公司,打破了这个古老的互联网协议
...出现了问题——越来越多的 AI 公司用爬虫抓取你的网站数据,提取数据集,训练大模型和相关产品,但他们并不像搜索引擎那样回馈以流量,甚至根本不承认有你存在,你的数据就像肉包子打
2024-02-20 15:28:00
困在网页里的ChatGPT 想在移动生态里突围
...终也要面对万有引力般的规律。根据分析机构SimilarWeb的数据,ChatGPT的网页访问量开始遭遇增速放缓,虽然5月份全球访问量依然达到18亿次
2023-06-29 16:14:00
cookie与session的区别
...kie很多浏览器都限制一个站点最多保存20个cookie。1、cookie数据存放在客户的浏览器上,session数据存放在服务器上
2022-12-16 02:02:00
2025推荐网站保护的Web 应用防火墙 -- 雷池WAF
...样本数量,这是个综合性指标,是评判WAF可靠性的指标,数据越高越好检出率=正确拦截/攻击样本数量,这是评判WAF识别攻击能力的指标,数据越高越好漏报率=错误放行/攻击样本数量
2025-04-25 23:33:00
快来直播:物联网对网页设计和开发的影响
...端。后端是网站负责处理所有后台操作的部分,比如存储数据和处理请求。随着连接到网站的设备数量呈指数级增长,物联网使得这一过程变得更加高效。因此,网站设计人员和开发人员需要减少对
2023-02-15 12:58:00
...的国家标准——GB/T 31308.4—2023《行政、商业和行业中的数据元、过程和文档 长效签名 第4部分:用于长效签名格式的存证对象属性》
2024-04-09 07:56:00
deepseek公布广度数据采集方法专利
...度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利公布。摘要显示,本发明涉及数据采集领域,包括建立网页元信息库;确定每日调度单元下载配额及当日下载
2025-04-02 10:52:00
...大的方便了用户的操作,用户的标引不仅仅局限于标引的数据修改上,完全可以在版面上直接提取文字内容到标引数据里,和市面上一般的标引软件完全不同,不再是局限用户在标引数据修改上,大
2024-03-29 05:34:00
更多关于科技的资讯:
双城耀国庆 绮梦筑新章——恐龙园集团文旅产品“出圈”更“出彩”
今年国庆、中秋假期恐龙园集团旗下环球恐龙城与东方盐湖城凭借全新业态与沉浸式体验双双跻身长三角文旅“顶流”双节期间,约62
2025-10-09 21:49:00
NBA中国携手阿里云开启多年合作,球迷互动体验新惊喜在哪?
10月9日,NBA中国和阿里云宣布达成多年合作,阿里云将正式成为NBA中国官方云计算与人工智能合作伙伴,基于通义千问大模型和云计算基础设施
2025-10-09 22:19:00
获充换电大会官方推荐及星级认证, 公牛充电桩全场景方案引关注
9月27日至29日,2025中国汽车充换电生态大会在合肥举行,此次大会由国家能源局电力司、安徽省汽车办、中国汽车工业协会共同指导
2025-10-09 17:04:00
“北京榜样•最美互联网从业者”提名人选|我爱我家陈少亮:数字浪潮中的筑梦人
2025年的北京,秋阳穿过写字楼玻璃幕墙,在键盘上投下斑驳光影。在我爱我家集团总部技术中心,陈少亮正盯着屏幕上的数据流图
2025-10-09 17:05:00
中新经纬10月9日电 工信部网站9日消息,工业和信息化部、国家标准化管理委员会近期联合发布《云计算综合标准化体系建设指南(2025版)》(下称《指南》)
2025-10-09 13:06:00
当下,网络热搜榜单已经成为我们感知世界的一个重要窗口。这个窗口展示的内容是否真实、健康、积极,直接影响着数亿网民的认知判断
2025-10-09 10:31:00
高低2025年国庆中秋双节,中国电影市场成绩亮眼:国庆档总票房破17亿元,10月2日年度总票房达425.02亿元,超2024年全年
2025-10-09 10:49:00
厦门网讯(厦门日报记者 李晓平)如今,拍照不再停留在平面,“一站式”3D人像打印,正让影像“立”起来,成为更多人的选择
2025-10-08 08:12:00
小牛FX风速款首销战报:5小时全渠道销量14252台,以“价值重构”引爆全民抢购潮
2025年9月29日,全球高端智能电动车领导品牌小牛电动正式发布FX风速款首销战报。数据显示,这款被业界称为“价格屠夫”的新品在9月28日首发后
2025-10-08 09:00:00
稳就业 稳企业 稳市场 稳预期|从 “设备制造” 到 “全链服务”:陕西电子长岭电气纺织机电产业的进阶之路
9月29日,由陕西省委宣传部举办的“稳就业、稳企业、稳市场、稳预期”主题媒体行活动,带领陕西多家主流媒体走进陕西电子陕西长岭电气有限责任公司参观考察
2025-10-08 17:51:00
近日,中国物流与采购联合会公布全国第十批5A级供应链服务企业名单,华远国际陆港集团正式通过评审,获评“5A级供应链服务企业”
2025-10-08 18:01:00
货丰价稳、活动密集、销售井喷、消费升级……在这个中秋国庆假期,我市消费市场“热”力值拉满,处处繁荣兴旺、活力十足。10月8日
2025-10-08 18:32:00
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00