• 我的订阅
  • 科技

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

类别:科技 发布时间:2024-08-01 09:35:00 来源:量子位

Claude团队这次惹了众怒!

原因:24小时内访问某公司服务器100万次,以不付费形式,爬虫抓取网站内容。

不仅明目张胆无视了“禁止爬取”的公告,还强行占用了服务器资源。

这家“受害者”公司其实尽力防御了,但阻止失败,内容数据还是被Claude抓走了。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

公司负责人气得吹胡子瞪眼,在x上激情开麦:

嘿,Anthropic,我知道您渴望数据。Claude真的很聪明!但你造吗,这一点也不!酷!哦!

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

许多网友为此愤愤不平,有个搞文案工作的网友留言称:

“我建议用‘偷’,而不是‘不付费’来描述Anthropic的这种行为。”

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

一时之间,群情激愤!

支持声讨的,要求Claude付费的,评论区简直乱成一锅粥了。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

这是怎么回事

强烈谴责Anthropic的这家公司叫做iFixit,是一家美国电子商务和操作指南网站。

iFixit的业务的一部分,是为消费电子产品和小工具提供类维基百科的免费在线维修指南。

网站内有数百万个页面,包括修理指南、指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。

但,iFixit突然发现,Claude的爬虫程序ClaudeBot在几个小时内,每分钟都有数千次请求访问。

这约等于一天内访问其网站近百万次。

据统计,它一天内访问了10 TB的文件,整个5月份总计访问了73 TB。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

为此,iFixit的CEO老K(Kyle Wiens)丢下一句话:

未经许可,ClaudeBot偷走我们所有的数据,还把我们的服务器占满了……Fine,这也没什么大不了。不知道它有没有爬到我们的许可说明??

对你没看错,「未经许可」。

iFixit其实有写声明——

未经iFixit明确事先书面许可,严禁因为任何其他目的(包括训练机器学习或人工智能模型)复制、复制或分发本网站上的任何内容、材料或设计元素。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

然并卵。

Claude不仅视若无睹地继续疯狂访问-抓取,还躲避了iFixit的防御。

iFixit其实成功阻止了两个Anthropic的AI抓取机器人,分别名为“ANTHROPIC-AI”和“CLAUDE-WEB”。

但这俩AI抓取机器人似乎已经是过去式了,目前的主力爬虫正是没被阻止成功的“ClaudeBot”。

逼不得已,老K表示,iFixit本周修改了robots.txt文件,专门用来阻止Anthropic的爬虫机器人。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

那,Anthropic那边有啥反应不?

它们倒是没有闭麦,对媒体回应道:

ANTHROPIC-AI 和 CLAUDE-WEB 这俩确实是公司使用过的旧爬虫,但现在已经停止使用了。

当然了,Anthropic回避了现在活跃的ClaudeBot是否尊重防爬虫robots.txt阻止被爬取的问题。

AI公司不是第一次干这事儿了

翻看Anthropic的官方网站可以发现,早就挂着一篇名为《Anthropic是否从网络上抓取数据?网站所有者如何阻止抓取工具?》的文章。

里面提到:

根据行业标准,Anthropic使用各种数据源进行模型开发,例如通过网络爬虫收集的来自互联网的公开数据。我们的爬取不应具有侵入性或破坏性。我们的目标是通过考虑爬取相同域的速度,并在适当的情况下尊重爬行延迟来将干扰降到最低。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

但一片舆论声中不难发现,Anthropic显然不是这么做的。

它,未经允许爬取别人数据,老惯犯了。

就说今年4月的时候,Linux Mint论坛就惨遭被爬。

在几个小时中,ClaudeBot多次访问论坛爬取数据,导致论坛在几个小时内处于超低速or崩溃状态,最终完全崩掉。

有人表示,在同一时间内,ClaudeBot占用的流量独占鳌头,是第二名的20倍、第三名的40倍。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

在4月事件和本次事件的讨论贴中,都有人建议:

既然放禁爬取公告没有用,那不放在网站中搞一些带有可追踪or独特信息的虚假信息,以便检测是谁偷走了数据。

iFixit确实也这么做了。

而且真的有用——发现自家网站的信息不仅被Claude爬个底朝天,还被OpenAI也爬走了……

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

讲道理,有什么办法呢?真的一点办法也没有。

因为除了Claude和GPT以外,这样强行偷家的AI挺不少的。

前几天就有一家名为Tollbit的机器人检测初创公司声称Perplexity、Claude、OpenAI会忽略爬取网站上的robots.txt设置——当时有人跑去问了OpenAI的态度,OpenAI不予置评。

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

再往前看,上个月也闹过一次。

《福布斯》谴责AI搜索产品Perplexity涉嫌抄袭其新闻文章;一石激起千层浪,更多媒体站出来,指责Perplexity的爬虫机器人PerplexityBot非法抓取自家网站信息。

而Perplexity一直的态度都是:

尊重出版商不抓取内容的要求,并且在合理使用版权法的范围内运营。

理论上讲,不管是ClaudeBot还是PerplexityBot,在遇到标明“禁止抓取”“禁止robot.txt”的文件时,都应该遵从协议,规避爬取声明方网站的内容。

既然声明无效,就有人呼吁创作者把内容尽可能转移到付费区域,来防止无限制的抓取。

你觉得这样的办法会有效吗?

参考链接:[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/[3]https://twitter.com/kwiens/status/1816128302542905620[4]https://x.com/Carnage4Life/status/1804316030665396356[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-01 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

为训大模型不择手段的 AI 公司,打破了这个古老的互联网协议
...是一个文本文件,每个网站都用它来说明自己是否愿意被爬虫抓取。30 年来,一直是它,让互联网不至于在混乱中运行。不过这个规则能长久运行其实纯靠一个人性逻辑——你让搜索引擎抓取你
2024-02-20 15:28:00
能够弥补现行法律规制爬虫的滞后性
...基于风险的方法规制数据抓取——能够弥补现行法律规制爬虫的滞后性江西财经大学法学院饶传平在《东方法学》2023年第6期上发表题为《论数据抓取法律风险的流程化管理》的文章中指出:
2024-01-24 01:46:00
一键屏蔽 AI 模型爬虫机器人,Cloudflare 推出“防扒”网络工具
... 月 26 日消息,网络服务商 Cloudflare 本周推出一系列防 AI 爬虫的工具,包括可查看 AI 爬虫具体活动的 AI Audit 和一键屏蔽所有 AI 爬虫的 Block AI Scrapers and Crawlers
2024-09-27 09:48:00
...型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。8月8日,OpenAI推出了一款名为GPTBot的网络爬虫机
2023-08-08 17:40:00
OpenAI 现允许网站阻止其网络爬虫抓取数据
...题,OpenAI最近推出了一个新功能,让网站可以阻止其网络爬虫(webcrawler)从其网站上抓取数据训练GPT模型
2023-08-08 16:36:00
好学编程:编程0基础,应当如何开始学习 Python?
...、选择发展方向这个就看你需求了,web开发、数据分析、爬虫开发等等,他们要求的技能是不一样的,学习路线也不一样。路线一
2022-12-29 10:00:00
...记者,目前训练AI模型所使用的版权作品,主要来自网络爬虫的爬取。网络爬虫,是通过模拟人(网络用户)的行为,自动、高效地浏览互联网并抓取所需数据的计算机程序。“作为技术的网络爬
2025-04-26 08:37:00
...部分内容通常也难以做到百分百的准确授权;三是利用“爬虫”技术爬取的网络信息,这也是生成式人工智能技术最常用的数据收集手段,其爬取的内容受网络爬虫协议条款约束,应视其具体使用目
2023-10-11 07:42:00
《COD21》僵尸模式海量截图:恐怖爬虫 巨大融合怪!
早些时间,《使命召唤21:黑色行动6》公开僵尸模式预告片,官方在介绍中确认本作将引入一种新的类似蜘蛛的敌人类型(Vermin)。据介绍,Vermin是一种“体型巨大、像蜘蛛一样爬
2024-08-09 16:58:00
更多关于科技的资讯:
木里木外x Designwire设计腕儿 《心居未来·豪宅艺术与生活方式》趋势论坛圆满举行
智能高定探索美好关系,2025年10月22日,木里木外·故宫·源邸迎来了一场思想与美学的盛宴。以“心居未来·豪宅艺术与生活方式”为主题的趋势论坛论坛在此隆重启幕
2025-11-03 14:31:00
以 AI 科技赋能中超 ,铸强品牌区域影响力
鲁网11月3日讯2025年2月22日,联想集团与中国足球职业联赛联合会正式达成战略合作,成为中超联赛官方合作伙伴,以全栈 AI 技术为核心为联赛注入科技活力
2025-11-03 14:37:00
中新经纬11月3日电 据“北京市场监管”微信号3日消息,京津冀三地市场监督管理部门联合发布“双十一”消费提示和平台合规指导
2025-11-03 15:00:00
第26届金牌服务季战略升级,金牌家居赋能装企决胜“品质交付”
10月29日上午,金牌服务季——“品质交付”装企交付保障誓师大会在金牌家居总部研发大楼隆重举行,金牌家居总裁潘孝贞、轮值执行副总裁陈少华等多位领导出席
2025-11-03 15:01:00
近日,致力于智慧、安全、健康和可持续建筑解决方案的全球性企业江森自控宣布推出EasyIO Neo Series楼宇自动化系统的新版本
2025-11-03 15:01:00
远大生命科学与图灵量子共建AI赋能平台|量子智能重塑GUTX益次方研发范式
近日,远大生命科学有限公司(以下简称“远大生命科学”)与图灵量子正式签署战略合作协议,双方将共同建设“益生菌数据库及量子AI赋能系统”
2025-11-03 15:01:00
2025世界物联网博览会|思特奇全栈物联能力筑基万物智联
10月31日,2025世界物联网博览会(2025WIOT)已在无锡市太湖国际博览中心盛大启幕。作为国内领先的数字化转型与智能化服务提供商
2025-11-03 15:09:00
2025年优质少儿编程教育机构:妙小程少儿编程-赛事出口+精准匹配!
在少儿编程教育领域,家长选择机构时通常会围绕课程体系的科学性、教学模式的适配性、竞赛支持的实用性及师资团队的稳定性展开考量
2025-11-03 15:10:00
2025年51Talk口碑好:收费透明+约课便捷+系统稳定!
在为孩子选择在线英语课程时,很多家长都会关心课程的收费价格是否合理、能否长期坚持。作为2011年成立、2016年在美国上市的首家中国在线教育企业
2025-11-03 15:12:00
张朝阳谈物理课开讲四周年:人生任何阶段都可以学习
11月2日14:00,搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳携《张朝阳的物理课》四周年特别直播如约而至。以“以矢量微积分的精神表达微分几何”为主题
2025-11-03 15:31:00
无人车配送场景再“上新”,顺丰同城携手收钱吧推出无人车校园餐配
近日,国内规模最大的第三方即配平台顺丰同城与数字化门店综合服务商收钱吧达成合作,联合在四川汽车职业技术学院推出无人车校园智能餐配服务
2025-11-03 15:31:00
鲁网11月3日讯近日,山东省地矿局第七地质大队与之江实验室科学数据枢纽研究中心,聚焦AI技术与地矿行业的深度融合,通过视频会议形式召开专题交流会
2025-11-03 15:47:00
携手何泓姗创意直播,容声冰箱以“鲜净”引领储鲜新观念
鲁网11月3日讯10月31日,容声冰箱在长沙京东MALL打造了一场别开生面的“快闪+直播”品牌事件。活动邀请了在《如懿传》中饰演“小琵琶精”白蕊姬的知名演员何泓姗作为“超级用户”
2025-11-03 15:50:00
三联家电11.11全城狂欢节启幕:家电迎最佳入手时机
鲁网11月3日讯随着冬季临近,消费者对家电的需求日益旺盛。即日起至11月11日,三联家电“11.11全城狂欢节”正式开启
2025-11-03 15:51:00
海信冰箱首创磁吸光幕门板,破解高端家电美学与功能兼容难题
鲁网11月3日讯日前,家电行业迎来一项标志性创新——深耕市场多年的海信冰箱正式推出了全球首创的磁吸光幕门板,并成功入围2025国际CMF设计奖
2025-11-03 15:52:00