• 我的订阅
  • 科技

OpenAI推出网络爬虫GPTBot,但用户可以选择禁止被爬

类别:科技 发布时间:2023-08-08 17:40:00 来源:36氪

作者 | 虞景霖

编辑 | 邓咏仪

AI模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。

8月8日,OpenAI推出了一款名为GPTBot的网络爬虫机器人,用于收集训练AI模型所需的数据信息。传闻OpenAI将利用这些数据升级GPT-4和其他大语言模型(如可能即将推出的GPT-5和开源的G3PO)。

根据OpenAI介绍,GPTBot和其他所有网络爬虫一样,从互联网上搜集能够用于训练AI模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。

如何识别GPTBot?

来源:OpenAI

如何禁止GPTBot访问?

将GPTBot添加到网站的robots.txt:

来源:OpenAI

如何限制GPTBot访问,使其只爬取网站的一部分数据?

将下列命令添加至网站的robots.txt:

来源:OpenAI

此外,根据OpenAI发布的有关GPTBot的文档,还列出了GPTBot使用的IP范围(目前只列出了一个,之后将继续添加)。

来源:OpenAI

数据的爬取是AI模型训练不可或缺的一环,而由此所带来的伦理和法律和法律问题也一直是公众关注的焦点。不少国家和地区出台了相应法案,Reddit和X(前Twitter)等网站也采取了相应措施打击AI公司爬取用户数据的行为。

喜剧演员兼作家Sarah Silverman曾在美国法院起诉OpenAI的侵权行为,原因是ChatGPT会总结她的书籍,这一行为构成了侵权。

GPTBot是对围绕版权、公开信息合理使用的一次尝试,使数据收集尽可能在监管范围之内。

尽管网络爬虫网站信息引发了部分网站所有者、版权所有者的反对,但也有支持的声音。

网站信息和ChatGPT等大语言模型可以是相辅相成、互相促进的,但并不绝对。网络爬虫在获取网站信息的时候能够改善网站的流量,网页数据信息能够帮助大语言模型生成更加可靠完善的回答。但网络爬虫所爬取的数据并不一定是信息的源链接,因此无法为网站带去流量。

尽管如此,正如Perplexity和其他大语言模型展示的那样,生成式人工智能机器人的回答还可能包括链接和引用,在未来也有可能成为ChatGPT的特性之一。因此,网站内容发布者也可能希望网站信息被用于AI模型,以换取可能的流量。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-08 22:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

OpenAI 现允许网站阻止其网络爬虫抓取数据
...题,OpenAI最近推出了一个新功能,让网站可以阻止其网络爬虫(webcrawler)从其网站上抓取数据训练GPT模型
2023-08-08 16:36:00
为训大模型不择手段的 AI 公司,打破了这个古老的互联网协议
...是一个文本文件,每个网站都用它来说明自己是否愿意被爬虫抓取。30 年来,一直是它,让互联网不至于在混乱中运行。不过这个规则能长久运行其实纯靠一个人性逻辑——你让搜索引擎抓取你
2024-02-20 15:28:00
一键屏蔽 AI 模型爬虫机器人,Cloudflare 推出“防扒”网络工具
... 月 26 日消息,网络服务商 Cloudflare 本周推出一系列防 AI 爬虫的工具,包括可查看 AI 爬虫具体活动的 AI Audit 和一键屏蔽所有 AI 爬虫的 Block AI Scrapers and Crawlers
2024-09-27 09:48:00
「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落
...。许可的不对称性与不一致性相比其他的开发者,OpenAI的爬虫更加不受欢迎。不一致性体现在,robots.txt和服务条款(Terms of Service
2024-08-14 09:40:00
2025推荐网站保护的Web 应用防火墙 -- 雷池WAF
...ath注入、RCE、XXE、SSRF、路径遍历、后门、暴力破解、CC、爬虫等攻击。工作原理雷池通过阻断流向Web服务的恶意HTTP流量来保护Web服务
2025-04-25 23:33:00
python的基础知识和应用
...能得到了行业认可,这让我在求职时更具竞争力。3.网络爬虫Python的简洁语法和强大的库(如BeautifulSoup和Scrapy)使其成为编写网络爬虫的理想选择
2024-10-12 10:41:00
斯坦福AI虚拟小镇开源;英伟达再推超级芯片;OpenAI发布爬虫机器人 | 本周硅谷发生了什么?
...H200,主要面向大模型和生成式AI。OpenAI则发布了一款新的爬虫机器人,但用户可以选择自己的数据是否被用于模型训练
2023-08-14 15:59:00
...记者,目前训练AI模型所使用的版权作品,主要来自网络爬虫的爬取。网络爬虫,是通过模拟人(网络用户)的行为,自动、高效地浏览互联网并抓取所需数据的计算机程序。“作为技术的网络爬
2025-04-26 08:37:00
Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则
...因:24小时内访问某公司服务器100万次,以不付费形式,爬虫抓取网站内容。不仅明目张胆无视了“禁止爬取”的公告,还强行占用了服务器资源。这家“受害者”公司其实尽力防御了,但阻
2024-08-01 09:35:00
更多关于科技的资讯:
中新经纬2月2日电 据“中国银联”网站消息,1月30日,中国银联发布声明称,公司从未联合或授权任何机构发行所谓“农业专属卡”
2026-02-02 20:22:00
贵州刺梨以高附加值产品开拓全国大市场
春节前夕,正值年货采买热潮,贵州刺梨产业也迎来新的发展节点——由贵州农发集团下属贵州刺梨集团研发的SOD(超氧化物歧化酶)肠溶片系列产品
2026-02-02 17:01:00
如何评价一家事业编培训机构?从鸿图政通教育的扎实筹备说起
在快速更迭的培训市场,不乏一时风头无两的机构,但能持续赢得信任的品牌,往往离不开长时间的潜心积淀与专业化打磨。北京鸿图政通教育虽于2024年1月22日正式注册成立
2026-02-02 19:30:00
海信发布璀璨大冻梨冰箱 以“真大冷冻”新标准破解行业用户痛点
鲁网2月2日讯1月31日,海信正式推出全新产品——海信璀璨大冻梨冰箱。这款被定义为“行业大冷冻冰箱开创者”的产品,旨在系统性解决中国家庭在食材冷冻存储中长期面临的容积不足
2026-02-02 14:17:00
深挖用户痛点:海信璀璨大冻梨冰箱背后的“冻力”革命与创新哲学
鲁网2月2日讯中国家庭的冷冻室正面临一场普遍的“存储危机”:食材堆积导致存取不便;大量囤货时中心温度难以下降;化冻后的肉类口感干柴
2026-02-02 14:18:00
产业一线|每天翻开200次,折叠屏手机能用多久?
中新经纬1月29日电 (李自曼)“目前柔性OLED(有机发光二极管,是一种显示技术,被誉为第三代显示技术)屏,已经可以广泛应用在内折
2026-02-02 14:41:00
日前,在2026年美国气象学会年会上,英伟达正式推出Earth-2开放模型系列——面向人工智能气象领域的全开放、加速型模型与工具套件
2026-02-02 14:52:00
2026年1月30日,全球服务机器人行业领导者科沃斯(603486.SH)发布了2025年度业绩预告。预计2025年净利润17—18亿元
2026-02-02 14:53:00
AI赋能精准破局,绵阳开启高校毕业生高质量就业新路径
“以前写简历总抓不住重点,面试应答也缺乏逻辑。参加集训营后,我用AI工具精准生成了针对性简历和面试话术,还制作了个性化职业照和个人介绍短片
2026-02-02 14:54:00
没有什么比开业更优惠!三联家电章丘世茂店盛大试营业,全场5折起!
鲁网2月2日讯没有什么比开业更优惠!正值年货节消费旺季,三联家电作为国补以旧换新指定参与卖场,对个人消费者购买1级能效或水效标准的冰箱
2026-02-02 15:27:00
近日,多家媒体报道的“凌晨点外卖次数过多银行卡被风控”事件,让银行客户权益、风控安全之间的平衡问题再次受到关注。不少网友分享了类似经历
2026-02-02 16:27:00
AI OPC专区产业服务平台正式上线,助力无锡打造AI创新高地
近日,“智序·新征程—AI起航·预见未来”无锡市人工智能行业协会年度生态大会在无锡国际会议中心隆重举行。大会汇聚政府领导
2026-02-02 15:58:00
多彩贵州网讯 今年以来,都匀市税务局依托黔南州云税匀办税费集约中心持续拓展“线上主动服务”的应用场景,不断推动税费服务从“解答问题”向“解决问题”深刻转变
2026-02-02 16:10:00
零中断、零感知切换——泰安联通肥城分公司高效完成远端机房撤并实现降本增效与网络升级双突破
鲁网2月2日讯近日,在肥城城区的两个角落——交通局沿街6楼机房与上海世纪城基站,泰安联通肥城分公司组织网络综合支撑网格的10名技术骨干
2026-02-02 11:23:00