• 我的订阅
  • 科技

OpenAI 现允许网站阻止其网络爬虫抓取数据

类别:科技 发布时间:2023-08-08 16:36:00 来源:浅语科技

OpenAI旗下GPT模型的训练需要大量的网络数据,这可能涉及到数据隐私和版权等问题。为了解决这些问题,OpenAI最近推出了一个新功能,让网站可以阻止其网络爬虫(webcrawler)从其网站上抓取数据训练GPT模型。

OpenAI 现允许网站阻止其网络爬虫抓取数据

据了解,网络爬虫是一种自动化的程序,可以在互联网上搜索和获取信息。OpenAI的网络爬虫名为GPTBot,其会以一定的频率访问各种网站,并将网页内容保存下来,用于训练GPT模型。

OpenAI在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止GPTBot的访问,或者通过屏蔽其IP地址,来阻止GPTBot从其网站上抓取数据。OpenAI还表示,“使用GPTBot用户代理(useragent)抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源,“允许GPTBot访问您的网站可以帮助AI模型变得更加准确,并提高它们的通用能力和安全性。”

但是,这并不会追溯性地从ChatGPT的训练数据中删除之前从网站上抓取的内容。

互联网为大型语言模型(如OpenAI的GPT模型和谷歌的Bard)提供了大部分的训练数据,为AI训练获取数据已经变得越来越有争议。一些网站,包括Reddit和Twitter,已经采取措施打击AI公司免费使用其用户帖子的行为,而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-08 17:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。8月8日,OpenAI推出了一款名为GPTBot的网络爬虫机
2023-08-08 17:40:00
一键屏蔽 AI 模型爬虫机器人,Cloudflare 推出“防扒”网络工具
... 月 26 日消息,网络服务商 Cloudflare 本周推出一系列防 AI 爬虫的工具,包括可查看 AI 爬虫具体活动的 AI Audit 和一键屏蔽所有 AI 爬虫的 Block AI Scrapers and Crawlers
2024-09-27 09:48:00
为训大模型不择手段的 AI 公司,打破了这个古老的互联网协议
...是一个文本文件,每个网站都用它来说明自己是否愿意被爬虫抓取。30 年来,一直是它,让互联网不至于在混乱中运行。不过这个规则能长久运行其实纯靠一个人性逻辑——你让搜索引擎抓取你
2024-02-20 15:28:00
「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落
...。许可的不对称性与不一致性相比其他的开发者,OpenAI的爬虫更加不受欢迎。不一致性体现在,robots.txt和服务条款(Terms of Service
2024-08-14 09:40:00
Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则
...因:24小时内访问某公司服务器100万次,以不付费形式,爬虫抓取网站内容。不仅明目张胆无视了“禁止爬取”的公告,还强行占用了服务器资源。这家“受害者”公司其实尽力防御了,但阻
2024-08-01 09:35:00
...记者,目前训练AI模型所使用的版权作品,主要来自网络爬虫的爬取。网络爬虫,是通过模拟人(网络用户)的行为,自动、高效地浏览互联网并抓取所需数据的计算机程序。“作为技术的网络爬
2025-04-26 08:37:00
曝Reddit屏蔽多个搜索引擎和AI爬虫,官方称与谷歌合作无关
...并指出 Reddit 已更新其 robots.txt 文件(IT之家注:网站与爬虫的协议文件),阻止所有机器人抓取网站的任何内容
2024-07-26 13:57:00
google发布imagen3图像生成技术
...e的网站发布者控制功能允许网站管理员阻止搜索引擎与AI爬虫从他们的网站上获取数据,包括照片和视频。但是,Google并没有提供"退出"工具,而且与某些竞争对手不同的是,Goo
2024-05-16 11:05:00
2025推荐网站保护的Web 应用防火墙 -- 雷池WAF
...ath注入、RCE、XXE、SSRF、路径遍历、后门、暴力破解、CC、爬虫等攻击。工作原理雷池通过阻断流向Web服务的恶意HTTP流量来保护Web服务
2025-04-25 23:33:00
更多关于科技的资讯:
中央音乐学院发布音乐脑机接口“央音一号”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)音乐脑机接口“央音一号”,近日在中央音乐学院发布。中央音乐学院音乐人工智能与音乐信息科技系主任李小兵表示
2025-11-03 16:52:00
11.11提前抢!三联家电折扣让利,家电焕新正当时
鲁网11月3日讯随着11.11购物节的脚步日益临近,全国家电消费市场热度持续攀升,山东地区更是提前进入 “焕新倒计时”
2025-11-03 15:52:00
安徽牧羊人可持续时尚工业园项目开工 致力打造羊毛针织行业的佼佼者
大皖新闻讯 11月3日,安徽牧羊人可持续时尚工业园项目开工奠基仪式举行。项目建成后,将形成年产1000万件成衣,7200吨纺纱
2025-11-03 16:11:00
“景德镇鸡排哥”用一碗香辣鸡排撬动全网关注,这座千年瓷都再次被推上流量风口。草根摊主的日常片段在网络掀起打卡热潮,小众街巷因一条短视频迎来客流井喷
2025-11-03 12:25:00
乘AI之势,筑电子产业之基,CPCA Show Plus 2025 圆满闭幕,2026再相见!
2025年10月28日-30日,电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(以下简称:CPCA Show Plus)在深圳国际会展中心(宝安)盛大举办
2025-11-03 12:43:00
培育钻值得购买吗?超全选购攻略一篇搞定,附头部品牌深度测评
当越来越多的年轻人开始琢磨“如何高性价比的结个婚”,培育钻石凭借着价格优势、环保理念,正成为暗潮涌动的钻戒市场的新宠。据统计
2025-11-03 12:45:00
未来,AI有望打造口感逼真的植物蛋白
大河网讯 “人工智能(AI)正以前所未有的速度加速食品创新,它不仅能打造口感逼真的植物蛋白、通过文本生成全新食品配方,还能辅助设计个性化营养食品
2025-11-03 13:10:00
2025 年,Facebook 依托 Meta 生态的 29.8 亿全球月活用户(Statista 数据),仍是企业海外拓客的关键阵地
2025-11-03 12:46:00
彰显国际范科技范 第十七届厦门国际动漫节圆满落幕
角色扮演者在金海豚动漫游戏嘉年华现场打卡。厦门游戏企业展台带来多样互动活动。游路演活动现场,企业展开对接。(动漫节组委会 供图) 厦门网讯(文/厦门日报记者 林露虹 通讯员 洪慧敏 图/厦门日报记者 林铭鸿 除署名外)昨日傍晚
2025-11-03 08:55:00
报告:亲身体验“在地风物”成年轻人出行新理由
近日,中国旅游研究院(文化和旅游部数据中心)与马蜂窝联合召开“旅游目的地探索系列报告发布会”,发布该系列最新研究成果——《中国风物报告》
2025-11-03 09:28:00
几何之厦落子广州白云机场T3,以“文化坪效”重塑机场商业价值
(2025年10月30日,广州电) 今日,广州白云国际机场T3航站楼正式通航,与这座未来年客流量超千万级航空枢纽一同启幕的
2025-11-03 09:59:00
固安:“共享工厂”赋能特色产业集群高质量发展
河北新闻网讯(万倩、王智钢)走进汉旗电子科技(固安)有限公司的生产车间,企业新升级的智能化生产线正在高效运转。这里不仅是企业自身的生产基地
2025-11-03 10:00:00
梦启未来!2025年“兴火·燎原”创新马拉松公开赛火热报名中
创新驱动发展澎湃潮涌,“数字中国”建设如火如荼。年年相约,再启新程,2025年“兴火·燎原”创新马拉松公开赛正式开放报名
2025-11-03 10:29:00
阿宽食品以品类创新引领发展:从红油面皮到土豆泥泥面、魔芋系列
10月27日至28日,四川省预制食品产业高质量发展推进会在眉山市召开。当天,阿宽食品作为代表企业设展,重点展示了包括红油面皮
2025-11-03 10:29:00
浪潮计算机生态发展大会圆满举办
10月31日,以“潮涌水城 链动未来”为主题的浪潮计算机生态发展大会圆满举办。浪潮集团党委副书记、总经理刘继永,聊城市委副书记
2025-11-03 10:56:00