我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
作者 | 虞景霖
编辑 | 邓咏仪
AI模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。
8月8日,OpenAI推出了一款名为GPTBot的网络爬虫机器人,用于收集训练AI模型所需的数据信息。传闻OpenAI将利用这些数据升级GPT-4和其他大语言模型(如可能即将推出的GPT-5和开源的G3PO)。
根据OpenAI介绍,GPTBot和其他所有网络爬虫一样,从互联网上搜集能够用于训练AI模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。
如何识别GPTBot?
来源:OpenAI
如何禁止GPTBot访问?
将GPTBot添加到网站的robots.txt:
来源:OpenAI
如何限制GPTBot访问,使其只爬取网站的一部分数据?
将下列命令添加至网站的robots.txt:
来源:OpenAI
此外,根据OpenAI发布的有关GPTBot的文档,还列出了GPTBot使用的IP范围(目前只列出了一个,之后将继续添加)。
来源:OpenAI
数据的爬取是AI模型训练不可或缺的一环,而由此所带来的伦理和法律和法律问题也一直是公众关注的焦点。不少国家和地区出台了相应法案,Reddit和X(前Twitter)等网站也采取了相应措施打击AI公司爬取用户数据的行为。
喜剧演员兼作家Sarah Silverman曾在美国法院起诉OpenAI的侵权行为,原因是ChatGPT会总结她的书籍,这一行为构成了侵权。
GPTBot是对围绕版权、公开信息合理使用的一次尝试,使数据收集尽可能在监管范围之内。
尽管网络爬虫网站信息引发了部分网站所有者、版权所有者的反对,但也有支持的声音。
网站信息和ChatGPT等大语言模型可以是相辅相成、互相促进的,但并不绝对。网络爬虫在获取网站信息的时候能够改善网站的流量,网页数据信息能够帮助大语言模型生成更加可靠完善的回答。但网络爬虫所爬取的数据并不一定是信息的源链接,因此无法为网站带去流量。
尽管如此,正如Perplexity和其他大语言模型展示的那样,生成式人工智能机器人的回答还可能包括链接和引用,在未来也有可能成为ChatGPT的特性之一。因此,网站内容发布者也可能希望网站信息被用于AI模型,以换取可能的流量。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2023-08-08 22:45:15
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: