GPTBot是什么?GPTBot有什么用?GPTBot爬虫有用吗?

时间:2023年08月10日

/

来源:网络

/

编辑:佚名

OpenAI公布网页爬虫GPTBot,解决网页数据截取疑虑
网站日志突然出现下面一行,发现是GPTBot爬虫。
20.15.240.177 - - [10/Aug/2023:19:35:54 +0800] "GET /post/10715.html HTTP/1.1" 200 0 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)"
为解决从公开网站上掠取数据的隐私与知识产权争议,OpenAI本周一发布网页爬虫技术GPTBot,以更透明方式搜集公开网页数据来训练其AI模型。
OpenAI指出,GPTBot以明白的user agent token(GPTBot)及完整字符串
(Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是来自OpenAI。
OpenAI表示,以GPTBot user agent抓取的网页数据可能会用于改良未来模型,过程中会筛选掉需要付费的来源,但其中仍可能包含可识别身份的资讯,或是违反OpenAI政策的文本。
若网站管理员允许GPTBot访问网站,将可协助改进AI模型的精确度,提升其能力及安全。但若网站管理员不希望其网站被搜集数据,OpenAI也提供了拒绝的方法说明。
包括在网站robots.txt文件中加入GPTBot(如图):
User-agent:GPTBot
Disallow:/

也可以自订GPTBot访问网站部分内容(如图):
User-agent:GPTBot
Allow:/directory-1/
Disallow:/directory-2/

如果服务器配置不好,可以设置延迟3秒采集,格式为
Crawl-delay: 3
此外,OpenAI也公布GPTBot使用(https://openai.com/gptbot-ranges.txt)的IP地址范围,方便网站识别与封锁。
此类透明化措施可说是OpenAI对媒体或内容网站对AI模型企业未经同意搜集数据的批评的回应。现在普遍认为,企业未经同意搜集公开网站的内容来训练自己的AI模型,侵犯了知识产权、隐私权;他们应该要提供opt-in或opt-out选项,让网站或数据持有人决定是不是要提供自己网站上的内容。
上周募集资金平台Kickstarter也颁布一项AI相关规定,其中一项规定是若创业公司项目使用了外部数据源,应出具来源网站的许可政策及同意证明。无法提供的项目则无法通过审核在Kickstarter上架。
而本周OpenAI预计也将有大改版,包括ChatGPT底层将升级为GPT-4,而插件Code Interpreter也将支持上传多个文件到提示中。
猜你需要

豫ICP备2021026617号-1  豫公网安备:41172602000185   Copyright © 2021-2028 www.78moban.com/ All Rights Reserved

本站作品均来自互联网,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如有侵犯您的版权,请联系 1565229909#qq.com(把#改成@),我们将立即处理。