GPTBot是什么?GPTBot有什么用?GPTBot爬虫有用吗?
时间:2023年08月10日
/来源:网络
/编辑:佚名
OpenAI公布网页爬虫GPTBot,解决网页数据截取疑虑
网站日志突然出现下面一行,发现是GPTBot爬虫。
20.15.240.177 - - [10/Aug/2023:19:35:54 +0800] "GET /post/10715.html HTTP/1.1" 200 0 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)"
为解决从公开网站上掠取数据的隐私与知识产权争议,OpenAI本周一发布网页爬虫技术GPTBot,以更透明方式搜集公开网页数据来训练其AI模型。
OpenAI指出,GPTBot以明白的user agent token(GPTBot)及完整字符串
(Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是来自OpenAI。
OpenAI表示,以GPTBot user agent抓取的网页数据可能会用于改良未来模型,过程中会筛选掉需要付费的来源,但其中仍可能包含可识别身份的资讯,或是违反OpenAI政策的文本。
若网站管理员允许GPTBot访问网站,将可协助改进AI模型的精确度,提升其能力及安全。但若网站管理员不希望其网站被搜集数据,OpenAI也提供了拒绝的方法说明。
包括在网站robots.txt文件中加入GPTBot(如图):
User-agent:GPTBot
Disallow:/
也可以自订GPTBot访问网站部分内容(如图):
User-agent:GPTBot
Allow:/directory-1/
Disallow:/directory-2/
如果服务器配置不好,可以设置延迟3秒采集,格式为
Crawl-delay: 3
此外,OpenAI也公布GPTBot使用(https://openai.com/gptbot-ranges.txt)的IP地址范围,方便网站识别与封锁。
此类透明化措施可说是OpenAI对媒体或内容网站对AI模型企业未经同意搜集数据的批评的回应。现在普遍认为,企业未经同意搜集公开网站的内容来训练自己的AI模型,侵犯了知识产权、隐私权;他们应该要提供opt-in或opt-out选项,让网站或数据持有人决定是不是要提供自己网站上的内容。
上周募集资金平台Kickstarter也颁布一项AI相关规定,其中一项规定是若创业公司项目使用了外部数据源,应出具来源网站的许可政策及同意证明。无法提供的项目则无法通过审核在Kickstarter上架。
而本周OpenAI预计也将有大改版,包括ChatGPT底层将升级为GPT-4,而插件Code Interpreter也将支持上传多个文件到提示中。
网站日志突然出现下面一行,发现是GPTBot爬虫。
20.15.240.177 - - [10/Aug/2023:19:35:54 +0800] "GET /post/10715.html HTTP/1.1" 200 0 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)"
为解决从公开网站上掠取数据的隐私与知识产权争议,OpenAI本周一发布网页爬虫技术GPTBot,以更透明方式搜集公开网页数据来训练其AI模型。
OpenAI指出,GPTBot以明白的user agent token(GPTBot)及完整字符串
(Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是来自OpenAI。
OpenAI表示,以GPTBot user agent抓取的网页数据可能会用于改良未来模型,过程中会筛选掉需要付费的来源,但其中仍可能包含可识别身份的资讯,或是违反OpenAI政策的文本。
若网站管理员允许GPTBot访问网站,将可协助改进AI模型的精确度,提升其能力及安全。但若网站管理员不希望其网站被搜集数据,OpenAI也提供了拒绝的方法说明。
包括在网站robots.txt文件中加入GPTBot(如图):
User-agent:GPTBot
Disallow:/
也可以自订GPTBot访问网站部分内容(如图):
User-agent:GPTBot
Allow:/directory-1/
Disallow:/directory-2/
如果服务器配置不好,可以设置延迟3秒采集,格式为
Crawl-delay: 3
此外,OpenAI也公布GPTBot使用(https://openai.com/gptbot-ranges.txt)的IP地址范围,方便网站识别与封锁。
此类透明化措施可说是OpenAI对媒体或内容网站对AI模型企业未经同意搜集数据的批评的回应。现在普遍认为,企业未经同意搜集公开网站的内容来训练自己的AI模型,侵犯了知识产权、隐私权;他们应该要提供opt-in或opt-out选项,让网站或数据持有人决定是不是要提供自己网站上的内容。
上周募集资金平台Kickstarter也颁布一项AI相关规定,其中一项规定是若创业公司项目使用了外部数据源,应出具来源网站的许可政策及同意证明。无法提供的项目则无法通过审核在Kickstarter上架。
而本周OpenAI预计也将有大改版,包括ChatGPT底层将升级为GPT-4,而插件Code Interpreter也将支持上传多个文件到提示中。
新闻资讯 更多
- 【建站知识】查询nginx日志状态码大于400的请求并打印整行04-03
- 【建站知识】Python中的logger和handler到底是个什么?04-03
- 【建站知识】python3拉勾网爬虫之(您操作太频繁,请稍后访问)04-03
- 【建站知识】xpath 获取meta里的keywords及description的方法04-03
- 【建站知识】python向上取整以50为界04-03
- 【建站知识】scrapy xpath遇见乱码解决04-03
- 【建站知识】scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题04-03
- 【建站知识】scrapy采集—爬取中文乱码,gb2312转为utf-804-03