首页 > 文章资讯 > 站长教程 > 建站知识 > GPTBot是什么？GPTBot有什么用？GPTBot爬虫有用吗？

GPTBot是什么？GPTBot有什么用？GPTBot爬虫有用吗？

时间：2023年08月10日

来源：网络

编辑：佚名

OpenAI公布网页爬虫GPTBot，解决网页数据截取疑虑
网站日志突然出现下面一行，发现是GPTBot爬虫。
20.15.240.177 - - [10/Aug/2023:19:35:54 +0800] ＂GET /post/10715.html HTTP/1.1＂ 200 0 ＂-＂＂Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)＂
为解决从公开网站上掠取数据的隐私与知识产权争议，OpenAI本周一发布网页爬虫技术GPTBot，以更透明方式搜集公开网页数据来训练其AI模型。
OpenAI指出，GPTBot以明白的user agent token（GPTBot）及完整字符串
（Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是来自OpenAI。
OpenAI表示，以GPTBot user agent抓取的网页数据可能会用于改良未来模型，过程中会筛选掉需要付费的来源，但其中仍可能包含可识别身份的资讯，或是违反OpenAI政策的文本。
若网站管理员允许GPTBot访问网站，将可协助改进AI模型的精确度，提升其能力及安全。但若网站管理员不希望其网站被搜集数据，OpenAI也提供了拒绝的方法说明。
包括在网站robots.txt文件中加入GPTBot（如图）:
User-agent:GPTBot
Disallow:/

也可以自订GPTBot访问网站部分内容（如图）:
User-agent:GPTBot
Allow:/directory-1/
Disallow:/directory-2/

如果服务器配置不好，可以设置延迟3秒采集，格式为
Crawl-delay: 3
此外，OpenAI也公布GPTBot使用（https://openai.com/gptbot-ranges.txt）的IP地址范围，方便网站识别与封锁。
此类透明化措施可说是OpenAI对媒体或内容网站对AI模型企业未经同意搜集数据的批评的回应。现在普遍认为，企业未经同意搜集公开网站的内容来训练自己的AI模型，侵犯了知识产权、隐私权；他们应该要提供opt-in或opt-out选项，让网站或数据持有人决定是不是要提供自己网站上的内容。
上周募集资金平台Kickstarter也颁布一项AI相关规定，其中一项规定是若创业公司项目使用了外部数据源，应出具来源网站的许可政策及同意证明。无法提供的项目则无法通过审核在Kickstarter上架。
而本周OpenAI预计也将有大改版，包括ChatGPT底层将升级为GPT-4，而插件Code Interpreter也将支持上传多个文件到提示中。

新闻资讯更多

猜你需要