OpenAI发布爬虫工具GPTBot,支持透明采集网页信息
时间:2023年08月10日
/来源:网络
/编辑:佚名
OpenAI近日发布了其网络爬虫工具GPTBot。据官方介绍,GPTBot能够在尊重版权的前提下,以透明的方式收集网页信息,用于训练OpenAI的各AI模型。
GPTBot使用专有网页UA来标识其爬虫身份,完整的UA字符串为(Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot)。
网站管理员可以根据需要,自由选择是否允许GPTBot进行数据采集。
OpenAI表示,如果网站管理员不希望被爬虫搜集资料,可以在网站服务器的robots.txt文件中完全禁止GPTBot抓取信息,或者自行决定GPTBot抓取网站上的哪些信息。
OpenAI此前因“侵犯隐私问题”受到业界指责,推出GPTBot爬虫工具可视为对外界批判的回应,同时也有助于推动行业建立AI训练用爬虫工具的相关标准。
此外,OpenAI日前宣布注册GPT-5商标,GPTBot爬虫工具有望助力GPT-5的相关模型训练。
GPTBot使用专有网页UA来标识其爬虫身份,完整的UA字符串为(Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot)。
网站管理员可以根据需要,自由选择是否允许GPTBot进行数据采集。
OpenAI表示,如果网站管理员不希望被爬虫搜集资料,可以在网站服务器的robots.txt文件中完全禁止GPTBot抓取信息,或者自行决定GPTBot抓取网站上的哪些信息。
OpenAI此前因“侵犯隐私问题”受到业界指责,推出GPTBot爬虫工具可视为对外界批判的回应,同时也有助于推动行业建立AI训练用爬虫工具的相关标准。
此外,OpenAI日前宣布注册GPT-5商标,GPTBot爬虫工具有望助力GPT-5的相关模型训练。
新闻资讯 更多
- 【建站知识】查询nginx日志状态码大于400的请求并打印整行04-03
- 【建站知识】Python中的logger和handler到底是个什么?04-03
- 【建站知识】python3拉勾网爬虫之(您操作太频繁,请稍后访问)04-03
- 【建站知识】xpath 获取meta里的keywords及description的方法04-03
- 【建站知识】python向上取整以50为界04-03
- 【建站知识】scrapy xpath遇见乱码解决04-03
- 【建站知识】scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题04-03
- 【建站知识】scrapy采集—爬取中文乱码,gb2312转为utf-804-03