首页 > 文章资讯 > 站长教程 > 建站知识 > OpenAI发布爬虫工具GPTBot，支持透明采集网页信息

OpenAI发布爬虫工具GPTBot，支持透明采集网页信息

时间：2023年08月10日

来源：网络

编辑：佚名

OpenAI近日发布了其网络爬虫工具GPTBot。据官方介绍，GPTBot能够在尊重版权的前提下，以透明的方式收集网页信息，用于训练OpenAI的各AI模型。
GPTBot使用专有网页UA来标识其爬虫身份，完整的UA字符串为（Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot）。
网站管理员可以根据需要，自由选择是否允许GPTBot进行数据采集。
OpenAI表示，如果网站管理员不希望被爬虫搜集资料，可以在网站服务器的robots.txt文件中完全禁止GPTBot抓取信息，或者自行决定GPTBot抓取网站上的哪些信息。
OpenAI此前因“侵犯隐私问题”受到业界指责，推出GPTBot爬虫工具可视为对外界批判的回应，同时也有助于推动行业建立AI训练用爬虫工具的相关标准。
此外，OpenAI日前宣布注册GPT-5商标，GPTBot爬虫工具有望助力GPT-5的相关模型训练。

新闻资讯更多

猜你需要