OpenAI阻止网络爬虫从其网站上抓取数据训练 GPT 模型！-农村经济网

OpenAI阻止网络爬虫从其网站上抓取数据训练 GPT 模型！

2023-08-08 19:04:52 | 作者： | 来源：搜狐新闻

　　根据OpenAI介绍，GPTBot和其他所有网络爬虫一样，从互联网上搜集能够用于训练AI模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外，网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。

　　驱动中国2023年8月8日消息，据悉，OpenAI 旗下 GPT 模型的训练需要大量的网络数据，这可能涉及到数据隐私和版权等问题。为了解决这些问题，OpenAI 最近推出了一个新功能，让网站可以阻止其网络爬虫(web crawler)从其网站上抓取数据训练 GPT 模型。

　　网络爬虫是一种自动化的程序，可以在互联网上搜索和获取信息。OpenAI 的网络爬虫名为 GPTBot，其会以一定的频率访问各种网站，并将网页内容保存下来，用于训练 GPT 模型。

　　OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示，“使用 GPTBot 用户代理(user agent)抓取的网页可能会被用于改进未来的模型，并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源，“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确，并提高它们的通用能力和安全性。”

编辑：璐璐

免责声明：文章未标注“本站原创”或“农村经济网”的文章均转载自网络。文章内容不代表本站观点，本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺，仅供读者参考，风险自己甄别并承担后果；如本文内容影响到您的合法权益，请及时联系本站，我们会及时删除处理！邮箱地址：xyxxfc2022@163.com

热点排行