ASSOCIATED PRESS
Cloudflare 发布了一款免费新工具,防止人工智能公司爬虫从其客户网站抓取内容,用于训练大型语言模型。这家云服务提供商将此工具提供给所有客户,包括免费方案的用户。该公司表示:“随着我们发现越来越多的恶意爬虫在网络上抓取内容以训练模型,此功能将随着时间推移自动更新。”
在宣布此更新的博文中,Cloudflare 团队还分享了一些数据,展示其客户如何应对抓取内容以训练生成式 AI 模型的爬虫激增。根据该公司的内部数据,85.2% 的客户选择阻止即使是正确识别自身的 AI 爬虫访问其网站。
Cloudflare 还指出了过去一年中最活跃的爬虫。字节跳动旗下的 Bytespider 爬虫试图访问 40% 受 Cloudflare 保护的网站,OpenAI 的 GPTBot 试图访问 35%。按照 Cloudflare 网络上请求数量,它们是排名前四的 AI 爬虫,其他两个是 Amazonbot 和 ClaudeBot。
事实证明,全面且持续地阻止 AI 爬虫访问内容非常困难。更快构建模型的军备竞赛导致一些公司绕过或直接违反了现有阻止抓取器的规则。Perplexity AI 最近被指控未经必要许可抓取网站。但 Cloudflare 这样规模的后端公司开始认真尝试遏制这种行为,可能会带来一些成果。
该公司表示:“我们担心一些人工智能公司有意规避获取内容的规则,会不断调整以逃避爬虫检测。”“我们将继续监视,在我们的 AI 爬虫和抓取器规则中添加更多爬虫拦截规则,并完善我们的机器学习模型,帮助互联网成为内容创作者能够蓬勃发展并完全控制他们的内容用于训练或执行推理的模型的地方。”
原创文章,作者:星阁,如若转载,请注明出处:http://www.xgrl.net/n/202407040909591683.shtml