Reddit现已屏蔽主要搜索引擎和AI机器人

来源：百科知识2024-07-26 11:05:04

导读 Reddit正在加大对网络爬虫的打击力度。据404Media报道，过去几周，Reddit已开始阻止搜索引擎显示最新帖子和评论，除非搜索引擎付费。据404M...

Reddit正在加大对网络爬虫的打击力度。据404Media报道，过去几周，Reddit已开始阻止搜索引擎显示最新帖子和评论，除非搜索引擎付费。

据404Media报道，目前，谷歌是唯一一家使用“site:reddit.com”技巧在Reddit上搜索帖子时显示最新结果的主流搜索引擎。这排除了Bing、DuckDuckGo和其他替代方案——可能是因为谷歌达成了一项价值6000万美元的交易，允许该公司使用Reddit的内容训练其AI模型。

Reddit发言人TimRathschmidt在给TheVerge的一份声明中表示：“这与我们最近与谷歌的合作完全无关。我们一直在与多家搜索引擎进行讨论。我们无法与所有搜索引擎达成协议，因为有些搜索引擎无法或不愿意就他们对Reddit内容的使用做出可执行的承诺，包括他们对人工智能的使用。”

上个月，为了执行其反抓取政策，Reddit更新了网站的robots.txt文件，该文件告知网络爬虫是否可以访问网站。Reddit首席法律官BenLee在CommandLine中告诉我的同事AlexHeath：“这是向那些未与我们达成协议的人发出的信号，他们不应该访问Reddit数据。”

微软发言人凯特琳·罗尔斯顿(CaitlinRoulston)在给TheVerge的一份声明中表示，“微软尊重robots.txt标准，我们也尊重那些不希望其网页内容被我们的生成式AI模型使用的网站提供的指示”，并补充说，当Bing平台于7月1日更新其robots.txt文件时，它就停止抓取Reddit。

对于像Reddit这样的大型网站来说，屏蔽一些最受欢迎的搜索引擎是一个大胆的举动，但这并不令人意外。在过去的一年里，Reddit对其数据的保护变得更加严格，因为它希望开辟另一个收入来源并安抚新投资者。据报道，在向一些第三方开发商提高其API的费用后，Reddit威胁称，如果谷歌不停止免费使用该平台的数据来训练人工智能，它将切断与谷歌的联系。

随着人工智能聊天机器人充斥着可疑内容的互联网，找到人类撰写的内容从未如此重要。我和许多人一样，已经开始在我的许多搜索中添加“Reddit”，只是为了获得人类的答案，但令人沮丧的是，我现在只能在Google(或依赖它的搜索引擎)上这样做——尤其是当我在Bing上进行许多搜索时。

关键词：