Reddit正在加大对网络爬虫的打击力度。据404Media报道,过去几周,Reddit已开始阻止搜索引擎显示最新帖子和评论,除非搜索引擎付费。
据404Media报道,目前,谷歌是唯一一家使用“site:reddit.com”技巧在Reddit上搜索帖子时显示最新结果的主流搜索引擎。这排除了Bing、DuckDuckGo和其他替代方案——可能是因为谷歌达成了一项价值6000万美元的交易,允许该公司使用Reddit的内容训练其AI模型。
Reddit发言人TimRathschmidt在给TheVerge的一份声明中表示:“这与我们最近与谷歌的合作完全无关。我们一直在与多家搜索引擎进行讨论。我们无法与所有搜索引擎达成协议,因为有些搜索引擎无法或不愿意就他们对Reddit内容的使用做出可执行的承诺,包括他们对人工智能的使用。”
上个月,为了执行其反抓取政策,Reddit更新了网站的robots.txt文件,该文件告知网络爬虫是否可以访问网站。Reddit首席法律官BenLee在CommandLine中告诉我的同事AlexHeath:“这是向那些未与我们达成协议的人发出的信号,他们不应该访问Reddit数据。”
微软发言人凯特琳·罗尔斯顿(CaitlinRoulston)在给TheVerge的一份声明中表示,“微软尊重robots.txt标准,我们也尊重那些不希望其网页内容被我们的生成式AI模型使用的网站提供的指示”,并补充说,当Bing平台于7月1日更新其robots.txt文件时,它就停止抓取Reddit。
对于像Reddit这样的大型网站来说,屏蔽一些最受欢迎的搜索引擎是一个大胆的举动,但这并不令人意外。在过去的一年里,Reddit对其数据的保护变得更加严格,因为它希望开辟另一个收入来源并安抚新投资者。据报道,在向一些第三方开发商提高其API的费用后,Reddit威胁称,如果谷歌不停止免费使用该平台的数据来训练人工智能,它将切断与谷歌的联系。
随着人工智能聊天机器人充斥着可疑内容的互联网,找到人类撰写的内容从未如此重要。我和许多人一样,已经开始在我的许多搜索中添加“Reddit”,只是为了获得人类的答案,但令人沮丧的是,我现在只能在Google(或依赖它的搜索引擎)上这样做——尤其是当我在Bing上进行许多搜索时。