近期 Cloudflare 为所有网站推出防止 AI 抓爬功能,爬功该功能旨在避免未经授权的网站网人工智能爬虫抓取网站内容用于训练模型,当然这也可以减低网站的示蓝负载避免影响到网站性能。
不过说来也比较搞笑,点网Cloudflare 的不受这项功能也是基于 AI 开发的,即 AI 会分析前来抓爬的蓝点爬虫信息和抓爬次数,当超过某个阈值后就会被 Cloudflare 拦截。若使
不幸的用C影响影响是这个功能也会影响到网站的 RSS 订阅输出,因为 RSS 阅读器 (在线版) 通常会定时抓取网站的最I抓 RSS 地址获取最新文章并呈现给用户。
这些 RSS 阅读器的新的S显 UA 也算是某种爬虫,因此在网站启用 Cloudflare 的爬功防止 AI 抓爬功能后,RSS 阅读器的爬虫也会被拦截,从而导致用户无法通过 RSS 阅读器查看内容。
OpenRSS 日前发布博客指出了这个问题,呼吁网站管理员针对这种情况进行处理,否则会影响用户正常通过 RSS 阅读器进行阅读。
要解决这个问题也不难,例如蓝点网支持通过 RSS 全文输出内容,我们在提供这个功能时考虑到抓爬可能被误杀,即将 RSS 爬虫的请求当作 CC 攻击而拦截。
因此我们也在服务器上做了一些特别处理,下面是一些建议供各位站长参考:
1. 如果使用 Cloudflare 则将特定字符的爬虫添加到白名单,通常 RSS 阅读器的爬虫带有关键词 rss 或 feed,可以通过关键词匹配检测到此类爬虫就默认放行 (但弊端是垃圾爬虫也可以使用这个方法来规避检测和拦截);
2. 将 rss 或 feed 地址添加到白名单里,允许任意爬虫访问该地址,但网站其他部分依然保持安全策略,因为 RSS 阅读器通常只需要获取 RSS 列表读取内容,无需对每个地址进行访问,但垃圾爬虫则会从 RSS 获得列表后挨个访问抓取内容 (这种策略不适合全文输出的 RSS,例如蓝点网的 RSS 是全文输出因此爬虫并不需要继续访问其他页面,但这个策略蓝点网后续也会进行调整)。
3. 以上两种方式都不是最佳解决方案,OpenRSS 的建议是将 RSS 阅读器的 IP 地址添加到白名单,但这个数据收集是个很大的问题,这依赖 RSS 阅读器提供商和网站管理员共同努力,但如果采用这种策略则未添加到白名单的 RSS 阅读器也会被拦截。
4.Cloudflare 还提供了个策略:RSS 阅读器可以申请将自己的爬虫添加到验证白名单中,只不过实际情况是部分验证了的爬虫还是会被拦截,这个属于 Cloudflare 的问题。