知乎故意使用乱码干扰必应/谷歌等爬虫 看起来确实是阻止内容被抓取训练AI – 蓝点网
昨天蓝点网提到有用户反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容,训练即搜索结果里知乎内容的知乎止内抓标题和正文内容都可能是乱码的,但抓取的故意干扰谷歌正文前面一些段落内容可以正常查看。
考虑到此前知乎已经屏蔽除百度和搜狗以外的使用实阻所有搜索引擎爬虫 (蜘蛛 / 机器人),蓝点网猜测知乎应该是乱码蓝点想通过乱码来干扰搜索引擎和其他爬虫,避免这些搜索引擎和爬虫抓取知乎内容拿去训练人工智能模型。等爬
这种猜测现在基本已经坐实,起确因为有网友发现只要用户代理字符串 (UserAgent) 中包含爬虫类关键词例如 spider 和 bot,容被那么知乎就会返回乱码内容,如果不包含这些关键词则返回正常内容。
蓝点网也进行了测试复现了这种情况,例如 [蓝点网 – 没有蜘蛛] 这个代理字符串可以显示正常内容,而 [蓝点网 – 没有蜘蛛 – spider] 就会显示乱码内容。
值得注意的是蓝点网还测试了百度搜索的爬虫也就是 Baiduspider 也返回乱码内容,那这岂不是影响百度抓取吗?这个也可以通过技术手段解决,即服务器为百度爬虫提供了专门的索引通道类似白名单,可以随意抓取任何不受限的内容。这种方式还可以用来对抗某些恶意抓取者冒充百度爬虫来抓取内容,因此从网站角度来说也是个不错的防御方式。
测试中还有个有趣的情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码,不过大多数情况下也都是乱码的,因为 UA 匹配到了关键词 bot 所以返回乱码内容,这不太可能是知乎也允许 OpenAI 抓取内容。
从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的关键词匹配,这些情况基本说明了知乎确实不希望自己的内容被抓取,对知乎来说现有的内容是个巨大的金矿,如果人工智能公司不花钱来买的话那肯定不能提供这些数据,所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练。
测试1:正常浏览器UA可以返回正确内容
测试2:测试 test-bing-bot 命中关键词 bot 返回乱码内容
测试3:测试 test-google-spider 命中关键词 spider 返回乱码
测试4:测试 蓝点网-没有蜘蛛 未命中关键词返回正常内容
测试5:测试 蓝点网-没有蜘蛛-有个锤子的-spider 因为命中关键词返回乱码
测试6:测试 蓝点网-没有蜘蛛-有个锤子的-bot因为命中关键词返回乱码
测试7:GPTBot命中关键词但意外没有乱码,这种情况出现的概率极低,大部分还是乱码
测试8:baiduspider因为命中关键词也乱码
测试9:这是百度爬虫渲染的完整UA
测试10:GPTBot大多数时候也是乱码的
(责任编辑:综合)
- 究竟是不是赢者通吃?雷军、李斌的迥异观点 既矛盾也不矛盾
- 小米SU7电池衰减超过限值可免费更换,标准向特斯拉Model 3/Y看齐
- 印产三星手机翻车!Galaxy S21/S22系列屏幕绿线爆雷!
- 等一个2026年才有的双向折叠iPhone?网友:不如相信秦始皇复活!
- 酷睿Ultra处理器与RTX 40系显卡加持,华硕无畏Pro15 2024全能AI轻薄本发布
- TCL发布新一代Mini LED电视:极致画质带给用户沉浸视听体验
- 比亚迪王传福来看智己L6了,学习还是合作?
- 日本要遥遥领先了?多家电信公司联合宣布开发出了6G设备
- 蔡司推出索尼E卡口新镜头 不过是单价超三万的NP电影头
- 三星Galaxy S25 Ultra继续挤牙膏:祖传5000mAh与45W充电不可少
- 历经13个季度重夺市场第一!华为手机第一季度出货量达1170万台
- 等一个2026年才有的双向折叠iPhone?网友:不如相信秦始皇复活!
- 小鹏全新轿车路试谍照曝光 或定位中大型纯电轿车
- 疑似魅族21 Note谍照曝光,三摄布局越看越像iPhone