1. 首页
  2. 网站建设

如何识别Baiduspider的真假,判断真实蜘蛛爬虫

在网站日志中,我们经常可以看到很多蜘蛛爬虫来访问我们的网站,其中就包括搜索引擎,例如国内最常见的baiduspider。以百度baiduspider为例,通常我们通过User-Agent判断。但是User-Agent是可以模拟的,所以很多时候也会有虚假的模拟伪装成百度蜘蛛来抓取,这时候我们就需要学会分辨真伪。

User-Agent伪装参考:http://www.szl724.com/?p=2289.html,http://www.szl724.com/?p=2241.html

百度的User-Agent

百度pc端的爬虫UA:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
百度移动端的爬虫UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

如何识别Baiduspider

1、首先看日志中是否包含Baiduspider;

2、想区分pc端和移动端,再判断是否包含Mobile、Android或iPhone字样;

3、检查IP地址是否是真的Baiduspider;

如何检查IP是否是Baiduspider

Windows

点击“开始”菜单 -> 点击“运行” -> 弹出cmd窗口 -> 输入“nslookup 要查询的ip地址”,按回车键,就会有结果输出。回车后的结果如果包含x x.baidu.com 或x x.baidu.jp 这两种格式,就说明是真的baiduspider。

201909241118

Linux

liunx使用的命令是“host 要查询的ip地址”,其判断逻辑与windows系统一样。

20190924111916

也可以使用一下本站提供的检查工具,支持百度baiduspider,谷歌googlebot,bingbot和360spider等搜索引擎蜘蛛的真假识别。

网址:https://tool.nbqykj.cn/network/spider/check

20190924112227

搜索引擎真假蜘蛛爬虫识别就到这里,有需要可以把服务器上假的搜索引擎蜘蛛屏蔽掉了。

原创文章,作者:章郎虫,如若转载,请注明出处:http://www.szl724.com/website/3114.html

联系我们

0574-55011290

QQ:248687950

邮件:admin@nbhao.org

工作时间:周一至周五,9:00-18:00,节假日休息

QR code