网络爬虫的名称
天下维客,你可以修改的网络知识库
(重定向自爬虫名称一览表)
| 常见爬虫的特性 | GoogleBot | Mediapartners | Yahoo! Slurp | Yahoo! Slurp China | YodaoBot |
| 爬虫程序 | ia_archiver | iask | iearthworm | DigExt | Indy Library |
| 网络爬虫的名称 | 爬虫程序的屏蔽 | .htaccess | robots.txt | 更多爬虫 |
目录 |
[编辑]
得到网络爬虫名称的方法
- 到网络爬虫所有者网站,获取其爬虫名称最为可靠
- 一般情况下,User-agent信息中也会给出爬虫名称,其中"/"之前的部分基本就是爬虫名称
例如:当获取到某次访问的User-agent信息为
[编辑]
google爬虫名称
- 爬虫名称:
- Googlebot:google主爬虫程序,用于日常的网页抓取、索引编制
- Googlebot-Mobile:为google的移动索引抓取网页
- Googlebot-Image:为google图片搜索抓取图像文件
- Mediapartners-Google:抓取网页来确定 AdSense 的内容。只有您的网站上展示AdSense广告时,google才会使用它来抓取您的网站。本爬虫会配合主爬虫程序Googlebot同时影响网页收录。
- Adsbot-Google:抓取网页来衡量AdWords目标网页的质量。仅在您使用Google AdWords推广网站时,google才使用这种漫游器。
- robots.txt规范:在robots.txt基本规范之外,扩充了较多特性。参见robots.txt的扩展功能
- 参考网址:http://www.google.com/support/webmasters/bin/answer.py?answer=40364
- User-agent范例:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Mediapartners-Google
[编辑]
yahoo爬虫名称
- 名称:
- robots.txt规范:在robots.txt基本规范之外,扩充了较多特性。参见robots.txt的扩展功能
- 参考网址:
- User-agent范例:
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
[编辑]
baidu爬虫名称
- 名称:Baiduspider
- 参考网址:
- User-agent范例:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
[编辑]
腾讯搜搜爬虫
- 名称:Baiduspider
- 参考网址:
- User-agent范例:
Sosospider+(+http://help.soso.com/webspider.htm)
[编辑]
搜狗爬虫名称
- 名称:sogou spider
- 参考网址:http://www.sogou.com/docs/help/webmasters.htm#07
- User-agent范例:
Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Sogou Orion spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
- robots.txt规范:遵循 http://www.robotstxt.org/ 基本规范
[编辑]
新浪爱问爬虫名称
- 名称:sogou spider
- 参考网址:http://iask.com/help/help2.html
- User-agent范例:
iaskspider/2.0(+http://iask.com/help/help_index.html)
- robots.txt规范:无介绍
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ) msnbot/1.0 (+http://search.msn.com/msnbot.htm) msnbot/1.1 (+http://search.msn.com/msnbot.htm)
| robots.txt综述 | 怎么写robots.txt | robots.txt语法规范 | 文件实例 | 常见错误 | 扩展功能 |
| robots.txt疑难解答 | 检测工具 | 禁止收录特定页面 | 清除已收录的页面 | META标签:robots | |
| nofollow | noindex | .htaccess | 网络爬虫的名称 | 常见爬虫的特性 | robots.txt相关链接 |


