allwiki首页  
天下维客 你可以修改的网络知识库
首页最近更改优秀条目专题展示电脑科技词典软件学习网络知识电脑安全明星时尚天下百科
 

网络爬虫的名称

天下维客,你可以修改的网络知识库

(重定向自爬虫名称一览表)
Jump to: navigation, search
常见爬虫的特性 GoogleBot Mediapartners Yahoo! Slurp Yahoo! Slurp China YodaoBot
爬虫程序 ia_archiver iask iearthworm DigExt Indy Library
网络爬虫的名称 爬虫程序的屏蔽 .htaccess robots.txt 更多爬虫

目录

得到网络爬虫名称的方法

  • 网络爬虫所有者网站,获取其爬虫名称最为可靠
  • 一般情况下,User-agent信息中也会给出爬虫名称,其中"/"之前的部分基本就是爬虫名称

例如:当获取到某次访问的User-agent信息为

google爬虫名称

  • 爬虫名称:
  1. Googlebot:google主爬虫程序,用于日常的网页抓取、索引编制
  2. Googlebot-Mobile:为google的移动索引抓取网页
  3. Googlebot-Image:为google图片搜索抓取图像文件
  4. Mediapartners-Google:抓取网页来确定 AdSense 的内容。只有您的网站上展示AdSense广告时,google才会使用它来抓取您的网站。本爬虫会配合主爬虫程序Googlebot同时影响网页收录。
  5. Adsbot-Google:抓取网页来衡量AdWords目标网页的质量。仅在您使用Google AdWords推广网站时,google才使用这种漫游器。
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mediapartners-Google

yahoo爬虫名称

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

baidu爬虫名称

  • 名称:Baiduspider
  • 参考网址:
  • User-agent范例:
Baiduspider+(+http://www.baidu.com/search/spider.htm)

腾讯搜搜爬虫

  • 名称:Baiduspider
  • 参考网址:
  • User-agent范例:
Sosospider+(+http://help.soso.com/webspider.htm)

搜狗爬虫名称

Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou Orion spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

新浪爱问爬虫名称

iaskspider/2.0(+http://iask.com/help/help_index.html)
  • robots.txt规范:无介绍
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
msnbot/1.1 (+http://search.msn.com/msnbot.htm)


robots.txt综述 怎么写robots.txt robots.txt语法规范 文件实例 常见错误 扩展功能
robots.txt疑难解答 检测工具 禁止收录特定页面 清除已收录的页面 META标签:robots
nofollow noindex .htaccess 网络爬虫的名称 常见爬虫的特性 robots.txt相关链接
Personal tools
工具
金银币拍卖 金币拍卖预展  金银币网店 熊猫金银币 生肖金银币