allwiki首页  
天下维客 你可以修改的网络知识库
首页最近更改优秀条目专题展示电脑科技词典软件学习网络知识电脑安全明星时尚天下百科
 

Googlebot

天下维客,你可以修改的网络知识库

Jump to: navigation, search

Googlebotgoogle用于收录网页的爬虫程序。用于进行Google AdSense广告的内容匹配。

目录

Googlebot的工作原理

当挂有Google AdSense广告的网页被访问后,Googlebot爬虫就会来访。

  • 首次访问:抓取网页进行分析(可能是关键字统计),确定此网页的大致领域,并确定匹配广告类型。
此后用户再访问该网页时,就会有看到匹配的广告。
  • 后续访问:检查网页变化,修正广告投放。

Googlebot的作用

Googlebot的类型

爬虫信息

  • 爬虫名称: Googlebot
  • 爬行强度: 高
  • HTTP User Agent:
Mozilla/5.0 (compatible; Googlebot/2.1; +<a href="http://www.google.com/bot.html" class="external free" target="_blank" title="http://www.google.com/bot.html" rel="nofollow">http://www.google.com/bot.html</a>)
  • 来访IP:非常之多,至少有几十组IP。例如66.249.70.162-204 66.249.67.34-86 202.75.208.123 202.75.217.188等

对Googlebot爬虫进行控制

Googlebot爬虫遵循robots.txt规范。

邀请Googlebot来访

如果你在在robots.txt中限制了部分爬虫,那么你可能需要在robots.txt中增加下述内容:

User-agent: Googlebot
Disallow:

禁止Googlebot访问

如果你不做Google AdSense广告,可以这样封锁Googlebot爬虫:

User-agent: Googlebot
Disallow: / 

如果你仅仅不希望Googlebot爬行某些目录,则可以这样:

User-agent: Googlebot
Disallow: /somedir/

参考资料

官方网站
★★★★★ http://www.google.com/bot.html 关于Googlebot的官方信息(多语种)
相关条目
搜索引擎收录 - 网站登录 - SiteMaps - 网站推广
网络爬虫 - 搜索引擎爬虫程序一览表 - robots.txt(爬虫屏蔽规范)
Google爬虫程序 - Mediapartners(google adsense广告爬虫)
外部链接
常见爬虫的特性 GoogleBot Mediapartners Yahoo! Slurp Yahoo! Slurp China YodaoBot
爬虫程序 ia_archiver iask iearthworm DigExt Indy Library
网络爬虫的名称 爬虫程序的屏蔽 .htaccess robots.txt 更多爬虫
Personal tools
工具