Googlebot
页面分类: Google爬虫程序 | Google
天下维客,你可以修改的网络知识库
Googlebot是google用于收录网页的爬虫程序。用于进行Google AdSense广告的内容匹配。
目录 |
[编辑]
Googlebot的工作原理
当挂有Google AdSense广告的网页被访问后,Googlebot爬虫就会来访。
- 首次访问:抓取网页进行分析(可能是关键字统计),确定此网页的大致领域,并确定匹配广告类型。
- 此后用户再访问该网页时,就会有看到匹配的广告。
- 后续访问:检查网页变化,修正广告投放。
[编辑]
Googlebot的作用
[编辑]
Googlebot的类型
- 深度爬虫
- 更新爬虫
- google爬虫程序家族
[编辑]
爬虫信息
- 爬虫名称: Googlebot
- 爬行强度: 高
- HTTP User Agent:
Mozilla/5.0 (compatible; Googlebot/2.1; +<a href="http://www.google.com/bot.html" class="external free" target="_blank" title="http://www.google.com/bot.html" rel="nofollow">http://www.google.com/bot.html</a>)
- 来访IP:非常之多,至少有几十组IP。例如66.249.70.162-204 66.249.67.34-86 202.75.208.123 202.75.217.188等
[编辑]
对Googlebot爬虫进行控制
Googlebot爬虫遵循robots.txt规范。
[编辑]
邀请Googlebot来访
如果你在在robots.txt中限制了部分爬虫,那么你可能需要在robots.txt中增加下述内容:
User-agent: Googlebot Disallow:
[编辑]
禁止Googlebot访问
如果你不做Google AdSense广告,可以这样封锁Googlebot爬虫:
User-agent: Googlebot Disallow: /
如果你仅仅不希望Googlebot爬行某些目录,则可以这样:
User-agent: Googlebot Disallow: /somedir/
[编辑]
参考资料
- 官方网站
- ★★★★★ http://www.google.com/bot.html 关于Googlebot的官方信息(多语种)
- 相关条目
- 搜索引擎收录 - 网站登录 - SiteMaps - 网站推广
- 网络爬虫 - 搜索引擎爬虫程序一览表 - robots.txt(爬虫屏蔽规范)
- Google爬虫程序 - Mediapartners(google adsense广告爬虫)
- 外部链接
| 常见爬虫的特性 | GoogleBot | Mediapartners | Yahoo! Slurp | Yahoo! Slurp China | YodaoBot |
| 爬虫程序 | ia_archiver | iask | iearthworm | DigExt | Indy Library |
| 网络爬虫的名称 | 爬虫程序的屏蔽 | .htaccess | robots.txt | 更多爬虫 |
页面分类: Google爬虫程序 | Google

