Yahoo! Slurp
天下维客,你可以修改的网络知识库
Yahoo! Slurp是雅虎(美国)用于抓取网站页面的爬虫程序,以便建立搜索引擎网页索引。
目录 |
[编辑]
爬虫信息
- 爬虫名称: Yahoo! Slurp
- 抓取强度: 很高
- HTTP User Agent:
Mozilla/5.0 (compatible; Yahoo! Slurp; <a href="http://help.yahoo.com/help/us/ysearch/slurp" class="external free" target="_blank" title="http://help.yahoo.com/help/us/ysearch/slurp" rel="nofollow">http://help.yahoo.com/help/us/ysearch/slurp</a>)
- 来访IP:有大量IP来源,例如72.30.61/177/214/215/216/226.* 74.6.17-29/65-75/85-87.* 202.160.181.*
[编辑]
对Yahoo! Slurp爬虫进行控制
Yahoo! Slurp爬虫能良好的尊在遵循robots.txt抓取规范,同时完善支持META robots标签。
[编辑]
邀请Yahoo! Slurp来访
如果你在在robots.txt中限制了部分爬虫,那么你可能需要在robots.txt中增加下述内容:
User-agent: Yahoo! Slurp Disallow:
[编辑]
禁止Yahoo! Slurp访问
如果你不希望Yahoo! Slurp爬虫占用服务器资源,可以这样封锁它:
User-agent: Yahoo! Slurp Disallow: /
如果你仅仅不希望Yahoo! Slurp爬行某些目录,则可以这样:
User-agent: Yahoo! Slurp Disallow: /somedir/
[编辑]
参考资料
- 官方网站
- http://misc.yahoo.com.cn/help.html 关于Yahoo! Slurp项目的官方信息
- 相关条目
- 搜索引擎收录 - 网站登录 - SiteMaps - 网站推广
- 网络爬虫 - 搜索引擎爬虫程序一览表
- robots.txt(爬虫屏蔽规范) - Meta robots标签(nofollow/noindex) - nocontent
- Yahoo - Yahoo! Slurp China(中国雅虎的爬虫)
- 外部链接
- 如何控制Yahoo! Slurp蜘蛛的抓取频度 http://ysearchblog.cn/2006/07/yahoo_slurp.html
| 常见爬虫的特性 | GoogleBot | Mediapartners | Yahoo! Slurp | Yahoo! Slurp China | YodaoBot |
| 爬虫程序 | ia_archiver | iask | iearthworm | DigExt | Indy Library |
| 网络爬虫的名称 | 爬虫程序的屏蔽 | .htaccess | robots.txt | 更多爬虫 |


