allwiki首页  
天下维客 你可以修改的网络知识库
首页最近更改优秀条目专题展示电脑科技词典软件学习网络知识电脑安全明星时尚天下百科
 

Yahoo! Slurp

天下维客,你可以修改的网络知识库

Jump to: navigation, search

Yahoo! Slurp雅虎(美国)用于抓取网站页面的爬虫程序,以便建立搜索引擎网页索引。

目录

爬虫信息

  • 爬虫名称: Yahoo! Slurp
  • 抓取强度: 很高
  • HTTP User Agent:
Mozilla/5.0 (compatible; Yahoo! Slurp; <a href="http://help.yahoo.com/help/us/ysearch/slurp" class="external free" target="_blank" title="http://help.yahoo.com/help/us/ysearch/slurp" rel="nofollow">http://help.yahoo.com/help/us/ysearch/slurp</a>)
  • 来访IP:有大量IP来源,例如72.30.61/177/214/215/216/226.* 74.6.17-29/65-75/85-87.* 202.160.181.*

对Yahoo! Slurp爬虫进行控制

Yahoo! Slurp爬虫能良好的尊在遵循robots.txt抓取规范,同时完善支持META robots标签

邀请Yahoo! Slurp来访

如果你在在robots.txt中限制了部分爬虫,那么你可能需要在robots.txt中增加下述内容:

User-agent: Yahoo! Slurp
Disallow:

禁止Yahoo! Slurp访问

如果你不希望Yahoo! Slurp爬虫占用服务器资源,可以这样封锁它:

User-agent: Yahoo! Slurp
Disallow: / 

如果你仅仅不希望Yahoo! Slurp爬行某些目录,则可以这样:

User-agent: Yahoo! Slurp
Disallow: /somedir/

参考资料

官方网站
http://misc.yahoo.com.cn/help.html 关于Yahoo! Slurp项目的官方信息
相关条目
搜索引擎收录 - 网站登录 - SiteMaps - 网站推广
网络爬虫 - 搜索引擎爬虫程序一览表
robots.txt(爬虫屏蔽规范) - Meta robots标签nofollow/noindex) - nocontent
Yahoo - Yahoo! Slurp China(中国雅虎的爬虫)
外部链接
如何控制Yahoo! Slurp蜘蛛的抓取频度 http://ysearchblog.cn/2006/07/yahoo_slurp.html
常见爬虫的特性 GoogleBot Mediapartners Yahoo! Slurp Yahoo! Slurp China YodaoBot
爬虫程序 ia_archiver iask iearthworm DigExt Indy Library
网络爬虫的名称 爬虫程序的屏蔽 .htaccess robots.txt 更多爬虫
Personal tools
工具
金银币拍卖 金币拍卖预展  金银币网店 熊猫金银币 生肖金银币