allwiki首页  
天下维客 你可以修改的网络知识库
首页最近更改优秀条目专题展示电脑科技词典软件学习网络知识电脑安全明星时尚天下百科
 

Robots.txt的增强功能

天下维客,你可以修改的网络知识库

Jump to: navigation, search
robots.txt综述 怎么写robots.txt robots.txt语法规范 文件实例 常见错误 扩展功能
robots.txt疑难解答 检测工具 禁止收录特定页面 清除已收录的页面 META标签:robots
nofollow noindex .htaccess 网络爬虫的名称 常见爬虫的特性 robots.txt相关链接

目录

robots.txt的扩展功能一览表

搜索引擎对robots.txt扩展功能的支持
√支持 ×不支持

google yahoo baidu msn
网址*通配符 ×

说明不完善,似乎只能与$联用

网址结束符$ ×
动态网址字符? × ×
Allow命令

不建议使用

抓取频率crawl-dealy × ×
sitemap指定

关于动态网址中的常见字符

除"?"有比较明确的规定之外,动态链接中的常见字符"&"、"="、","等尚缺乏规定。

已知google支持"="字符。

关于含有汉字的网址

除sogou之外,均未对汉字网址做出规定,因而不建议在robots.txt中使用汉字。

对于sogou,则规定汉字以UTF-8格式存放。

参考链接

google的robots.txt说明

http://www.google.com/support/webmasters/bin/answer.py?answer=40367

·Disallow中的"*":似乎"*"功能不完善,只能与$联用?
·Disallow中的"$"
·Disallow中的"?"
·Allow命令,另见[1]
  • sitemap?

yahoo的robots.txt说明

http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html (英文)

·Disallow中的"*":似乎"*"功能不完善,只能与$联用?
·Disallow中的"$"
·Disallow中的"?"
·Allow命令

http://help.yahoo.com/l/us/yahoo/search/siteexplorer/manage/siteexplorer-53.html

sitemap用法介绍(英文,不详尽) 可参见[2]

http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-03.html

crawl-delay说明(英文) 另见中文实例参考

msn的robots.txt说明

·Disallow中的"*":似乎"*"功能不完善,只能与$联用?
·Disallow中的"$"
·Crawl-delay

robots.txt的扩展

为了更好的发挥robots.txt(可能是为了提高搜索收录质量/减小搜索开销吧),各大搜索引擎公司还是对robots.txt的功能做了进一步延伸,例如对爬虫访问频度、URL通配符的支持等。

但需要注意:这些扩展目前还没有得到标准组织的支持,站长们应清楚意识到他们都只对特定爬虫有作用。

这些扩展中,主要以google和yahoo为代表,建议参考其网页介绍。以下列出部分常见的扩展:

Personal tools
工具
金银币拍卖 金币拍卖预展  金银币网店 熊猫金银币 生肖金银币