Robots.txt的增强功能
天下维客,你可以修改的网络知识库
| robots.txt综述 | 怎么写robots.txt | robots.txt语法规范 | 文件实例 | 常见错误 | 扩展功能 |
| robots.txt疑难解答 | 检测工具 | 禁止收录特定页面 | 清除已收录的页面 | META标签:robots | |
| nofollow | noindex | .htaccess | 网络爬虫的名称 | 常见爬虫的特性 | robots.txt相关链接 |
目录 |
[编辑]
robots.txt的扩展功能一览表
| yahoo | baidu | msn | ||
|---|---|---|---|---|
| 网址*通配符 | √ | √ | × | √ |
| 网址结束符$ | √ | √ | × | √ |
| 动态网址字符? | √ | √ | × | × |
| Allow命令
不建议使用 | ||||
| 抓取频率crawl-dealy | × | √ | × | √ |
| sitemap指定 |
[编辑]
关于动态网址中的常见字符
除"?"有比较明确的规定之外,动态链接中的常见字符"&"、"="、","等尚缺乏规定。
已知google支持"="字符。
[编辑]
关于含有汉字的网址
除sogou之外,均未对汉字网址做出规定,因而不建议在robots.txt中使用汉字。
对于sogou,则规定汉字以UTF-8格式存放。
[编辑]
参考链接
[编辑]
google的robots.txt说明
- google关于roobots.txt的说明: http://www.google.com/support/webmasters/bin/answer.py?answer=40360&topic=8846
http://www.google.com/support/webmasters/bin/answer.py?answer=40367
- ·Disallow中的"*":似乎"*"功能不完善,只能与$联用?
- ·Disallow中的"$"
- ·Disallow中的"?"
- ·Allow命令,另见[1]
- sitemap?
[编辑]
yahoo的robots.txt说明
http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html (英文)
- ·Disallow中的"*":似乎"*"功能不完善,只能与$联用?
- ·Disallow中的"$"
- ·Disallow中的"?"
- ·Allow命令
http://help.yahoo.com/l/us/yahoo/search/siteexplorer/manage/siteexplorer-53.html
- sitemap用法介绍(英文,不详尽) 可参见[2]
http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-03.html
- crawl-delay说明(英文) 另见中文实例参考
[编辑]
msn的robots.txt说明
- ·Disallow中的"*":似乎"*"功能不完善,只能与$联用?
- ·Disallow中的"$"
- ·Crawl-delay
[编辑]
robots.txt的扩展
为了更好的发挥robots.txt(可能是为了提高搜索收录质量/减小搜索开销吧),各大搜索引擎公司还是对robots.txt的功能做了进一步延伸,例如对爬虫访问频度、URL通配符的支持等。
但需要注意:这些扩展目前还没有得到标准组织的支持,站长们应清楚意识到他们都只对特定爬虫有作用。
这些扩展中,主要以google和yahoo为代表,建议参考其网页介绍。以下列出部分常见的扩展:


