Robots.txt
页面分类: Robots.txt | 搜索引擎 | 网站推广 | 爬虫程序
天下维客,你可以修改的网络知识库
| robots.txt综述 | 怎么写robots.txt | robots.txt语法规范 | 文件实例 | 常见错误 | 扩展功能 |
| robots.txt疑难解答 | 检测工具 | 禁止收录特定页面 | 清除已收录的页面 | META标签:robots | |
| nofollow | noindex | .htaccess | 网络爬虫的名称 | 常见爬虫的特性 | robots.txt相关链接 |
目录 |
[编辑]
什么是robots.txt?
robots.txt是存放于网站根目录下的文本文件,用于告诉搜索引擎的漫游器(又称网络蜘蛛)哪些内容不能被抓取,从而防止特定内容被搜索引擎收录。
有说法表明:即便不想阻挡任何网络爬虫,网站也应该在根目录下建立一个空的robots.txt文件,否则可能带来潜在错误(爬虫访问未设置robots.txt的站点时,有可能会因404重定向到另外的Html页面而导致问题)。
[编辑]
robots.txt的作用和局限
[编辑]
robots.txt可以做什么?
- 防止私有或其他非发布性内容被搜索引擎收录
- 绝大多数的搜索引擎都遵循robots.txt规范。通过设置robots.txt,你可以防止自己的私人文件、测试中的程序被搜索引擎所收录。
- 节省服务器资源,从而提高服务质量
- 尽管网站内容被越多的搜索引擎收录越有推广效果,但过多的搜索引擎爬虫会带来很大的服务器负载(爬虫访问量可能达到正常访问量的10倍)。这对于虚拟主机或资源比较紧张的的网站是个头痛的问题。
- 这种情况下,你可以通过robots.txt中封禁部分爬虫来节约开销。另外,对于系统开销很高的查询结果调用页面,可考虑屏蔽操作。
- 减少重复收录,提高网站独特性
- 当网站内大量不同链接指向相同(或极其相似)的内容时,搜索引擎可能会认为网站质量低下甚至判断为作弊。
- 而通过使用robots.txt来阻止打印模式、不同皮肤等造成的内容重复,使搜索引擎收录质量提高,从而提高搜索引擎对贵站的好感。
- 其他作用——Sitemap、爬虫访问频率
- ①可以通过robots.txt指定sitemap文件位置,从而避免到多个搜索引擎去提交的麻烦。目前###(欢迎补充资料)支持这个操作。
- ②yahoo爬虫支持对robots.txt的一个扩展:设定爬虫访问频度。
[编辑]
robots.txt做不到什么?
- robots.txt不可能对网站内容进行高安全性的隐藏
- robots.txt仅仅指导爬虫们不要去抓取某些网站内容,但对用户直接网址等方式的访问则没有封禁效果!
- 不仅如此,实际上还有人特意研究某些网站的robots.txt,试图找到其中隐藏的东西。
如果你不想让别人知道某些东西,那么最好的办法是通过程序加密来限制访问。(临时的简单处理办法也有:使用不为人所知的独特子目录,注意不要在外部对其中内容进行链接而造成泄密)
- robots.txt不能封禁恶意爬虫或内容抓取
- robots.txt仅仅是一个民间的指导性意见,不遵从它并没有法律后果。实际上,采集器等多数恶意爬虫根本不理睬robots.txt,例如某些网站刻意忽略robots.txt来盗链、抓取mp3或电影等文件,封禁它们需要用更专业的手段。
- robots.txt不能删除搜索引擎中已收录的页面
- 设定的robots.txt规则并不能马上生效,这与搜索引擎的更新机制有关。如果搜索引擎已经收录网页并做了缓存,则可能根据缓存而继续对其索引。
- 关于这个问题,请参考让搜索引擎清除已收录的页面。
- robots.txt不善于处理个别页面
- robots.txt的禁止抓取设定是基于目录的,如果一个目录中仅有部分页面需要禁止收录,应用nofollow、noindex等meta标签更方便。
[编辑]
robots.txt用法说明
请参见怎么写robots.txt。
[编辑]
robots.txt相关的meta标签
robots.txt能方便的设置搜索引擎不去访问整个目录,对单独文件的处理则并不方便。多数情况下,可以在单独的网页html文件中增加相关meta标签来解决这个问题:
<meta name="robots" content="index,follow"> <meta name="robots" content="noindex,follow"> <meta name="robots" content="index,nofollow"> <meta name="robots" content="noindex,nofollow">
其中index标签表示搜索引擎可以收录,noindex不收录;follow表示可以根据页内链接继续漫游,nofollow则禁止。
[编辑]
参考资料
| robots.txt综述 | 怎么写robots.txt | robots.txt语法规范 | 文件实例 | 常见错误 | 通配符扩展 |
| robots.txt疑难解答 | 检测工具 | 爬虫名称一览表 | 禁止收录特定页面 | 清除已收录的页面 | META标签:robots |
[编辑]
相关链接
- robots.txt规范
- 以下链接给出robots.txt的通用标准
- robots.txt的原始规范出处: http://www.robotstxt.org 网站
- ★★★★★robots.txt的原始英文资料: robots.txt相关内容索引 - 1994.6.30的robots.txt规范 - robots.txt之站长实施说明
- 各搜索引擎对robots.txt的规定和扩展
- 以下链接供读者针对某特定搜索引擎爬虫而撰写robots.txt时参考
- ★★★★★google对robots.txt的规定(多语种): http://www.google.com/support/webmasters/bin/answer.py?answer=40360 (扩展了路径通配符、Allow命令、Sitemap等)
- yahoo对robots.txt的规定(英文): http://help.yahoo.com/help/us/ysearch/slurp/slurp-02.html (扩展了路径通配符、爬虫访问频度)
- baidu对robots.txt的规定: http://www.baidu.com/search/robots.html (仅作为相关备忘,实际上没有做扩展)
- robots.txt的新版提案
- 以下链接供研究robots.txt的未来,目前对网站操作没有实质影响
- robots.txt 2.0版本提案: http://www.conman.org/people/spc/robots2.html
- robots.txt其他相关文章
- ★★★☆☆搜索引擎蜘蛛及Robots.txt文件详解 http://www.bloghuman.com/post/67.htm
- ★★★★☆Robots.txt指南 http://www.adsensepro.net/seo/seo/2007-02-12/Robotstxt-ZhiNa-r5pm06.htm
- robots.txt生成工具
- ★★☆☆☆http://www.mcanerin.com/EN/search-engine/robots-txt.asp 一个简单的robots.txt生成工具,及robots.txt简介
- ★★★☆☆http://www.clickability.co.uk/robotstxt.html 一个较好的robots.txt生成工具,可以借以了解多种不同的网络爬虫分类
- robots.txt检测工具
- ★★★★☆http://tool.motoricerca.info/robots-checker.phtml 一个很好的检测工具,告诉你每段文字的意义及robots.txt的潜在问题
页面分类: Robots.txt | 搜索引擎 | 网站推广 | 爬虫程序


