DigExt
天下维客,你可以修改的网络知识库
DigExt虽然并非是一个爬虫程序,但可能像爬虫一样造成大量的服务器访问。
实际上,DigExt是IE5的“允许脱机阅读”模式时发出的特殊标记。
由于设计的失误,离线浏览功能被许多用户无意中错误地使用为每天抓取整个站点,更可恨的是这个特性将使用服务器允许的最大连接数,因而会“成功”阻挡其他用户的使用,直到抓取结束。
因此,很多站长封闭了这种形式的浏览器访问。
以上问题仅存在于IE5中。微软已经承认了发行这种浏览器功能是个失误,并在其后版本(IE 5.5以上)进行了修正,转而采用一种强度不高的预读(read-ahead)算法。
[编辑]
范例信息
- HTTP User Agent:
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt) Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt) Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt) </pre>
[编辑]
参考资料
- 官方网站
- 相关条目
- 搜索引擎收录 - 网站登录 - SiteMaps - 网站推广
- 网络爬虫 - 搜索引擎爬虫程序一览表
- robots.txt(爬虫屏蔽规范) - Meta robots标签(nofollow/noindex) - nocontent
- 外部链接
- 什么是DigExt? http://www.webmasterworld.com/forum11/1319.htm?highlight=digext"
- 另一个介绍 http://forum.doom9.org/archive/index.php/t-20520.html"
| 爬虫程序一览表 | GoogleBot | Mediapartners | Yahoo! Slurp | Yahoo! Slurp China | YodaoBot |
| 爬虫程序 | ia_archiver | iask | iearthworm | DigExt | Indy Library |
| 爬虫程序的屏蔽 | .htaccess | robots.txt | 更多爬虫 |

