allwiki首页  
天下维客 你可以修改的网络知识库
首页最近更改优秀条目专题展示电脑科技词典软件学习网络知识电脑安全明星时尚天下百科
 

DigExt

天下维客,你可以修改的网络知识库

Jump to: navigation, search


DigExt虽然并非是一个爬虫程序,但可能像爬虫一样造成大量的服务器访问。



实际上,DigExt是IE5的“允许脱机阅读”模式时发出的特殊标记。



由于设计的失误,离线浏览功能被许多用户无意中错误地使用为每天抓取整个站点,更可恨的是这个特性将使用服务器允许的最大连接数,因而会“成功”阻挡其他用户的使用,直到抓取结束。



因此,很多站长封闭了这种形式的浏览器访问。



以上问题仅存在于IE5中。微软已经承认了发行这种浏览器功能是个失误,并在其后版本(IE 5.5以上)进行了修正,转而采用一种强度不高的预读(read-ahead)算法。


范例信息

  • HTTP User Agent:


Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt) Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt) Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt) </pre>

参考资料

官方网站
相关条目
搜索引擎收录 - 网站登录 - SiteMaps - 网站推广
网络爬虫 - 搜索引擎爬虫程序一览表
robots.txt(爬虫屏蔽规范) - Meta robots标签nofollow/noindex) - nocontent
外部链接
什么是DigExt? http://www.webmasterworld.com/forum11/1319.htm?highlight=digext"
另一个介绍 http://forum.doom9.org/archive/index.php/t-20520.html"
爬虫程序一览表 GoogleBot Mediapartners Yahoo! Slurp Yahoo! Slurp China YodaoBot
爬虫程序 ia_archiver iask iearthworm DigExt Indy Library
爬虫程序的屏蔽 .htaccess robots.txt 更多爬虫
Personal tools
工具