robots协议也就是robots.txt,网站使用robots.txt告诉搜索引擎,哪些网页可以被抓取,哪些 网页不能被抓取。
如果将网站视为酒店里的一个房间,而robots.txt就是房间的主人在房门上挂着“请勿打扰”或“欢迎打扫”,这样的提示牌。
robots.txt是搜索引擎访问站点看的第一个文件;如果存在,爬虫会按照robots.txt内容确定访问范围;如果不存在该文件,爬虫可对该站点的所有
没被保护的网页进行访问。
本文共 282 字,大约阅读时间需要 1 分钟。
robots协议也就是robots.txt,网站使用robots.txt告诉搜索引擎,哪些网页可以被抓取,哪些 网页不能被抓取。
转载于:https://www.cnblogs.com/xjt927/archive/2012/10/17/2728733.html