博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
robots协议
阅读量:6190 次
发布时间:2019-06-21

本文共 282 字,大约阅读时间需要 1 分钟。

robots协议也就是robots.txt,网站使用robots.txt告诉搜索引擎,哪些网页可以被抓取,哪些 网页不能被抓取。

如果将网站视为酒店里的一个房间,而robots.txt就是房间的主人在房门上挂着“请勿打扰”或“欢迎打扫”,这样的提示牌。
robots.txt是搜索引擎访问站点看的第一个文件;如果存在,爬虫会按照robots.txt内容确定访问范围;如果不存在该文件,爬虫可对该站点的所有
没被保护的网页进行访问。

转载于:https://www.cnblogs.com/xjt927/archive/2012/10/17/2728733.html

你可能感兴趣的文章
用ASDM管理思科PIX防火墙
查看>>
大话nub七(Nbu备份恢复Vmware 虚拟机)
查看>>
Zabbix错误提示MySQL server has gone away解决
查看>>
Flash CS 6绘图技巧之锁定填充
查看>>
域账号加到本机管理员组和本机Power Users组
查看>>
redux-form(V7.4.2)笔记(一)
查看>>
《反精益创业》第二章
查看>>
美国能源部试点电力系统网络空间安全成熟度模型
查看>>
掌握知识整合能力,成就完美人生!
查看>>
工作中用不到的技术要不要学?
查看>>
Windows Server 2008 配置SSTP ***--即SSL ***
查看>>
SQL Server Browser 与动态端口
查看>>
oracle11.2.0.4 rac搭建中的crs-4000错误解析
查看>>
10个Linux脚本面试题,看看你能答出几个?
查看>>
IT女生的2011经历
查看>>
dataguru北京线下沙龙--自我介绍
查看>>
Tips:Sharepoint安装时提示需要.Net Framework 4.5
查看>>
第十六章 Python正则表达式
查看>>
用python编写daemon监控进程并自动恢复(附Shell版)
查看>>
构建安全的.NET应用系列-目录
查看>>