攻防世界-web-Training-WWW-Robots-相关知识

时间:2024-02-22 22:49:52
  • robots协议也称爬虫协议、爬虫规则等,是指网站建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。 robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
  • disallow 用法
    "Disallow"是一个常用于网站 robots.txt 文件中的指令,用于告诉搜索引擎爬虫哪些页面不应该被爬取。robots.txt文件是一个位于网站根目录的文本文件;用于控制搜索引擎爬虫对网站内容的访问。
    在 robots.txt 文件中,"Disallow"用于指定不允许爬虫访问的页面或目录。其基本语法如下:
    User-agent:[爬虫代理名称]
    Disallow:[不允许访问的路径]