http://www.cczero.cn

seo基础:robots爬虫协议规则及校验

  什么是robots协议
  网站和搜索引擎的协议文件
  蜘蛛到网站上第一个访问的文件
  robots语法
  三个单词
  user-agent  意思为适用于谁
  disallow  不允许
  allow  允许
  user-agent  disallow  allow  在书写中三个后面都有一个冒号和一个空格  首字母都是大写
seo基础:robots爬虫协议规则及校验
  两个通配符
  *   匹配0个或者多个字符   匹配所有搜索引擎蜘蛛
  $  匹配相同后缀的文件  这个字符放在文件后缀名后面 即:/*.css$
  带不带“/”    /abc/ 这个是abc文件下的       /abc即abc所有文件  这个的范围更广
  优先原则  遵循allow优先
  注意
  细节
  英文状态  :
  首字母大写
  空格
  allow优先
  一行一个语句
  生效时间  几天或者更长
  不要随便屏蔽整站  可能会导致网站长时间不收录
  为什么限制抓取
  不需要获取排名
  提升抓取效率
  过多的蜘蛛会导致占用服务器资源
  需要屏蔽的内容
  Js Css
  动静态路径同事存在时,屏蔽掉动态路径
  模板文件
  死链接
  隐私页面
  后台

责任编辑:cczero

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。