网站建设新闻banner图片

网站建设之了解网站robots文件的作用

来源:未知     时间:2017-11-14

首先要了解概念。何为robots,robots.txt是一个纯文本文件,用于声明该网站中不想被蜘蛛访问的部分,或者指定蜘蛛抓取的部分。简而言之,robots.txt不是规定,而是一种约定,需要蜘蛛自觉遵守的一种习俗。


当蜘蛛访问一个站点时,它会首先检查该站点是否存在robots.txt。如果找到,蜘蛛就会按照该文件中的内容来确定抓取的范围,如果该文件不存在,那么蜘蛛就沿着链接直接抓取。


robots.txt的存在路径:放置在一个站点的根目录下,而且文件名必须全部小写。
网站robots了解
robots的常见语法:

User-agent:*

是针对哪个搜索引擎蜘蛛。这里的*代表搜索引擎,*是通配符。

Allow

定义的是允许蜘蛛抓取某个栏目或文件

Allow:/cgi-bin/

这里定义的是允许访问cgi-bin目录

Allow:/* .htm$

允许访问以“.htm”为后缀的URL,$指的是匹配行结束符,*指的是匹配任何字符。


Disallow

定义的是禁止蜘蛛抓取某个栏目或文件

Disallow:/admin/

这里定义是禁止抓取admin目录

Disallow:/cgi-bin/*.htm

禁止抓取/cgi-bin/目录下的所有以“.htm”为后缀的URL

Disallow:/*?*

禁止抓取网站中所有包含问号“?”的网址


robots.txt的用法

sitemap:http://www.google.com/sitemap.xml

sitemap:URL全称(包含http://部分)

是告诉搜索引擎蜘蛛这个页面是网站地图。


补充:

robots.txt不能删除搜索引擎中已收录的页面,但robots meta标签可以解决这个问题。


robots.txt文件主要是限制整个站点或者目录的蜘蛛访问情况,而robots meta标签主要是针对某个具体的页面。

如:<meta name=“robots”content=“index,follow”>


robots meta标签语法

name=“robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=“Baiduspider”


content部分有四个指令,以英文逗号隔开

index指令告诉蜘蛛可以抓取该页面

follow指令表示蜘蛛可以爬行该页面上的链接

共有四种组合:

<meta name=“robots”content=“index,follow”>

<meta name=“robots”content=“noindex,follow”>

<meta name=“robots”content=“index,nofollow”>

<meta name=“robots”content=“noindex,nofollow”>


特殊写法:

<meta name=“robots”content=“index,follow”>可以写成<meta name=“robots”content=“all”>

<meta name=“robots”content=“noindex,nofollow”>可以写成<meta name=“robots”content=“none”>


返回列表
 品牌网站建设,为您量身定制      深圳 · 龙岗 深航网站建设
地址:深圳龙岗区坂田发达路佳兆业商品雅园2期D栋2306
联系:18926028981 传真:18926028981
邮编:518000
深圳市深航世纪科技有限公司
关于我们 | 联系我们
Copyright © 2013-2017 Hangdos. 深航科技 版权所有