一、robots简介
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠/这两种表示是不同的URL,也不能用"Disallow: *.gif"这样的通配符。
其他的影响搜索引擎的行为的方法包括使用robots元数据:
<meta name="robots" content="noindex,nofollow" />
二、robots使用误区
1.我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
2.在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
3.搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。如果这样的话,会导致整个网站不能被搜索引擎收录。
三、robots使用技巧
1. 一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
2.如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
3.robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
Sitemap: https://www.xqxnx.com/sitemap.xml
4.合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
四、robots.txt文件的格式
该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。
Disallow:禁止蜘蛛抓取某个栏目或文件。
任何以Disallow开头的URL均不会被robot访问到。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:允许蜘蛛抓取某个栏目或文件。以Allow项的值开头的URL是允许robot访问的。
五、robots.txt语法
1.允许所有SE收录本站:robots.txt为空就可以,什么都不要写。
2.禁止所有SE收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
3. 禁止某个SE收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE收录本站:
User-agent: *
Disallow: /
5. 加入sitemap.xml路径,例如:
六、robot.txt在网站SEO优化中的作用
1.防止私密或重要内容被搜索引擎抓取。
2.节省服务器资源,从而提升服务质量。
3.减少重复抓取,提高网站质量。
4.指定sitemap(站点地图文件,放置在robots.txt文件里面)文件位置。(告诉蜘蛛全站的重要链接,方便搜索引擎的爬行,从而实现站内链接的收录更友好。)
七、如何设置robots.txt文件
1.分析自己的网站根目录。
2.找到需要设置的文件。
3.将需要设置的文件在站长工具里生成,复制粘贴在记事本。(http://tool.chinaz.com/robots/)
4.利用FTP工具上传到网站根目录。
robots.txt针对网站里面的某个文件生效。
meta robots针对网站的某个页面生效。
robots meta标签中,跟任何一种meat标签是一样的,Robots Meta放置在html网页代码的head之内。name="robots"表示所有的搜索引擎,可以针对某个具体搜索引擎写为name="baiduspider"。
content部分有四个指令;index (机器人抓取页面)、follow(蜘蛛沿着页面爬行)、noindex、nofollow。
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="none">