现在的位置: 首页 > WP 专题 > 正文

robots.txt的格式、写法及其对于WordPress的seo作用

2014年08月02日 WP 专题 ⁄ 共 2633字 ⁄ 字号 暂无评论 ⁄ 阅读 621 次

在切入正题之前,我们有必要先了解一下什么是robots.txt。简单说来,robots.txt是用来设置搜索引擎对网站的抓取范围的一个纯文本文件,可以告诉搜索引擎哪些网页可以收录,哪些不允许收录。当搜索引擎蜘蛛(spider)来访问一个站点时,首先会查看站点根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引,反之则搜索蜘蛛将能够访问并有可能收录网站上所有没有被口令保护的页面。robots.txt原则上需要站长手动建立,但对于wordpress而言,只要你在建立站点时选择了允许搜索引擎抓取,就会自动生成一个基于最简单开放写法的虚拟的robots.txt页面,你可以通过yourdomain.com/robots.txt的形式来访问它。

WordPress的robots.txt的格式及写法

本站robots.txt写法示意图

一、robots.txt的作用:

1、robots.txt可以禁止搜索引擎访问无须被收录的网站页面,如cgi-bin、管理后台、程序脚本、附件、数据库文件、模板文件等等。从而大大减少因spider抓取页面所占用的网站带宽,这一点对于大型网站尤其明显。

2、robots.txt可以避免动态网页被蜘蛛索引。很多WordPress博客都已通过url重写将动态网址静态化为永久固定链接,通过robots.txt就可以阻止搜索引擎索引那些动态网址,从而大大减少了网站重复页面,这对于seo优化将起到很明显的作用。

3、robots.txt可以填写网站的sitemap文件链接(如Sitemap: http://yourdomin.com/sitemap.xml)。这样站长就不必到每个搜索引擎那里提交自己的sitemap文件了,搜索引擎的蜘蛛会自己读取其中的sitemap路径,然后抓取其中相链接的网页。

二、robots.txt的格式:

1、robots.txt必须放置在网站根目录下,而且文件名必须全部小写。

2、robots.txt记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行。其中User-Agent用于描述搜索引擎spider的名字,其值设为*,则对任何robot均有效。Disallow用于描述不希望被访问的一组URL,在robots.txt文件中,至少要有一条Disallow记录。如果都允许收录,则写“Disallow: ”,如果都不允许收录,则写“Disallow: / ”。Allow则用于描述希望被访问的一组URL,写法同Disallow。

3、User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。

4、需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

5、关于使用”*”和”$”:Baiduspider支持使用通配符”*”和”$”来模糊匹配url。”$” 匹配行结束符。”*” 匹配0或多个任意字符。

三、robots.txt的写法:

1、最简单的开放写法。

这种写法允许所有搜索引擎蜘蛛访问,允许访问站点所有内容。对于多数Wordpress博客而言,只要站内链接结构比较合理,没有需要限制的特殊内容,推荐使用这种写法。代码如下:

User-agent: *

Disallow:

2、比较严格的写法:

这种写法允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。要注意的是,Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。代码如下:

User-agent: *

Disallow: /wp-*

#Allow: /wp-content/uploads/

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.js$

Disallow: /*.css$

Disallow: /?s=

3、较为常见的写法:

这种写法允许所有搜索引擎抓取,需逐一列举要限制的目录(如wordpress插件目录、wordpress主题目录),限制抓取搜索结果,并包含sitemap.xml地址。代码如下:

User-agent: *

Disallow: /wp-admin

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-includes

Disallow: /?s=

Sitemap: http://uuxn.com/sitemap.xml

4、其他写法参考:

为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的固定链接):

Disallow: /page/ 说明:限制抓取Wordpress分页

Disallow: /category/*/page/* 说明:限制抓取分类的分页

Disallow: /tag/ 说明:限制抓取标签页面

Disallow: */trackback/ 说明:限制抓取Trackback内容

Disallow: /category/* 说明:限制抓取所有分类列表

5、使用谷歌管理员工具检查文件有效性。登录后访问“工具 -> 分析 robots.txt”。

关于robots.txt,最后说的是,robots.txt协议并非一个规范协议,而是很多搜索引擎约定俗成的。所以每个搜索引擎遵守robots.txt的方式也不一样,而且有些搜索引擎是不怎么遵循robots.txt的,例如百度。robots.txt也没有固定格式,大家根据自己的需要设定就是了。如果还是不会写,你也可以通过yourdomain.com/robots.txt的形式访问一些知名博客的robots.txt,参考他们的写法。还有一点就是,有人说robots.txt可以防止自己的隐私被搜索引擎抓取。但如果在robots.txt设置了隐私目录,固然可以屏蔽搜索引擎的抓取,但相应的任何人都可以通过访问你的robots.txt而查看到隐私目录的所在。这一点孰是孰非,骤雨打新荷也不明白。

给我留言

留言无头像?


×