WordPress网站robots的写法教程-站长日志-网筑札记

在互联网上，搜索引擎的爬虫程序不停地在不同的网站之间穿梭，以寻找新的内容并把它们添加到搜索引擎的索引中。

WordPress网站robots的写法教程

然而，对于网站的所有者来说，可能并不希望所有的页面都被搜索引擎收录。例如，一些后台管理页面、重复内容页面或者包含敏感信息的页面等等。这些页面如果被搜索引擎收录，可能会造成一些不必要的麻烦。

为了解决这个问题，就诞生了一个名为robots.txt的文件。这个文件可以帮助网站的所有者指定哪些页面可以被搜索引擎爬取，哪些页面不可以。通过这种方式，网站的所有者就可以更好地控制搜索爬虫的抓取行为。

WordPress 作为一款最流行的CMS系统，有很多程序目录页面，和其他与内容不相关的URL。我们可以通过设置 Robots 文件，来控制搜索引擎爬虫的是否抓取这些页面。

robots.txt文件是什么？

robots.txt文件是一个简单的文本文件，它放在网站的根目录下，可以通过 http://www.example.com/robots.txt 进行访问。它的作用是告诉搜索引擎的爬虫程序，网站中的哪些内容可以被爬取，哪些内容不可以被爬取。这样，就可以避免一些不必要的内容被搜索引擎收录，比如后台管理页面、重复内容页面、隐私信息页面等。同时，你也可以节省一些服务器资源和带宽，提高网站的速度和安全性。

robots.txt文件怎么写？

robots.txt文件的写法很简单，它由一些指令组成，每一行代表一个指令，空白行和#号后面的内容会被忽略。指令区分大小写，所以要注意不要写错。一般来说，有两种常用的指令，分别为User-agent和Disallow。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/

User-agent指令用来指定针对哪些搜索引擎的爬虫程序。如果你想对所有的爬虫程序都适用同样的规则，可以用*号代表所有。如果你想对某个特定的爬虫程序设置不同的规则，可以用对应的名称来表示，比如Googlebot（谷歌）、Baiduspider（百度）、Bingbot（必应）等。如果有多个User-agent指令，那么每个User-agent指令之后的Disallow指令，只适用于该User-agent指令所指定的爬虫程序。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/
User-agent: Googlebot
Disallow: /example-page/
Allow: /example-page/subpage
User-agent: Bingbot
Disallow: /another-example-page/

Disallow指令用来指定哪些网站路径或者文件不允许被爬取。如果你想禁止爬取整个网站，可以用/表示根目录。如果你想禁止爬取某个目录或者文件，可以用/开头表示相对于根目录的路径，比如/wp-admin/表示WordPress后台管理目录。如果你想禁止爬取某种类型的文件，可以用号表示通配符，比如/.jpg表示所有jpg格式的图片文件。如果你想禁止爬取某个参数或者值，可以用?号表示参数开始，比如/?s=*表示所有包含s参数的页面。

除了User-agent和Disallow指令之外，还有一些其他的指令，比如Allow、Sitemap、Crawl-delay等。但是，并不是所有的搜索引擎都支持这些指令，所以使用时要注意兼容性问题。

下面是一个简单的robots.txt文件示例：

# 这是一个注释
User-agent: * # 对所有爬虫程序适用
Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录
Disallow: /wp-content/ # 禁止爬取WordPress内容目录
Disallow: /wp-includes/ # 禁止爬取WordPress包含目录
Disallow: /*.jpg$ # 禁止爬取所有jpg格式的图片文件
Sitemap: http://www.example.com/sitemap.xml # 告诉搜索引擎网站地图地址
User-agent: Baiduspider # 对百度爬虫程序适用
Disallow: /a/date/ # 禁止爬取日期归档页面
Disallow: /a/author/ # 禁止爬取作者归档页面
Disallow: /a/category/ # 禁止爬取分类归档页面

WordPress的robots.txt优化设置

针对WordPress网站的robots.txt文件，可以根据网站的内容和需求进行自定义设置，但是有一些通用的优化建议，可以帮助你优化网站在搜索引擎中的表现。下面列举了一些常见的WordPress的robots.txt优化设置：

禁止爬取WordPress程序文件和重复内容页面。这些文件和页面对于搜索引擎来说没有价值，反而会占用服务器资源和带宽，影响网站速度和安全性。比如：

Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /*/feed
Disallow: /*/?s=*
Disallow: /?p=*
Disallow: /*/comment-page-*
Disallow: /*?replytocom*

允许爬取WordPress主题文件和插件文件。这些文件和页面对于搜索引擎来说有价值，可以提高网站的美观性和功能性。比如：

Allow: /wp-content/themes/
Allow: /wp-content/plugins/

告诉搜索引擎网站地图地址。网站地图是一个包含了网站所有页面链接的文件，它可以帮助搜索引擎更快地抓取你的网站内容。可以使用一些插件来生成网站地图，比如Google XML Sitemaps、Yoast SEO等。然后在robots.txt文件中添加如下指令：

Sitemap: http://www.example.com/sitemap.xml

注意，Sitemap指令的S要大写，而且要使用绝对地址。

根据不同的搜索引擎设置不同的规则。不同的搜索引擎对于robots.txt文件中的指令，有不同的理解和处理方式，所以可以根据不同的搜索引擎设置不同的规则，以达到最佳的效果。比如，百度对于Allow指令的支持不太好，所以可以单独为百度设置一些禁止爬取的规则，以避免一些问题。比如：

User-agent: Baiduspider
Disallow: /a/date/
Disallow: /a/author/
Disallow: /a/category/

WordPress网站Robots指令示例：
User-agent: * # 对所有爬虫程序适用
Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录
Disallow: /wp-login.php # 禁止爬取WordPress登录页面
Disallow: /readme.html # 禁止爬取WordPress说明文件
Disallow: /licence.txt # 禁止爬取WordPress许可文件
Disallow: /wp-config-sample.php # 禁止爬取WordPress配置样例文件
Disallow: /*/?s=* # 禁止爬取搜索结果页面
Disallow: /?p=* # 禁止爬取短链接页面
Disallow: /*/comment-page-* # 禁止爬取评论分页页面
Disallow: /*?replytocom* # 禁止爬取回复评论链接
Allow: /wp-admin/admin-ajax.php # 允许爬取WordPress后台异步请求文件
Sitemap: http://yourdomain.com/post-sitemap.xml # 告诉搜索引擎网站地图地址

User-agent: Baiduspider # 对百度爬虫程序适用
host: yourdomain.com # 告诉百度首选域名
crawl-delay: 8 # 告诉百度每次爬取之间的延迟秒数

总结

以上就是关于WordPress网站中robots写法的一些建议，希望对大家有所帮助。

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。