WordPress网站robots的写法教程
在互联网上,搜索引擎的爬虫程序不停地在不同的网站之间穿梭,以寻找新的内容并把它们添加到搜索引擎的索引中。
WordPress网站robots的写法教程
然而,对于网站的所有者来说,可能并不希望所有的页面都被搜索引擎收录。例如,一些后台管理页面、重复内容页面或者包含敏感信息的页面等等。这些页面如果被搜索引擎收录,可能会造成一些不必要的麻烦。
为了解决这个问题,就诞生了一个名为robots.txt的文件。这个文件可以帮助网站的所有者指定哪些页面可以被搜索引擎爬取,哪些页面不可以。通过这种方式,网站的所有者就可以更好地控制搜索爬虫的抓取行为。
WordPress 作为一款最流行的CMS系统,有很多程序目录页面,和其他与内容不相关的URL。我们可以通过设置 Robots 文件,来控制搜索引擎爬虫的是否抓取这些页面。
robots.txt文件是什么?
robots.txt文件是一个简单的文本文件,它放在网站的根目录下,可以通过 http://www.example.com/robots.txt 进行访问。它的作用是告诉搜索引擎的爬虫程序,网站中的哪些内容可以被爬取,哪些内容不可以被爬取。这样,就可以避免一些不必要的内容被搜索引擎收录,比如后台管理页面、重复内容页面、隐私信息页面等。同时,你也可以节省一些服务器资源和带宽,提高网站的速度和安全性。
robots.txt文件怎么写?
robots.txt文件的写法很简单,它由一些指令组成,每一行代表一个指令,空白行和#号后面的内容会被忽略。指令区分大小写,所以要注意不要写错。一般来说,有两种常用的指令,分别为User-agent和Disallow。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Allow: /wp-content/uploads/
User-agent指令用来指定针对哪些搜索引擎的爬虫程序。如果你想对所有的爬虫程序都适用同样的规则,可以用*号代表所有。如果你想对某个特定的爬虫程序设置不同的规则,可以用对应的名称来表示,比如Googlebot(谷歌)、Baiduspider(百度)、Bingbot(必应)等。如果有多个User-agent指令,那么每个User-agent指令之后的Disallow指令,只适用于该User-agent指令所指定的爬虫程序。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Allow: /wp-content/uploads/ User-agent: Googlebot Disallow: /example-page/ Allow: /example-page/subpage User-agent: Bingbot Disallow: /another-example-page/
Disallow指令用来指定哪些网站路径或者文件不允许被爬取。如果你想禁止爬取整个网站,可以用/表示根目录。如果你想禁止爬取某个目录或者文件,可以用/开头表示相对于根目录的路径,比如/wp-admin/表示WordPress后台管理目录。如果你想禁止爬取某种类型的文件,可以用号表示通配符,比如/.jpg表示所有jpg格式的图片文件。如果你想禁止爬取某个参数或者值,可以用?号表示参数开始,比如/?s=*表示所有包含s参数的页面。
除了User-agent和Disallow指令之外,还有一些其他的指令,比如Allow、Sitemap、Crawl-delay等。但是,并不是所有的搜索引擎都支持这些指令,所以使用时要注意兼容性问题。
下面是一个简单的robots.txt文件示例:
# 这是一个注释 User-agent: * # 对所有爬虫程序适用 Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录 Disallow: /wp-content/ # 禁止爬取WordPress内容目录 Disallow: /wp-includes/ # 禁止爬取WordPress包含目录 Disallow: /*.jpg$ # 禁止爬取所有jpg格式的图片文件 Sitemap: http://www.example.com/sitemap.xml # 告诉搜索引擎网站地图地址 User-agent: Baiduspider # 对百度爬虫程序适用 Disallow: /a/date/ # 禁止爬取日期归档页面 Disallow: /a/author/ # 禁止爬取作者归档页面 Disallow: /a/category/ # 禁止爬取分类归档页面
WordPress的robots.txt优化设置
针对WordPress网站的robots.txt文件,可以根据网站的内容和需求进行自定义设置,但是有一些通用的优化建议,可以帮助你优化网站在搜索引擎中的表现。下面列举了一些常见的WordPress的robots.txt优化设置:
禁止爬取WordPress程序文件和重复内容页面。这些文件和页面对于搜索引擎来说没有价值,反而会占用服务器资源和带宽,影响网站速度和安全性。比如:
Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/trackback Disallow: /*/feed Disallow: /*/?s=* Disallow: /?p=* Disallow: /*/comment-page-* Disallow: /*?replytocom*
允许爬取WordPress主题文件和插件文件。这些文件和页面对于搜索引擎来说有价值,可以提高网站的美观性和功能性。比如:
Allow: /wp-content/themes/ Allow: /wp-content/plugins/
告诉搜索引擎网站地图地址。网站地图是一个包含了网站所有页面链接的文件,它可以帮助搜索引擎更快地抓取你的网站内容。可以使用一些插件来生成网站地图,比如Google XML Sitemaps、Yoast SEO等。然后在robots.txt文件中添加如下指令:
Sitemap: http://www.example.com/sitemap.xml
注意,Sitemap指令的S要大写,而且要使用绝对地址。
根据不同的搜索引擎设置不同的规则。不同的搜索引擎对于robots.txt文件中的指令,有不同的理解和处理方式,所以可以根据不同的搜索引擎设置不同的规则,以达到最佳的效果。比如,百度对于Allow指令的支持不太好,所以可以单独为百度设置一些禁止爬取的规则,以避免一些问题。比如:
User-agent: Baiduspider Disallow: /a/date/ Disallow: /a/author/ Disallow: /a/category/
WordPress网站Robots指令示例: User-agent: * # 对所有爬虫程序适用 Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录 Disallow: /wp-login.php # 禁止爬取WordPress登录页面 Disallow: /readme.html # 禁止爬取WordPress说明文件 Disallow: /licence.txt # 禁止爬取WordPress许可文件 Disallow: /wp-config-sample.php # 禁止爬取WordPress配置样例文件 Disallow: /*/?s=* # 禁止爬取搜索结果页面 Disallow: /?p=* # 禁止爬取短链接页面 Disallow: /*/comment-page-* # 禁止爬取评论分页页面 Disallow: /*?replytocom* # 禁止爬取回复评论链接 Allow: /wp-admin/admin-ajax.php # 允许爬取WordPress后台异步请求文件 Sitemap: http://yourdomain.com/post-sitemap.xml # 告诉搜索引擎网站地图地址
User-agent: Baiduspider # 对百度爬虫程序适用 host: yourdomain.com # 告诉百度首选域名 crawl-delay: 8 # 告诉百度每次爬取之间的延迟秒数
总结
以上就是关于WordPress网站中robots写法的一些建议,希望对大家有所帮助。