当前位置:首页 > 建站 > 正文内容

WordPress网站robots的写法教程

innov2年前 (2023-10-14)建站1460

在互联网上,搜索引擎的爬虫程序不停地在不同的网站之间穿梭,以寻找新的内容并把它们添加到搜索引擎的索引中。

WordPress网站robots的写法教程

然而,对于网站的所有者来说,可能并不希望所有的页面都被搜索引擎收录。例如,一些后台管理页面、重复内容页面或者包含敏感信息的页面等等。这些页面如果被搜索引擎收录,可能会造成一些不必要的麻烦。

为了解决这个问题,就诞生了一个名为robots.txt的文件。这个文件可以帮助网站的所有者指定哪些页面可以被搜索引擎爬取,哪些页面不可以。通过这种方式,网站的所有者就可以更好地控制搜索爬虫的抓取行为。

WordPress 作为一款最流行的CMS系统,有很多程序目录页面,和其他与内容不相关的URL。我们可以通过设置 Robots 文件,来控制搜索引擎爬虫的是否抓取这些页面。

robots.txt文件是什么?

robots.txt文件是一个简单的文本文件,它放在网站的根目录下,可以通过 http://www.example.com/robots.txt 进行访问。它的作用是告诉搜索引擎的爬虫程序,网站中的哪些内容可以被爬取,哪些内容不可以被爬取。这样,就可以避免一些不必要的内容被搜索引擎收录,比如后台管理页面、重复内容页面、隐私信息页面等。同时,你也可以节省一些服务器资源和带宽,提高网站的速度和安全性。

robots.txt文件怎么写?

robots.txt文件的写法很简单,它由一些指令组成,每一行代表一个指令,空白行和#号后面的内容会被忽略。指令区分大小写,所以要注意不要写错。一般来说,有两种常用的指令,分别为User-agent和Disallow。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/

User-agent指令用来指定针对哪些搜索引擎的爬虫程序。如果你想对所有的爬虫程序都适用同样的规则,可以用*号代表所有。如果你想对某个特定的爬虫程序设置不同的规则,可以用对应的名称来表示,比如Googlebot(谷歌)、Baiduspider(百度)、Bingbot(必应)等。如果有多个User-agent指令,那么每个User-agent指令之后的Disallow指令,只适用于该User-agent指令所指定的爬虫程序。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/
User-agent: Googlebot
Disallow: /example-page/
Allow: /example-page/subpage
User-agent: Bingbot
Disallow: /another-example-page/

Disallow指令用来指定哪些网站路径或者文件不允许被爬取。如果你想禁止爬取整个网站,可以用/表示根目录。如果你想禁止爬取某个目录或者文件,可以用/开头表示相对于根目录的路径,比如/wp-admin/表示WordPress后台管理目录。如果你想禁止爬取某种类型的文件,可以用号表示通配符,比如/.jpg表示所有jpg格式的图片文件。如果你想禁止爬取某个参数或者值,可以用?号表示参数开始,比如/?s=*表示所有包含s参数的页面。

除了User-agent和Disallow指令之外,还有一些其他的指令,比如Allow、Sitemap、Crawl-delay等。但是,并不是所有的搜索引擎都支持这些指令,所以使用时要注意兼容性问题。

下面是一个简单的robots.txt文件示例:

# 这是一个注释
User-agent: * # 对所有爬虫程序适用
Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录
Disallow: /wp-content/ # 禁止爬取WordPress内容目录
Disallow: /wp-includes/ # 禁止爬取WordPress包含目录
Disallow: /*.jpg$ # 禁止爬取所有jpg格式的图片文件
Sitemap: http://www.example.com/sitemap.xml # 告诉搜索引擎网站地图地址
User-agent: Baiduspider # 对百度爬虫程序适用
Disallow: /a/date/ # 禁止爬取日期归档页面
Disallow: /a/author/ # 禁止爬取作者归档页面
Disallow: /a/category/ # 禁止爬取分类归档页面

WordPress的robots.txt优化设置

针对WordPress网站的robots.txt文件,可以根据网站的内容和需求进行自定义设置,但是有一些通用的优化建议,可以帮助你优化网站在搜索引擎中的表现。下面列举了一些常见的WordPress的robots.txt优化设置:

禁止爬取WordPress程序文件和重复内容页面。这些文件和页面对于搜索引擎来说没有价值,反而会占用服务器资源和带宽,影响网站速度和安全性。比如:

Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /*/feed
Disallow: /*/?s=*
Disallow: /?p=*
Disallow: /*/comment-page-*
Disallow: /*?replytocom*

允许爬取WordPress主题文件和插件文件。这些文件和页面对于搜索引擎来说有价值,可以提高网站的美观性和功能性。比如:

Allow: /wp-content/themes/
Allow: /wp-content/plugins/

告诉搜索引擎网站地图地址。网站地图是一个包含了网站所有页面链接的文件,它可以帮助搜索引擎更快地抓取你的网站内容。可以使用一些插件来生成网站地图,比如Google XML Sitemaps、Yoast SEO等。然后在robots.txt文件中添加如下指令:

Sitemap: http://www.example.com/sitemap.xml

注意,Sitemap指令的S要大写,而且要使用绝对地址。

根据不同的搜索引擎设置不同的规则。不同的搜索引擎对于robots.txt文件中的指令,有不同的理解和处理方式,所以可以根据不同的搜索引擎设置不同的规则,以达到最佳的效果。比如,百度对于Allow指令的支持不太好,所以可以单独为百度设置一些禁止爬取的规则,以避免一些问题。比如:

User-agent: Baiduspider
Disallow: /a/date/
Disallow: /a/author/
Disallow: /a/category/

WordPress网站Robots指令示例:
User-agent: * # 对所有爬虫程序适用
Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录
Disallow: /wp-login.php # 禁止爬取WordPress登录页面
Disallow: /readme.html # 禁止爬取WordPress说明文件
Disallow: /licence.txt # 禁止爬取WordPress许可文件
Disallow: /wp-config-sample.php # 禁止爬取WordPress配置样例文件
Disallow: /*/?s=* # 禁止爬取搜索结果页面
Disallow: /?p=* # 禁止爬取短链接页面
Disallow: /*/comment-page-* # 禁止爬取评论分页页面
Disallow: /*?replytocom* # 禁止爬取回复评论链接
Allow: /wp-admin/admin-ajax.php # 允许爬取WordPress后台异步请求文件
Sitemap: http://yourdomain.com/post-sitemap.xml # 告诉搜索引擎网站地图地址


User-agent: Baiduspider # 对百度爬虫程序适用
host: yourdomain.com # 告诉百度首选域名
crawl-delay: 8 # 告诉百度每次爬取之间的延迟秒数

总结

以上就是关于WordPress网站中robots写法的一些建议,希望对大家有所帮助。

扫描二维码推送至手机访问。

版权声明:本文由知新日笺发布,如需转载请注明出处。

本文链接:https://innovdn.cn/post/538.html

标签: WordPress
分享给朋友:

“WordPress网站robots的写法教程” 的相关文章

wordpress外贸建站常用插件

wordpress外贸建站常用插件

WordPress主题建外贸站是当前最高效最节省的建站途径,一般WordPress外贸建站客户都需要使用一些WordPress插件来扩展网站功能,比如展示商品、在线询盘、在线客服、社交分享、SEO插件、展示插件等;以下为大家推荐常用WordPress外贸建站插件。第1插件:All in One SE...

整理:WordPress中插入表格的方法

整理:WordPress中插入表格的方法

在写博客的时候,我们往往需要插入一些表格来证明自己的论点,比起文字,表格更加简洁、直观,数据表格很能说明文字,图形表格让效果更加直观,一个简单的表格效果往往比长篇大论更为有效。然而,遗憾的是,强大的WordPress 对表格的支持并不是很好,在后台编辑器中,很难方便的使用表格,本文将分享我所知道的4...

WordPress带来新功能:可直接复制Word文档内容无须担心格式

WordPress带来新功能:可直接复制Word文档内容无须担心格式

你是否喜欢使用微软的Word进行文档编辑?现在当你从这个风靡全球的文档处理器中复制内容到博文的编辑器中将不会涵盖任何的代码。这就意味着你不需要担心在粘贴过程中出现任何你不知道的代码来影响你的文档编辑,比如线条、字体和字体大小等等。此外可视化编辑器引入了“以纯文本进行输入”(Paste as Text...

投资域名的基本技巧

投资域名的基本技巧

现在股市猥琐,比特币深不可测,2015年底,一个新的投资领域,越来越引起人们的关注,那就是域名,最近关于谁谁谁靠卖了个域名,赚了几百万,几千万的新闻不绝于耳,一时间,无数散户大妈开始杀入域名投资领域,就如当初买黄金、买比特币似的,中国人对域名的疯狂,让世界为止震撼!据说6位数以下的数字COM域名都被...

初次试用云服务器安装宝塔面板

初次试用云服务器安装宝塔面板

宝塔linux面板命令大全宝塔Linux面板安装教程 - 10月17日更新 - 7.0.2正式版...

通过htaccess设置重定向实现强制 https 访问

通过htaccess设置重定向实现强制 https 访问

如果已经购买并配置好了 SSL 证书,想要将 http 直接重定向到 https 访问,可以用 Apache 的 .htaccess 文件来设置,具体代码如下:找不到.htaccess文件请参考:https://help.laoxuehost.com/control-panel/cpanel/cre...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。