Robots.txt

 什么是Robots.txt?

Robots.txt 是一个文件,指示搜索引擎抓取工具可以访问您网站上的哪些 URL。它主要用于管理爬网程序流量并避免请求使您的网站过载。

虽然 Google、Bing 和 Yahoo 等主要搜索引擎识别并尊重 robots.txt 指令,但值得注意的是,该文件并不是防止网页出现在搜索结果中的万无一失的方法。

为什么 Robots.txt 很重要?

大多数网站不需要robots.txt文件。

这是因为 Google 通常可以找到您网站上的所有重要页面并为其编制索引。

他们会自动不索引不重要的页面或其他页面的重复版本。

也就是说,您想要使用 robots.txt 文件有 3 个主要原因。

阻止非公共页面:有时,您的网站上有些页面不希望被编入索引。例如,您可能有页面的暂存版本、登录页面或内部搜索结果页面。这些页面需要存在,但您不希望随机的人登陆它们。在这种情况下,您可以使用 robots.txt 来阻止搜索引擎抓取工具和机器人访问这些页面。

最大化抓取预算:如果您在将所有页面编入索引时遇到困难,则可能存在抓取预算问题。通过使用 robots.txt 阻止不重要的网页,Googlebot 可以将更多的抓取预算花在真正重要的网页上。

防止搜索引擎对资源建立索引:使用元指令可以与 Robots.txt 一样有效地防止页面被索引。但是,元指令不适用于多媒体资源,例如 PDF 和图像。这就是 robots.txt 发挥作用的地方。

底线是什么? Robots.txt 告诉搜索引擎蜘蛛不要抓取您网站上的特定页面。

您可以在Google Search Console中检查您已将多少页面编入索引。

 
Robots.txt

如果该数字与您想要索引的页面数匹配,则无需费心使用 Robots.txt 文件。

但如果该数字高于您的预期(并且您注意到不应编入索引的索引网址),那么就需要为您的网站创建 robots.txt 文件了。

 最佳实践

 创建 Robots.txt 文件

第一步是实际创建 robots.txt 文件。

作为一个文本文件,您实际上可以使用 Windows 记事本创建一个文件。

无论您最终如何制作 robots.txt 文件,格式都是完全相同的:

User-agent: X
Disallow: Y

用户代理是与您交谈的特定机器人。

“禁止”之后的所有内容都是您要阻止的页面或部分。

 这是一个例子:

User-agent: googlebot
Disallow: /images

该规则将告诉 Googlebot 不要为您网站的图像文件夹建立索引。

您还可以使用星号 (*) 来称呼访问您网站的任何搜索引擎机器人。

 这是一个例子:

User-agent: *
Disallow: /images

“*”告诉所有蜘蛛不要抓取您的图像文件夹。

这只是使用 robots.txt 文件的多种方法之一。 Google 提供的这份有用指南提供了有关可用于阻止或允许机器人抓取网站不同页面的不同规则的更多信息。

 
Robots.txt

让您的 Robots.txt 文件易于查找

获得 robots.txt 文件后,就可以将其投入使用了。

您可以将 robots.txt 文件放置在站点的根目录中。

但为了增加 robots.txt 文件被发现的几率,我建议将其放置在:

https://example.com/robots.txt
Robots.txt

注意:您的 robots.txt 文件区分大小写。因此,请确保在文件名中使用小写“r”。

检查错误和错误

正确设置 robots.txt 文件非常重要。一个错误,您的整个网站就可能被取消索引。

幸运的是,您不需要希望代码设置正确。 Google 有一个强大的工具来测试机器人,您可以使用:

 
Robots.txt

它会向您显示您的 robots.txt 文件…以及它发现的任何错误和警告。

如您所见,我们阻止蜘蛛爬行我们的 WP 管理页面。

我们还使用 robots.txt 来阻止抓取 WordPress 自动生成的标签页面(以限制重复内容)。

Robots.txt 与元指令

当您可以使用“ noindex ”元标记在页面级别阻止页面时,为什么还要使用robots.txt?

正如我之前提到的,在视频和 PDF 等多媒体资源上实现 noindex 标签很棘手。

此外,如果您想要阻止数千个页面,有时使用 robots.txt 阻止该网站的整个部分会比手动向每个页面添加 noindex 标记更容易。

还有一些边缘情况,您不想在 Google 登陆带有 noindex 标记的页面上浪费任何抓取预算。

 那是说:

除了这三种边缘情况之外,我建议使用元指令而不是 robots.txt。它们更容易实施。而且发生灾难的可能性也较小(例如阻止整个网站)。

Backlinko海外大牛热门必读

页面速度

2024-11-30 6:21:09

Backlinko海外大牛热门必读

重复内容

2024-11-30 6:24:11

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧