主页▸ SEO ▸ Google 抓取预算：发布商指南

Google 抓取预算：发布商指南

Sue Plunkett

2022 年 4 月 21 日

事实核查者 Vahe Arabian 编辑者 Andrew Kemp

投资于出现在 Google 搜索结果顶部的出版商已经了解 SEO 的重要性。然而，对于大型出版商来说，SEO 的一个重要且可能被忽视的方面是 Google 抓取预算。

Google 的抓取预算有助于确定文章在搜索结果中出现的程度。

了解抓取预算是确保满足 SEO 目标并确保内容被查看的关键一步。检查站点的技术后端是否健康意味着前端更有可能反映该状态。

在本文中，我们将解释什么是爬行预算、影响预算的因素、爬行预算优化、如何检查和跟踪爬行预算以及为什么这些预算对于任何在线网站的健康如此重要。

什么是抓取预算？

抓取预算是指 Google 分配给新网页和现有网页的查找和索引编制的资源。

谷歌的抓取机器人 - Googlebot - 抓取网站以更新和扩展搜索巨头的网页数据库。它使用内部和外部链接、XML 站点地图、RSS 和 Atom 提要以及 robots.txt 文件来帮助尽快抓取网站并为其建立索引。

随着时间的推移，某些页面会获得更多的权威，而其他页面可能会由于内容相关和技术限制等多种原因而被完全忽略。

了解如何最大化抓取预算对于任何想要在搜索引擎结果页面 (SERP) 上取得成功的发布商或组织网站来说都是非常宝贵的。

Googlebot 的限制

Googlebot 并不是取之不尽用之不竭的资源，Google 无法承担在无数网络服务器中进行搜索的费用。因此，该公司提供了指导，以最大限度地提高自己的抓取预算。 ¹

了解机器人如何进行活动是基础。

如果爬行机器人到达某个站点并确定对该站点进行分析和分类将出现问题，那么它会减慢速度或完全根据其面临的问题的程度和类型转移到另一个站点。

当这种情况发生时，这是一个明确的信号，表明该网站缺乏抓取预算优化。

知道 Googlebot 是一种有限的资源应该足以让任何网站所有者担心抓取预算。然而，并非所有网站都同等程度地面临这个问题。

谁应该关心以及为什么？

尽管每个网站所有者都希望自己的网站取得成功，但只有经常更新内容的中型和大型网站才真正需要担心抓取预算。

Google 将中型网站定义为拥有超过 10,000 个每天更新的独特页面的网站。与此同时，大型网站拥有超过 100 万个独特页面，并且每周至少更新一次。

谷歌注意到爬行活动与大型网站之间的关系，并表示：“对于大型网站或那些基于以下内容自动生成页面的网站来说，优先考虑爬行内容、爬行时间以及托管网站的服务器可以分配给爬行的资源量更为重要。例如，URL 参数。” ²

页数有限的网站无需过度关注抓取预算。然而，考虑到一些发布商可能会迅速扩张，对抓取统计数据和操作有一个基本的了解将使所有网站所有者处于更好的位置，以便进一步获得更大的网站流量的回报。

什么会影响 Google 的抓取预算？

Google 抓取网站的程度由抓取容量限制和抓取需求决定。

为了防止爬网活动压垮主机服务器，容量限制是通过建立机器人可用于爬网网站的最大同时并行连接数以及数据返回之间的时间延迟来计算的。

抓取容量限制

该指标也称为抓取速率限制，它是可变的，与三个因素的变化有关：

抓取运行状况：如果网站响应没有错误或延迟，并且网站速度良好，则限制可能会上升，反之亦然。
GSC 抓取速度：Google Search Console (GSC) 可用于减少抓取活动，该功能在长期网站维护或更新期间非常有用。 ³任何更改在 90 天内保持。 ⁴

如果抓取速度限制被列为“以最佳方式计算”，则不能提高它，而降低它只能通过特殊请求进行。如果网站被过度爬网，导致网站可用性和/或页面加载问题，请使用 robots.txt 阻止爬网和索引。不过，此选项可能需要 24 小时才能生效。

虽然许多网站没有实施抓取限制制裁，但它仍然是一个有用的工具。

抓取需求

抓取需求体现了 Google 对为网站建立索引的兴趣程度。它也受到三个因素的影响：

感知库存：如果没有网站所有者的指导（我们稍后会介绍），Google 将尝试抓取每个 URL，包括重复项、无效链接和不太重要的页面。这就是缩小 Googlebot 搜索参数可以增加抓取预算的地方。
流行度：如果一个网站非常流行，那么它的 URL 就会被更频繁地抓取。
陈旧性：一般来说，Googlebot 系统的目标是重新抓取页面以获取任何更改。可以通过使用 GSC 和请求重新抓取来帮助完成此过程，但不能保证该请求会立即得到执行。

抓取活动本质上是良好网站管理的产物。

CMS 问题

State of Digital Publishing (SODP)的创始人Vahe Arabian表示，内容管理系统 (CMS) 元素（例如插件）可能会影响抓取预算。 ⁵

他说：“许多插件都是由数据库驱动的，会导致资源负载增加，从而减慢页面速度或创建不必要的页面并影响其爬行性。”

如果多个网站功能占用大量资源，网站的广告驱动收入模式可能会产生类似的问题。

如何检查和跟踪抓取预算

跟踪抓取预算有两种主要方法： Google Search Console (GSC) 和/或服务器日志。 ⁶

谷歌搜索控制台

在 Google Search Console (GSC) 上检查网站的抓取速度之前，必须验证域名所有权。

该控制台具有三个工具来检查网站页面并确认哪些 URL 有效，哪些尚未建立索引。

该控制台会检查域是否不准确，并将提供有关如何解决各种爬网错误的建议。

GSC 在其指数覆盖报告中将状态错误分为多个类别，包括：

服务器错误 [5xx]
重定向错误
提交的网址被 robots.txt 阻止
提交的网址标记为“noindex”
提交的 URL 似乎是软 404
提交的 URL 返回未经授权的请求 (401)
找不到提交的 URL (404)
提交的 URL 返回 403：
提交的 URL 由于其他 4xx 问题而被阻止

该报告指出有多少页面受到每个错误的影响以及验证状态。

URL 检查工具提供任何特定页面的索引信息，而抓取统计报告可用于了解 Google 抓取网站的频率、网站服务器的响应能力以及任何相关的可用性问题。

有一种固定的方法来识别和纠正每个错误，这些方法包括识别站点服务器在爬网时可能已关闭或不可用，到使用 301 重定向重定向到另一个页面，或从站点地图中删除页面。

如果页面内容发生了显着变化，则可以使用 URL 检查工具的“请求索引”按钮来启动页面抓取。

虽然可能没有必要“修复”每个单独的页面错误，但最大限度地减少爬行机器人速度缓慢的问题绝对是最佳实践。

使用服务器日志

作为 Google Search Console (GSC) 的替代方案，可以通过服务器日志检查网站的抓取运行状况，该日志不仅记录每次网站访问，还记录每次 Googlebot 访问。

对于那些还不知道的人来说，只要 Googlebot 或人类请求提供页面，服务器就会自动创建并存储日志条目。然后将这些日志条目收集到日志文件中。

一旦日志文件被访问，就需要对其进行分析。然而，考虑到日志条目的庞大范围，这项工作不应轻易进行。根据站点的大小，日志文件可以轻松包含数亿甚至数十亿的条目。

如果决定分析日志文件，则需要将数据导出到电子表格或专有软件中，以更轻松地促进分析过程。

对这些记录的分析将显示机器人遇到的错误类型、访问次数最多的页面以及网站的爬网频率。

优化抓取预算的 9 种方法

如上所述，优化涉及检查和跟踪站点运行状况统计数据，然后直接解决问题区域。

下面我们列出了抓取预算优化工具包，我们用它来解决出现的可抓取性问题。

1.合并重复内容

当单个页面可从多个不同的 URL 访问或包含在网站其他位置复制的内容时，可能会出现抓取问题。机器人会将这些示例视为重复项，并简单地选择一个作为规范版本。

其余的 URL 将被视为不太重要，并且将不那么频繁地进行爬网，甚至根本不进行爬网。 ¹⁰如果 Google 选择了所需的规范页面，这很好，但如果没有，则会出现严重问题。

也就是说，拥有重复页面可能有正当理由，例如希望支持多种设备类型、启用内容联合或使用动态 URL 作为搜索参数或会话 ID。

SODP 的建议：

尽可能修剪网站内容
- 使用 301 来整合 URL 并合并内容
- 删除效果不佳的内容
网站重组后使用 301 会将用户、机器人和其他爬虫发送到他们需要去的地方。
使用 noindex 来处理薄页、分页（对于较旧的档案）和蚕食内容。
如果重复内容导致过度抓取，请调整 Google Search Console (GSC) 中的抓取速度设置。

2.使用Robots.txt文件

该文件有助于防止机器人搜索整个网站。使用该文件可以排除单个页面或页面部分。

此选项使发布商可以控制索引的内容，保持某些内容的私密性，同时还可以改善抓取预算的支出方式。

SODP 的建议：

对参数的优先级进行排序，以便优先考虑需要阻止爬取的参数。
使用日志文件指定导致额外爬网的机器人、指令和参数。
阻止 CMS 通常具有的常见路径，例如 404、管理、登录页面等。
避免使用爬网延迟指令来减少机器人流量以提高服务器性能。这只会影响新内容的索引。

3. 分段 XML 站点地图以确保更快地获取内容

爬行机器人到达站点时，会对其爬行的页面数量进行一般分配。 XML 站点地图有效地引导机器人读取选定的 URL，确保有效利用该预算。

请注意，页面的排名性能取决于多个因素，包括内容质量和内部/外部链接。考虑在地图中仅包含顶级页面。图像可以分配自己的 XML 站点地图。

SODP 的建议：

引用 robots.txt 文件中的 XML 站点地图。
为非常大的网站创建多个站点地图。请勿向单个 XML 站点地图添加超过 50,000 个 URL。
保持干净并且仅包含可索引页面。
保持 XML 站点地图最新。
将文件大小保持在 50MB 以下。

4.检查内部链接策略

Google 跟踪网站内的链接网络，任何具有多个链接的页面都被视为高价值且值得花费抓取预算。

然而，值得注意的是，虽然有限数量的内部链接可能会影响爬网预算，但在整个网站上撒满链接也可能会影响爬网预算。

没有内部链接的页面不会从网站的其余部分获得链接资产，这鼓励谷歌将它们视为价值较低的页面。

与此同时，包含大量内部链接的高价值页面最终会在其他页面之间平等地分享其链接资产，无论其战略价值如何。因此，避免链接到对读者没有什么价值的页面。

内部链接策略需要巧妙的处理，以确保高价值页面获得足够的链接，而低价值页面不会蚕食链接资产。

5. 如果并发流量是瓶颈，请升级托管

如果网站在共享托管平台上运行，抓取预算将与在该平台上运行的其他网站共享。大公司可能会发现独立托管是一个有价值的选择。

升级托管时甚至在升级之前解决可能影响服务器负载的机器人流量过载问题时的其他注意事项：

使用单独的 CDN 处理图像，该 CDN 也经过优化以托管下一代图像格式，例如 webp
根据您的网站功能和要求考虑托管CPU、磁盘空间
使用 New Relic 等解决方案监控活动，以监控插件和机器人的过度使用

6. 平衡 JavaScript 的使用

当 Googlebot 登陆某个网页时，它会呈现该页面上的所有资源，包括 Javascript。虽然抓取 HTML 相当简单，但 Googlebot 必须多次处理 Javascript，以便能够呈现它并理解其内容。

这会很快耗尽 Google 对网站的抓取预算。解决方案是在服务器端实现Javascript渲染。

通过避免将 Javascript 资源发送到客户端进行渲染，爬行机器人不会消耗资源，并且可以更高效地工作。 ¹¹

SODP 的建议：

使用浏览器级延迟加载而不是基于 JS
判断是否有元素
使用服务器端标记进行分析和第三方标记，无论是自托管还是使用https://stape.io/。 ¹²

7. 更新 Core Web Vitals (CWV) 以改善页面体验

谷歌搜索控制台（GSC）的核心网络生命（CWV）使用搜索巨头所谓的“真实世界使用数据”来显示页面性能。 ¹³

CWV 报告将 URL 性能分为三类：

公制类型（LCP、FID 和 CLS）
地位
URL组

公制

CWV 报告基于最大内容绘制(LCP)、 ¹⁴ 第一输入延迟(FID) ¹⁵和累积布局偏移(CLS) ¹⁶指标。

LCP 与渲染网页可见区域上可见的最大内容元素所需的时间量相关。

FID 涉及页面响应用户交互所需的时间。

CLS 是对用户会话期间页面布局变化程度的衡量，分数越高代表用户体验越差。

地位

页面评估后，每个指标都会被分配三个状态排名之一：

好的
需要改进
贫穷的

URL组

该报告还可以将问题分配给一组相似的 URL，假设影响相似页面的性能问题可以归因于共享问题。

CWV 和爬行性

如前所述，Googlebot 在页面上花费的时间越长，其抓取预算的浪费就越大。因此，发布商可以使用 CWV 报告来优化页面效率并减少抓取时间。

SODP 的建议，重点是 WordPress：

速度改进指针	实施通过	验证于
将图像转换为 WebP 格式	如果启用了 CDN，则通过 CDN 端进行转换或安装 EWWW 插件	https://www.cdnplanet.com/tools/cdnfinder/
实施 SRCSET 并检查https://pagespeed.web.dev/是否解决了正确大小的图像问题	通过手动添加代码实现	检查浏览器代码是否所有图像都有 SRCSET 代码
启用浏览器缓存	WP火箭	https://www.giftofspeed.com/cache-checker/
延迟加载图像	WP火箭	检查浏览器控制台是否将延迟加载代码添加到图像中。除了特色图像之外。
延迟外部脚本：仅延迟外部脚本<body>可以推迟	WP 火箭或更快的网站！（又名 defer.js）插件	添加延迟标签后，检查 https://pagespeed.web.dev/“减少未使用的 JavaScript”问题是否已解决
识别并删除未使用的 JS 和 CSS 文件	手动
启用 Gzip 压缩	服务器端，联系托管提供商	https://www.giftofspeed.com/gzip-test/
缩小 JS 和 CSS	WP火箭	https://pagespeed.web.dev/
本地加载字体或预加载网页字体	OMG字体插件或将字体文件上传到服务器上并通过标题中的代码添加
启用CDN	Cloudflare（任何其他 CDN 服务）并为站点进行配置

8.使用第三方爬虫

Semrush、Sitechecker.pro 或 Screaming Frog 等第三方爬虫允许 Web 开发人员审核网站上的所有 URL 并识别潜在问题。

爬虫可用于识别：

来自我们合作伙伴的内容

受众管理的Goldilocks问题：出版商如何在无法正常工作或太复杂而无法使用的技术之间吸引了

关于Rollerads出版商如何赚取60,000美元的故事

以出版商为中心的客户数据平台如何推动更好的受众参与度

损坏的链接
重复内容
缺少页面标题

这些程序提供抓取统计报告，以帮助突出显示 Google 自己的工具可能无法显示的问题。

改进结构化数据并减少卫生问题将简化 Googlebot 对网站的抓取和索引工作。

SODP 的建议：

使用 SQL 查询对错误进行批量更新，而不是手动修复每个问题。
通过搜索抓取设置模拟 Googlebot，以防止被托管提供商阻止并正确识别和修复所有技术问题。
Screaming Frog的这篇出色指南来调试爬网中丢失的页面。 ^{17 号}

9. URL参数

URL 参数 — 网址中“?”后面的部分— 出于多种原因在页面上使用，包括过滤、分页和搜索。

虽然这可以提升用户体验，但当基本 URL 和带有参数的 URL 返回相同的内容时，也可能会导致抓取问题。例如，“http://mysite.com”和“http://mysite.com?id=3”返回完全相同的页面。

参数允许网站拥有几乎无限数量的链接，例如用户可以在日历上选择日期、月份和年份。如果允许机器人抓取这些页面，则抓取预算将被不必要地用完。

SODP 的建议：

使用 robots.txt 规则。例如，在allow指令中指定参数顺序。
使用 hreflang 指定内容的语言变体。

Googlebot 神话与事实汇总

关于 Googlebot 的能力和范围存在一些误解。

以下是我们探索过的五个：

1. Googlebot 间歇性地抓取网站

Googlebot 实际上相当频繁地抓取网站，在某些情况下，甚至每天抓取一次。然而，频率取决于网站的感知质量、新颖性、相关性和受欢迎程度。

如上所述，Google Search Console (GSC) 可用于请求抓取。

2. Googlebot 做出有关网站排名的决策

谷歌 WebMaster 趋势分析师 Martin Splitt 表示虽然这在过去是正确的，但谷歌现在认为这是抓取、索引和排名过程的一个单独部分。 ¹⁸

然而，同样重要的是要记住，网站的内容、站点地图、页面数量、链接、URL 等都是决定其排名的因素。

从本质上讲，出版商精明的 SEO 选择可以在 SERP 中获得稳固的定位。

3. Googlebot 入侵网站的私人部分

该机器人没有“私人内容”的概念，只是负责索引网站，除非网站所有者另有指示。

只要 GSC 内采取必要的步骤来限制访问，某些网页就可以保持未索引状态。

4. Googlebot 活动可能会给网站的可用性带来压力

Googlebot 流程有其局限性，一方面是因为 Google 的资源限制，另一方面是因为 Google 不想破坏网站。

斯普利特说：“我们爬行了一点，然后基本上就加快了速度。当我们开始发现错误时，我们会稍微降低它。”¹⁵

GSC 可以延迟抓取，并且考虑到某些网站可能有几十万个页面，Googlebot 会在多次访问中分解其抓取。

5. Googlebot 是唯一值得担心的机器人

虽然 Googlebot 是世界领先的抓取工具，但并非所有机器人都属于 Google。其他搜索引擎抓取网络，而专注于分析以及数据和品牌安全的机器人也很活跃。

与此同时，不良行为者正在设计越来越复杂的软件来从事广告欺诈、窃取内容、发布垃圾邮件等活动。 ^{19 号}

最后的想法

重要的是要记住，抓取预算优化和成功的用户体验都可以在不影响其他方面的情况下进行管理。

检查网站的抓取预算健康状况应该是所有网站所有者维护计划的一个要素，这些检查的频率取决于网站本身的大小和性质。

技术管理——例如修复损坏的链接、无法工作的页面、重复的内容、措辞不当的 URL 以及旧的、充满错误的站点地图——也很重要。

编辑精选

内容策略

Google 抓取预算：发布商指南

Vahe Arabian

安德鲁·肯普