Home ▸ SEO ▸ Orçamento de rastreamento do Google: um guia do editor

Orçamento de rastreamento do Google: guia do editor

21 de abril de 2022

Fato verificado por Vahe Arabian Editado por Andrew Kemp

Os editores que investiram em aparecer no topo dos resultados de pesquisa do Google já entendem a importância do SEO. Um aspecto importante e potencialmente esquecido do SEO para editores maiores, entretanto, é o orçamento de rastreamento do Google.

Os orçamentos de rastreamento do Google ajudam a determinar até que ponto os artigos aparecem nos resultados de pesquisa.

Compreender os orçamentos de rastreamento é uma etapa crítica para garantir que as metas de SEO sejam alcançadas e que o conteúdo seja visualizado. Verificar se o back-end técnico de um site está íntegro significa que é mais provável que o front-end espelhe esse status.

Neste artigo explicamos o que é um orçamento de rastreamento, o que afeta o orçamento, a otimização do orçamento de rastreamento, como verificar e rastrear orçamentos de rastreamento e por que esses orçamentos são tão importantes para o bem-estar de qualquer site online.

O que é orçamento de rastreamento?

O orçamento de rastreamento refere-se aos recursos que o Google aloca para encontrar e indexar páginas da web novas e existentes.

O bot de rastreamento do Google – Googlebot – rastreia sites para atualizar e expandir o banco de dados de páginas da web do gigante das buscas. Ele usa links internos e externos, mapas de sites XML, feeds RSS e Atom, bem como arquivos robots.txt para ajudar a rastrear e indexar sites o mais rápido possível.

Certas páginas ganham mais autoridade com o tempo, enquanto outras podem ser totalmente ignoradas devido a uma série de razões que vão desde restrições relacionadas ao conteúdo até restrições técnicas.

Saber como maximizar o orçamento de rastreamento é inestimável para qualquer editor ou site organizacional que busca sucesso nas páginas de resultados de mecanismos de pesquisa (SERPs).

Limitações do Googlebot

O Googlebot não é um recurso infinito e o Google não pode se dar ao luxo de vasculhar um número infinito de servidores web. Como tal, a empresa ofereceu orientação aos proprietários de domínio para maximizar o seu próprio orçamento de rastreamento. ¹

Compreender como os bots conduzem suas atividades é fundamental.

Se um crawlbot chegar a um site e determinar que analisá-lo e categorizá-lo será problemático, ele ficará lento ou mudará para outro site inteiramente, dependendo da extensão e do tipo de problemas que enfrenta.

Quando isso acontece, é um sinal claro de que falta otimização do orçamento de rastreamento do site.

Saber que o Googlebot é um recurso finito deve ser motivo suficiente para qualquer proprietário de site se preocupar com o orçamento de rastreamento. No entanto, nem todos os sites enfrentam esse problema na mesma medida.

Quem deve se importar e por quê?

Embora todo proprietário de site queira que seu site tenha sucesso, apenas sites de médio e grande porte que atualizam frequentemente seu conteúdo realmente precisam se preocupar com orçamentos de rastreamento.

O Google define sites médios como aqueles com mais de 10.000 páginas exclusivas que são atualizadas diariamente. Enquanto isso, sites grandes têm mais de 1 milhão de páginas exclusivas e são atualizados pelo menos uma vez por semana.

O Google observa a relação entre a atividade de rastreamento e sites maiores, dizendo: “Priorizar o que rastrear, quando e quantos recursos o servidor que hospeda o site pode alocar para o rastreamento é mais importante para sites maiores ou aqueles que geram páginas automaticamente com base em Parâmetros de URL, por exemplo.” ²

Sites com número de páginas limitado não precisam se preocupar muito com o orçamento de rastreamento. No entanto, dado que alguns editores podem se expandir rapidamente, obter uma compreensão básica das estatísticas e operações de rastreamento colocará todos os proprietários de sites em uma posição melhor para colher os frutos de um maior tráfego do site no futuro.

O que afeta o orçamento de rastreamento do Google?

A extensão em que o Google rastreia um site é determinada pelos limites de capacidade de rastreamento e pela demanda de rastreamento.

Para evitar que a atividade de rastreamento sobrecarregue um servidor host, o limite de capacidade é calculado estabelecendo o número máximo de conexões simultâneas e paralelas que o bot pode usar para rastrear o site, bem como o atraso entre o retorno dos dados.

Limite de capacidade de rastreamento

Essa métrica, também conhecida como limite de taxa de rastreamento, é fluida e está relacionada a mudanças em três fatores:

Integridade do rastreamento : se o site responder sem erros ou atrasos e a velocidade do site for boa, o limite pode aumentar e vice-versa.
Taxa de rastreamento do GSC : o Google Search Console (GSC) pode ser usado para reduzir a atividade de rastreamento , uma função que pode ser útil durante a manutenção ou atualizações estendidas do site. ³ Quaisquer alterações permanecem ativas por 90 dias . ⁴

Se o limite da taxa de rastreamento estiver listado como “calculado no nível ideal”, aumentá-lo não será uma opção e reduzi-lo só poderá acontecer por meio de solicitação especial. Se um site estiver sendo rastreado demais, causando problemas de disponibilidade do site e/ou carregamento da página, use o robots.txt para bloquear o rastreamento e a indexação. Essa opção, no entanto, pode levar 24 horas para entrar em vigor.

Embora muitos sites não imponham sanções de limite de rastreamento, ainda assim pode ser uma ferramenta útil.

Demanda de rastreamento

A demanda de rastreamento é uma expressão do interesse do Google em indexar um site. Também é influenciado por três fatores:

Inventário percebido : sem orientação do proprietário do site – que abordaremos um pouco mais tarde – o Google tentará rastrear todos os URLs, incluindo duplicatas, links que não funcionam e páginas menos importantes. É aqui que restringir os parâmetros de pesquisa do Googlebot pode aumentar o orçamento de rastreamento.
Popularidade : se um site for extremamente popular, seus URLs serão rastreados com mais frequência.
Staleness : Geralmente, o sistema Googlebot visa rastrear novamente as páginas para detectar quaisquer alterações. Este processo pode ser auxiliado usando o GSC e solicitando novos rastreamentos, embora não haja garantia de que a solicitação será atendida imediatamente.

A atividade de rastreamento é, em essência, um produto de um bom gerenciamento de sites.

Preocupações com o CMS

Vahe Arabian , fundador da State of Digital Publishing (SODP) , diz que os elementos do sistema de gerenciamento de conteúdo (CMS) – como plug-ins – podem afetar os orçamentos de rastreamento. ⁵

Ele disse: “Muitos plug-ins são baseados em bancos de dados pesados e aumentam a carga de recursos, o que tornará a página mais lenta ou criará páginas desnecessárias e afetará sua rastreabilidade”.

O modelo de receita baseado em anúncios de um site pode criar problemas semelhantes se vários recursos do site consumirem muitos recursos.

Como verificar e rastrear orçamentos de rastreamento

Existem duas maneiras principais de rastrear orçamentos de rastreamento: Google Search Console (GSC) e/ou logs do servidor. ⁶

Console de pesquisa do Google

Antes de verificar as taxas de rastreamento de um site no Google Search Console (GSC), a propriedade do domínio deve ser verificada.

O console possui três ferramentas para verificar as páginas do site e confirmar quais URLs estão funcionais e quais não foram indexadas.

O console verifica imprecisões de domínio e oferece sugestões sobre como resolver vários erros de rastreamento.

O GSC agrupa os erros de status em diversas categorias em seu Relatório de Cobertura do Índice, incluindo:

Erro do servidor [5xx]
Erro de redirecionamento
URL enviado bloqueado por robots.txt
URL enviado marcado como 'noindex'
O URL enviado parece ser um soft 404
URL enviado retorna solicitação não autorizada (401)
URL enviado não encontrado (404)
URL enviado retornou 403:
URL enviado bloqueado devido a outro problema 4xx

O relatório indica quantas páginas foram afetadas por cada erro juntamente com o status de validação.

A ferramenta de inspeção de URL fornece informações de indexação em qualquer página específica, enquanto o Relatório de estatísticas de rastreamento pode ser usado para descobrir com que frequência o Google rastreia um site, a capacidade de resposta do servidor do site e quaisquer problemas de disponibilidade associados.

Existe uma abordagem fixa para identificar e corrigir cada erro, que varia desde o reconhecimento de que um servidor do site pode estar inativo ou indisponível no momento do rastreamento até o uso de um redirecionamento 301 para redirecionar para outra página ou a remoção de páginas do mapa do site .

Se o conteúdo da página tiver mudado significativamente, o botão “solicitar indexação” da ferramenta de inspeção de URL poderá ser usado para iniciar um rastreamento de página.

Embora possa não ser necessário “consertar” cada erro de página individual, minimizar os problemas que tornam os bots de rastreamento lento é definitivamente uma prática recomendada.

Use registros do servidor

Como alternativa ao Google Search Console (GSC), a integridade do rastreamento de um site pode ser inspecionada por meio de registros do servidor que registram não apenas cada visita ao site, mas também cada visita do Googlebot.

Para quem ainda não sabe, os servidores criam e armazenam automaticamente uma entrada de registro sempre que o Googlebot ou um humano solicita que uma página seja atendida. Essas entradas de log são então coletadas em um arquivo de log.

Depois que um arquivo de log for acessado, ele precisará ser analisado. No entanto, dado o âmbito das entradas de registo, este esforço não deve ser empreendido levianamente. Dependendo do tamanho do site, um arquivo de log pode facilmente conter centenas de milhões ou até bilhões de entradas.

Se for tomada a decisão de analisar o arquivo de log, os dados precisam ser exportados para uma planilha ou para um software proprietário, facilitando mais facilmente o processo de análise.

A análise desses registros mostrará os tipos de erros que um bot enfrentou, quais páginas foram mais acessadas e com que frequência um site foi rastreado.

9 maneiras de otimizar o orçamento de rastreamento

A otimização envolve verificar e rastrear as estatísticas de integridade do site, conforme observado acima, e então abordar diretamente as áreas problemáticas.

Abaixo apresentamos nosso kit de ferramentas de otimização de orçamento de rastreamento, que usamos para resolver problemas de rastreabilidade à medida que surgem.

1. Consolide conteúdo duplicado

Problemas de rastreamento podem aparecer quando uma única página é acessível a partir de vários URLs diferentes ou contém conteúdo que é replicado em outro lugar do site. O bot verá esses exemplos como duplicados e simplesmente escolherá um como versão canônica.

Os URLs restantes serão considerados menos importantes e serão rastreados com menos frequência ou até mesmo nem serão rastreados. ¹⁰ Não há problema se o Google escolher a página canônica desejada, mas será um problema sério se isso não acontecer.

Dito isto, pode haver razões válidas para ter páginas duplicadas, como o desejo de suportar vários tipos de dispositivos, permitir a distribuição de conteúdo ou usar URLs dinâmicos para parâmetros de pesquisa ou IDs de sessão.

Recomendações do SODP :

Remova o conteúdo do site sempre que possível
- Use 301s para consolidar URLs e mesclar conteúdo
- Exclua conteúdo de baixo desempenho
Usar 301s após uma reestruturação do site enviará usuários, bots e outros rastreadores aonde eles precisam ir.
Use noindex para páginas finas, paginação (para arquivos mais antigos) e para canibalizar conteúdo.
Nos casos em que o conteúdo duplicado leva ao rastreamento excessivo, ajuste a configuração da taxa de rastreamento no Google Search Console (GSC).

2. Use o arquivo Robots.txt

Este arquivo ajuda a evitar que bots percorram um site inteiro. O uso do arquivo permite a exclusão de páginas individuais ou seções de páginas.

Esta opção dá ao editor controle sobre o que é indexado, mantendo determinado conteúdo privado e ao mesmo tempo melhorando a forma como o orçamento de rastreamento é gasto.

Recomendações do SODP :

Ordene a preferência dos parâmetros para priorizar os parâmetros que precisam ser bloqueados para rastreamento.
Especifique robôs, diretivas e parâmetros que estão causando rastreamento adicional usando arquivos de log.
Bloqueie caminhos comuns que os CMS normalmente possuem, como 404, admin, páginas de login, etc.
Evite usar a diretiva crawl-delay para reduzir o tráfego de bot para desempenho do servidor. Isso afeta apenas a indexação de novos conteúdos.

3. Segmente Sitemaps XML para garantir uma coleta mais rápida de conteúdo

Um bot de rastreamento chega a um site com uma alocação geral de quantas páginas irá rastrear. O mapa do site XML direciona efetivamente o bot para ler URLs selecionados, garantindo o uso eficaz desse orçamento.

Observe que o desempenho da classificação de uma página depende de vários fatores, incluindo qualidade do conteúdo e links internos/externos. Considere incluir apenas as páginas de nível superior no mapa. As imagens podem receber seu próprio mapa do site XML.

Recomendações do SODP :

Faça referência ao mapa do site XML do arquivo robots.txt.
Crie vários sitemaps para um site muito grande. Não adicione mais de 50.000 URLs a um único sitemap XML.
Mantenha-o limpo e inclua apenas páginas indexáveis.
Mantenha o mapa do site XML atualizado.
Mantenha o tamanho do arquivo inferior a 50 MB.

4. Examine a estratégia de links internos

O Google segue a rede de links dentro de um site e quaisquer páginas com vários links são vistas como de alto valor e nas quais vale a pena gastar o orçamento de rastreamento.

No entanto, é importante notar que, embora um número limitado de links internos possa funcionar contra o orçamento de rastreamento, o mesmo pode acontecer com o preenchimento de links em todo o site.

As páginas sem links internos não recebem nenhum link equity do restante do site, incentivando o Google a tratá-las como sendo de menor valor.

Ao mesmo tempo, páginas de alto valor que contêm muitos links internos acabam compartilhando seu valor de link igualmente entre outras páginas, independentemente de seu valor estratégico. Dessa forma, evite links para páginas que oferecem pouco valor aos leitores.

Uma estratégia de links internos requer um toque hábil para garantir que as páginas de alto valor recebam links suficientes, enquanto as páginas de baixo valor não canibalizam o valor do link.

5. Atualize a hospedagem se o tráfego simultâneo for um gargalo

Se um site for executado em uma plataforma de hospedagem compartilhada, o orçamento de rastreamento será compartilhado com outros sites executados nessa plataforma. Uma grande empresa pode considerar a hospedagem independente uma alternativa valiosa.

Outras considerações ao atualizar sua hospedagem ou mesmo antes de atualizar para resolver a sobrecarga de tráfego de bots que pode impactar as cargas do servidor:

Processe imagens usando um CDN separado que também é otimizado para hospedar formatos de imagem de última geração, como webp
Considere hospedar CPU e espaço em disco com base na função e nos requisitos do seu site
Monitore a atividade usando soluções como New Relic para monitorar o uso excessivo de plug-ins e bots

6. Equilibre o uso de Javascript

Quando o Googlebot acessa uma página da web, ele renderiza todos os ativos da página, incluindo Javascript. Embora o rastreamento de HTML seja bastante simples, o Googlebot deve processar o Javascript várias vezes para poder renderizá-lo e compreender seu conteúdo.

Isso pode esgotar rapidamente o orçamento de rastreamento do Google para um site. A solução é implementar a renderização Javascript no lado do servidor.

Ao evitar o envio de ativos Javascript ao cliente para renderização , os bots de rastreamento não gastam seus recursos e podem trabalhar com mais eficiência. ¹¹

Recomendações do SODP :

Use o carregamento lento no nível do navegador em vez de ser baseado em JS
Determine se os elementos
Use marcação no servidor para análises e marcação de terceiros, seja auto-hospedada ou usando soluções como https://stape.io/ . ¹²

7. Atualize Core Web Vitals (CWV) para melhorar a experiência da página

O Core Web Vitals (CWV) do Google Search Console (GSC) usa o que o gigante das buscas chama de “ dados de uso do mundo real ” para mostrar o desempenho da página. ¹³

O relatório CWV agrupa o desempenho do URL em três categorias:

Tipo de métrica (LCP, FID e CLS)
Status
Grupos de URLs

Métrica

O relatório CWV é baseado nas pintura de maior conteúdo (LCP), ¹⁴ atraso na primeira entrada (FID) ¹⁵ e mudança cumulativa de layout (CLS) ¹⁶ .

LCP está relacionado à quantidade de tempo que leva para tornar o maior elemento de conteúdo visível na área visível da página da web.

FID diz respeito ao tempo que uma página leva para responder à interação de um usuário.

CLS é uma medida de quanto o layout da página muda durante a sessão do usuário, com pontuações mais altas representando uma pior experiência do usuário.

Status

Após uma avaliação da página, cada métrica recebe uma das três classificações de status:

Bom
Precisa de melhorias
Pobre

Grupos de URLs

O relatório também pode atribuir problemas a um grupo de URLs semelhantes, assumindo que os problemas de desempenho que afetam páginas semelhantes podem ser atribuídos a um problema partilhado.

CWV e rastreabilidade

Conforme observado anteriormente, quanto mais tempo o Googlebot passa em uma página, mais ele desperdiça seu orçamento de rastreamento. Dessa forma, os editores podem usar os relatórios CWV para otimizar a eficiência da página e reduzir o tempo de rastreamento.

do SODP , com foco em WordPress:

Indicadores de melhoria de velocidade	Implementar via	Validar em
Converta imagens para o formato WebP	Se o CDN estiver ativado, converta-o via CDN ou instale o plugin EWWW	https://www.cdnplanet.com/tools/cdnfinder/
Implemente SRCSET e verifique https://pagespeed.web.dev/ se o problema de tamanho adequado de imagens for resolvido	Implemente adicionando código manualmente	Verifique no código do navegador se todas as imagens possuem o código SRCSET
Habilitar cache do navegador	Foguete WP	https://www.giftofspeed.com/cache-checker/
Imagens de carregamento lento	Foguete WP	Verifique no console do navegador se o código de carregamento lento foi adicionado à imagem. Exceto pela imagem em destaque.
Adiar scripts externos: somente os scripts no<body> pode ser adiado	Foguete WP ou um site mais rápido! (também conhecido como defer.js) plugin	Depois de adicionar a tag defer, verifique em https://pagespeed.web.dev/ se o problema de redução de JavaScript não utilizado foi resolvido
Identifique e remova arquivos JS e CSS não utilizados	Manualmente
Habilitar compactação Gzip	Lado do servidor, entre em contato com o provedor de hospedagem	https://www.giftofspeed.com/gzip-test/
Minimize JS e CSS	Foguete WP	https://pagespeed.web.dev/
Carregar fontes localmente ou pré-carregar fontes da web	Plugin de fonte OMG ou carregue os arquivos de fonte no servidor e adicione-os via código no cabeçalho
Habilitar CDN	Cloudflare (qualquer outro serviço CDN) e configure-o para o site

8. Use um rastreador de terceiros

Um rastreador de terceiros como Semrush, Sitechecker.pro ou Screaming Frog permite que os desenvolvedores da web auditem todos os URLs de um site e identifiquem possíveis problemas.

Os rastreadores podem ser usados para identificar:

Conteúdo de nossos parceiros

Problema de Goldilocks da gestão do público (2)

Problema de Goldilocks da gestão do público: como os editores são pegos entre a tecnologia que não funciona ou é muito complexo para usar

Uma história de como o editor dos rollerads ganhou US $ 60.000

Como as plataformas de dados de clientes focadas em editores geram melhor engajamento do público

Links quebrados
Conteúdo duplicado
Títulos de páginas ausentes

Esses programas oferecem um relatório de estatísticas de rastreamento para ajudar a destacar problemas que as próprias ferramentas do Google não conseguem.

Melhorar os dados estruturados e reduzir os problemas de higiene irá agilizar o trabalho do Googlebot de rastrear e indexar um site.

Recomendações do SODP :

Use consultas SQL para realizar atualizações em lote de erros, em vez de corrigir manualmente cada problema.
Emule o Googlebot, por meio das configurações de rastreamento de pesquisa, para evitar o bloqueio de provedores de hospedagem e para identificar e corrigir adequadamente todos os problemas técnicos.
Depure páginas ausentes em um rastreamento usando este excelente guia do Screaming Frog . ¹⁷

9. Parâmetros de URL

Parâmetros de URL — a seção do endereço da web que segue o “?” — são usados em uma página por vários motivos, incluindo filtragem, paginação e pesquisa.

Embora isso possa melhorar a experiência do usuário, também pode causar problemas de rastreamento quando o URL base e outro com parâmetros retornam o mesmo conteúdo. Um exemplo disso seria “http://mysite.com” e “http://mysite.com?id=3” retornando exatamente a mesma página.

Os parâmetros permitem que um site tenha um número quase ilimitado de links – como quando um usuário pode selecionar dias, meses e anos em um calendário. Se o bot tiver permissão para rastrear essas páginas, o orçamento de rastreamento será usado desnecessariamente.

Recomendações do SODP :

Use regras do robots.txt. Por exemplo, especifique ordens de parâmetros em uma diretiva de permissão.
Use hreflang para especificar as variações de idioma do conteúdo.

Resumo de mitos e fatos do Googlebot

Existem vários equívocos em relação ao poder e ao escopo do Googlebot.

Aqui estão cinco que exploramos:

1. O Googlebot rastreia um site de forma intermitente

Na verdade, o Googlebot rastreia sites com bastante frequência e, em algumas situações, até diariamente. No entanto, a frequência é determinada pela qualidade percebida, novidade, relevância e popularidade do site.

Conforme observado acima, o Google Search Console (GSC) pode ser usado para solicitar um rastreamento.

2. O Googlebot toma decisões sobre a classificação do site

Embora isso fosse correto, o Google agora considera isso uma parte separada do processo de rastreamento, indexação e classificação, de acordo com Martin Splitt , analista de tendências para webmasters do Google. ¹⁸

No entanto, também é importante lembrar que o conteúdo de um site, mapa do site, número de páginas, links, URLs, etc. são fatores que determinam sua classificação.

Em essência, escolhas inteligentes de SEO por parte dos editores podem levar a um posicionamento sólido nas SERPs.

3. Googlebot invade seções privadas de um site

O bot não tem o conceito de “conteúdo privado” e é simplesmente encarregado de indexar sites, a menos que seja orientado pelo proprietário do site para fazer o contrário.

Certas páginas web podem permanecer não indexadas, desde que sejam tomadas as medidas necessárias no âmbito do SGC para restringir o acesso.

4. A atividade do Googlebot pode prejudicar a funcionalidade do site

O processo do Googlebot tem suas limitações devido às limitações de recursos do Google e porque o Google não quer interromper um site.

Splitt disse: “Nós rastejamos um pouco e basicamente aumentamos. E quando começamos a ver erros, diminuímos um pouco.”¹⁵

O GSC pode atrasar os rastreamentos e, como alguns sites podem ter algumas centenas de milhares de páginas, o Googlebot divide o rastreamento em várias visitas.

5. Googlebot é o único bot com o qual vale a pena se preocupar

Embora o Googlebot seja o rastreador líder mundial, nem todos os bots pertencem ao Google. Outros mecanismos de pesquisa rastreiam a web, enquanto bots que se concentram em análises, bem como em dados e segurança de marca também estão ativos.

Ao mesmo tempo, atores mal-intencionados estão projetando softwares cada vez mais sofisticados para praticar fraudes publicitárias , roubar conteúdo, postar spam e muito mais. ¹⁹

Considerações Finais

É importante lembrar que a otimização do orçamento de rastreamento e as experiências de usuário bem-sucedidas podem ser gerenciadas sem comprometer o outro

A verificação da integridade do orçamento de rastreamento de um site deve ser um elemento de todos os programas de manutenção dos proprietários de sites, com a frequência dessas verificações dependendo do tamanho e da natureza do próprio site.

A manutenção técnica – como consertar links quebrados, páginas que não funcionam , conteúdo duplicado, URLs mal formulados e mapas de sites antigos e cheios de erros – também é essencial.

Escolhas do Editor

Estratégia de Conteúdo

Orçamento de rastreamento do Google: guia do editor

Vahe Arabian

André Kemp