Startseite ▸ SEO ▸ Google Crawl Budget: Ein Leitfaden für Publisher

Google Crawl Budget: Ein Leitfaden für Verlage

21. April 2022

Tatsache geprüft von Vahe Arabian Bearbeitet von Andrew Kemp

Verleger, die in die Platzierung an der Spitze der Google-Suchergebnisse investieren, wissen bereits, wie wichtig SEO ist. Ein wichtiger und möglicherweise übersehener Aspekt der Suchmaschinenoptimierung für größere Verlage ist jedoch das Google-Crawling-Budget.

Mithilfe der Crawling-Budgets von Google lässt sich ermitteln, in welchem Umfang Artikel in den Suchergebnissen erscheinen.

Das Verständnis der Crawling-Budgets ist ein entscheidender Schritt, um sicherzustellen, dass SEO-Ziele erreicht werden und Inhalte angezeigt werden. Wenn Sie überprüfen, ob das technische Back-End einer Website fehlerfrei ist, ist es wahrscheinlicher, dass das Front-End diesen Status widerspiegelt.

In diesem Artikel erklären wir, was ein Crawl-Budget ist, was sich auf das Budget auswirkt, wie man Crawl-Budgets optimiert, wie man Crawl-Budgets überprüft und verfolgt und warum diese Budgets für das Wohlergehen jeder Online-Site so wichtig sind.

Was ist ein Crawl-Budget?

Unter Crawling-Budget versteht man die Ressourcen, die Google für die Suche und Indexierung neuer und vorhandener Webseiten bereitstellt.

Der Crawl-Bot von Google – Googlebot – crawlt Websites, um die Webseitendatenbank des Suchgiganten zu aktualisieren und zu erweitern. Es verwendet interne und externe Links, XML-Sitemaps, RSS- und Atom-Feeds sowie robots.txt-Dateien, um das Crawlen und Indexieren von Websites so schnell wie möglich zu unterstützen.

Bestimmte Seiten gewinnen mit der Zeit an Autorität, während andere aus einer Reihe von Gründen, die von inhaltlichen bis hin zu technischen Einschränkungen reichen, möglicherweise völlig ignoriert werden.

Zu wissen, wie man das Crawling-Budget maximiert, ist für jeden Herausgeber oder jede Organisationswebsite, die auf den Ergebnisseiten von Suchmaschinen (SERPs) erfolgreich sein möchte, von unschätzbarem Wert.

Einschränkungen des Googlebots

Der Googlebot ist keine endlose Ressource und Google kann es sich nicht leisten, eine endlose Anzahl von Webservern zu durchsuchen. Daher bietet Domaininhabern Anleitungen zur Maximierung ihres eigenen Crawling-Budgets an. ¹

Es ist von grundlegender Bedeutung, zu verstehen, wie Bots ihre Aktivitäten ausführen.

Wenn ein Crawlbot auf eine Website gelangt und feststellt, dass die Analyse und Kategorisierung problematisch sein wird, verlangsamt er seine Arbeit oder wechselt ganz zu einer anderen Website, abhängig vom Ausmaß und der Art der Probleme, mit denen er konfrontiert ist.

Wenn dies geschieht, ist dies ein klares Signal dafür, dass es der Website an einer Optimierung des Crawling-Budgets mangelt.

Das Wissen, dass der Googlebot eine endliche Ressource ist, sollte für jeden Websitebesitzer Grund genug sein, sich über das Crawling-Budget Sorgen zu machen. Allerdings sind nicht alle Websites in gleichem Maße mit diesem Problem konfrontiert.

Wen sollte es interessieren und warum?

Obwohl jeder Websitebesitzer möchte, dass seine Website erfolgreich ist, müssen sich nur mittlere und große Websites, die ihre Inhalte häufig aktualisieren, wirklich um das Crawling-Budget kümmern.

Google definiert mittelgroße Websites als Websites mit mehr als 10.000 einzelnen Seiten, die täglich aktualisiert werden. Große Websites verfügen mittlerweile über mehr als 1 Million einzigartige Seiten und werden mindestens einmal pro Woche aktualisiert.

Google weist auf den Zusammenhang zwischen der Crawling-Aktivität und größeren Websites hin und sagt: „Die Priorisierung dessen, was wann gecrawlt werden soll und wie viele Ressourcen der Server, der die Website hostet, für das Crawling bereitstellen kann, ist für größere Websites oder solche, die Seiten automatisch generieren, wichtiger.“ Zum Beispiel URL-Parameter.“ ²

Websites mit begrenzten Seitenzahlen müssen sich keine allzu großen Gedanken über das Crawling-Budget machen. Angesichts der Tatsache, dass einige Herausgeber möglicherweise schnell expandieren, werden alle Websitebesitzer durch den Erwerb eines grundlegenden Verständnisses der Crawling-Statistiken und -Vorgänge besser in der Lage sein, später von den Vorteilen eines höheren Website-Verkehrs zu profitieren.

Was beeinflusst das Crawl-Budget von Google?

Der Umfang, in dem Google eine Website crawlt, wird durch die Crawling-Kapazitätsgrenzen und den Crawling-Bedarf bestimmt.

Um zu verhindern, dass die Crawling-Aktivität einen Hostserver überlastet, wird die Kapazitätsgrenze berechnet, indem die maximale Anzahl gleichzeitiger, paralleler Verbindungen festgelegt wird, die der Bot zum Crawlen der Site verwenden kann, sowie die Zeitverzögerung zwischen den Datenrückgaben.

Crawl-Kapazitätslimit

Diese Kennzahl, die auch als Crawl-Rate-Limit bezeichnet wird, ist fließend und bezieht sich auf Änderungen in drei Faktoren:

Crawling-Gesundheit : Wenn die Site ohne Fehler oder Verzögerung antwortet und die Geschwindigkeit der Site gut ist, kann das Limit steigen und umgekehrt.
GSC-Crawling-Rate : Die Google Search Console (GSC) kann verwendet werden, um die Crawling-Aktivität zu reduzieren , eine Funktion, die bei längerer Website-Wartung oder -Updates nützlich sein kann. ³ Alle Änderungen bleiben 90 Tage lang aktiv . ⁴

Wenn das Crawling-Ratenlimit als „optimal berechnet“ aufgeführt ist, ist eine Erhöhung keine Option und eine Senkung nur auf besonderen Antrag möglich. Wenn eine Website übermäßig gecrawlt wird, was zu Problemen mit der Website-Verfügbarkeit und/oder dem Laden der Seite führt, verwenden Sie robots.txt, um das Crawlen und die Indizierung zu blockieren. Es kann jedoch 24 Stunden dauern, bis diese Option in Kraft tritt.

Auch wenn viele Websites keine Crawling-Limit-Sanktionen vorsehen, kann dies dennoch ein nützliches Tool sein.

Crawl-Nachfrage

Die Crawl-Nachfrage ist ein Ausdruck dafür, wie groß das Interesse von Google an der Indexierung einer Website ist. Auch sie wird von drei Faktoren beeinflusst:

Wahrgenommenes Inventar : Ohne Anleitung des Websitebesitzers – worauf wir etwas später eingehen – wird Google versuchen, jede URL zu crawlen, einschließlich Duplikate, nicht funktionierende Links und weniger wichtige Seiten. Hier kann die Eingrenzung der Suchparameter des Googlebots das Crawling-Budget steigern.
Beliebtheit : Wenn eine Website sehr beliebt ist, werden ihre URLs häufiger gecrawlt.
Veraltetheit : Im Allgemeinen zielt das Googlebot-System darauf ab, Seiten neu zu crawlen, um etwaige Änderungen zu erkennen. Dieser Prozess kann durch die Nutzung des GSC und die Anforderung eines erneuten Crawlings unterstützt werden, es gibt jedoch keine Garantie dafür, dass auf die Anfrage sofort reagiert wird.

Crawling-Aktivitäten sind im Wesentlichen ein Produkt einer soliden Website-Verwaltung.

CMS-Bedenken

Vahe Arabian , Gründer von State of Digital Publishing (SODP) , sagt, dass Elemente von Content-Management-Systemen (CMS) – wie etwa Plug-Ins – Auswirkungen auf Crawling-Budgets haben können. ⁵

Er sagte: „Viele Plug-ins sind stark datenbankgesteuert und führen zu einer Erhöhung der Ressourcenlast, wodurch eine Seite langsamer wird oder unnötige Seiten erstellt werden und ihre Crawlbarkeit beeinträchtigt wird.“

Das werbefinanzierte Umsatzmodell einer Website kann zu ähnlichen Problemen führen, wenn mehrere Website-Funktionen ressourcenintensiv sind.

So überprüfen und verfolgen Sie Crawl-Budgets

Es gibt zwei wichtige Möglichkeiten, Crawling-Budgets zu verfolgen: Google Search Console (GSC) und/oder Serverprotokolle. ⁶

Google Search Console

Bevor die Crawling-Raten einer Website in der Google Search Console (GSC) überprüft werden, muss der Domain-Inhaber überprüft werden.

Die Konsole verfügt über drei Tools, um Website-Seiten zu überprüfen und zu bestätigen, welche URLs funktionsfähig sind und welche nicht indiziert wurden.

Die Konsole prüft, ob Domänenungenauigkeiten vorliegen, und bietet Vorschläge zur Behebung verschiedener Crawling-Fehler.

GSC gruppiert Statusfehler in seinem Index Coverage Report in eine Reihe von Kategorien, darunter:

Serverfehler [5xx]
Weiterleitungsfehler
Die übermittelte URL wurde von robots.txt blockiert
Eingereichte URL mit der Markierung „noindex“
Die übermittelte URL scheint ein Soft 404 zu sein
Die übermittelte URL gibt eine nicht autorisierte Anfrage zurück (401)
Eingereichte URL nicht gefunden (404)
Die übermittelte URL hat 403 zurückgegeben:
Die übermittelte URL wurde aufgrund eines anderen 4xx-Problems blockiert

Der Bericht gibt neben dem Validierungsstatus an, wie viele Seiten von jedem Fehler betroffen waren.

Das URL-Inspektionstool liefert Indexierungsinformationen zu einer bestimmten Seite, während der Crawl-Statistikbericht verwendet werden kann, um herauszufinden, wie oft Google eine Website crawlt, wie schnell der Server der Website reagiert und welche damit verbundenen Verfügbarkeitsprobleme auftreten.

Es gibt einen festen Ansatz zur Identifizierung und Behebung jedes Fehlers. Diese reichen von der Erkennung, dass ein Site-Server zum Zeitpunkt des Crawls möglicherweise ausgefallen oder nicht verfügbar war, bis hin zur Verwendung einer 301-Umleitung zur Weiterleitung auf eine andere Seite oder dem Entfernen von Seiten aus der Sitemap .

Wenn sich der Seiteninhalt erheblich geändert hat, kann über die Schaltfläche „Indizierung anfordern“ des URL-Inspektionstools ein Seiten-Crawling gestartet werden.

Auch wenn es möglicherweise nicht notwendig ist, jeden einzelnen Seitenfehler zu „beheben“, ist die Minimierung von Problemen, die Crawling-Bots verlangsamen, definitiv eine bewährte Vorgehensweise.

Verwenden Sie Serverprotokolle

Alternativ zur Google Search Console (GSC) kann der Crawling-Zustand einer Website über Serverprotokolle überprüft werden, die nicht nur jeden Website-Besuch, sondern auch jeden Googlebot-Besuch aufzeichnen.

Für diejenigen, die es noch nicht wissen: Server erstellen und speichern automatisch einen Protokolleintrag, wenn ein Googlebot oder ein Mensch die Bereitstellung einer Seite anfordert. Diese Protokolleinträge werden dann in einer Protokolldatei gesammelt.

Sobald auf eine Protokolldatei zugegriffen wurde, muss diese analysiert werden. Angesichts des schieren Umfangs der Protokolleinträge sollte dieses Unterfangen jedoch nicht auf die leichte Schulter genommen werden. Abhängig von der Größe der Site kann eine Protokolldatei leicht Hunderte Millionen oder sogar Milliarden Einträge enthalten.

Wenn die Entscheidung getroffen wird, die Protokolldatei zu analysieren, müssen die Daten entweder in eine Tabellenkalkulation oder eine proprietäre Software exportiert werden, um den Analyseprozess einfacher zu gestalten.

Die Analyse dieser Datensätze zeigt die Art der Fehler, mit denen ein Bot konfrontiert war, welche Seiten am häufigsten aufgerufen wurden und wie oft eine Website gecrawlt wurde.

9 Möglichkeiten zur Optimierung des Crawl-Budgets

Bei der Optimierung geht es um die Überprüfung und Verfolgung von Website-Zustandsstatistiken, wie oben erwähnt, und um anschließend direkt auf Problembereiche einzugehen.

Nachfolgend stellen wir unser Toolkit zur Optimierung des Crawl-Budgets vor, mit dem wir auftretende Crawlbarkeitsprobleme angehen.

1. Konsolidieren Sie doppelte Inhalte

Crawling-Probleme können auftreten, wenn eine einzelne Seite entweder über mehrere verschiedene URLs zugänglich ist oder Inhalte enthält, die an anderer Stelle auf der Website repliziert werden. Der Bot betrachtet diese Beispiele als Duplikate und wählt einfach eines als kanonische Version aus.

Die übrigen URLs gelten als weniger wichtig und werden seltener oder gar nicht gecrawlt. ¹⁰ Das ist in Ordnung, wenn Google die gewünschte kanonische Seite auswählt, stellt aber ein ernstes Problem dar, wenn dies nicht der Fall ist.

Allerdings kann es triftige Gründe für doppelte Seiten geben, etwa der Wunsch, mehrere Gerätetypen zu unterstützen, die Syndizierung von Inhalten zu ermöglichen oder dynamische URLs für Suchparameter oder Sitzungs-IDs zu verwenden.

Empfehlungen von SODP :

Beschneiden Sie Website-Inhalte nach Möglichkeit
- Verwenden Sie 301s, um URLs zu konsolidieren und Inhalte zusammenzuführen
- Löschen Sie Inhalte mit geringer Leistung
Die Verwendung von 301-Fehlern nach einer Website-Umstrukturierung führt Benutzer, Bots und andere Crawler dorthin, wo sie hin müssen.
Verwenden Sie noindex für dünne Seiten, Paginierung (für ältere Archive) und zur Kannibalisierung von Inhalten.
In Fällen, in denen doppelter Inhalt zu übermäßigem Crawling führt, passen Sie die Einstellung der Crawling-Rate in der Google Search Console (GSC) an.

2. Verwenden Sie die Datei Robots.txt

Diese Datei verhindert, dass Bots eine gesamte Website durchsuchen. Die Verwendung der Datei ermöglicht den Ausschluss einzelner Seiten oder Seitenabschnitte.

Diese Option gibt dem Herausgeber die Kontrolle darüber, was indiziert wird, wodurch bestimmte Inhalte privat bleiben und gleichzeitig die Verwendung des Crawling-Budgets verbessert wird.

Empfehlungen von SODP :

Ordnen Sie die Präferenz der Parameter, um die Parameter zu priorisieren, die vom Crawlen blockiert werden müssen.
Geben Sie mithilfe von Protokolldateien Robots, Anweisungen und Parameter an, die zusätzliches Crawlen verursachen.
Blockieren Sie allgemeine Pfade, die CMS normalerweise haben, wie 404, Admin, Anmeldeseiten usw.
Vermeiden Sie die Verwendung der Crawl-Delay-Anweisung, um den Bot-Verkehr für die Serverleistung zu reduzieren. Dies wirkt sich nur auf die Indexierung neuer Inhalte aus.

3. Segmentieren Sie XML-Sitemaps, um eine schnellere Erfassung von Inhalten zu gewährleisten

Ein Crawl-Bot erreicht eine Website mit einer allgemeinen Zuweisung, wie viele Seiten er crawlen soll. Die XML-Sitemap weist den Bot effektiv an, ausgewählte URLs zu lesen und stellt so die effektive Nutzung dieses Budgets sicher.

Beachten Sie, dass die Ranking-Leistung einer Seite von mehreren Faktoren abhängt, darunter der Qualität des Inhalts und internen/externen Links. Erwägen Sie, nur Seiten der obersten Ebene in die Karte aufzunehmen. Den Bildern kann eine eigene XML-Sitemap zugeordnet werden.

Empfehlungen von SODP :

Verweisen Sie auf die XML-Sitemap aus der robots.txt-Datei.
Erstellen Sie mehrere Sitemaps für eine sehr große Website. Fügen Sie einer einzelnen XML-Sitemap nicht mehr als 50.000 URLs hinzu.
Halten Sie es sauber und fügen Sie nur indexierbare Seiten ein.
Halten Sie die XML-Sitemap aktuell.
Halten Sie die Dateigröße auf weniger als 50 MB.

4. Untersuchen Sie die interne Verlinkungsstrategie

Google folgt dem Linknetzwerk innerhalb einer Website und alle Seiten mit mehreren Links werden als hochwertig angesehen und es lohnt sich, das Crawling-Budget dafür auszugeben.

Es ist jedoch erwähnenswert, dass zwar eine begrenzte Anzahl interner Links das Crawling-Budget belasten kann, es aber auch sein kann, dass die gesamte Website mit Links überhäuft wird.

Seiten ohne interne Links erhalten kein Link-Equity vom Rest der Website, was Google dazu veranlasst, sie als von geringerem Wert zu behandeln.

Gleichzeitig teilen hochwertige Seiten, die viele interne Links enthalten, ihr Link-Equity am Ende unabhängig von ihrem strategischen Wert gleichmäßig auf andere Seiten auf. Vermeiden Sie daher die Verlinkung auf Seiten, die für den Leser wenig Wert bieten.

Eine interne Verlinkungsstrategie erfordert ein geschicktes Fingerspitzengefühl, um sicherzustellen, dass Seiten mit hohem Wert genügend Links erhalten, während Seiten mit geringem Wert die Link-Equity nicht ausschlachten.

5. Upgraden Sie das Hosting, wenn der gleichzeitige Datenverkehr einen Engpass darstellt

Wenn eine Website auf einer Shared-Hosting-Plattform läuft, wird das Crawling-Budget mit anderen Websites geteilt, die auf dieser Plattform laufen. Für ein großes Unternehmen könnte unabhängiges Hosting eine wertvolle Alternative sein.

Weitere Überlegungen beim Upgrade Ihres Hostings oder sogar vor dem Upgrade, um eine Überlastung des Bot-Verkehrs zu beheben, die sich auf die Serverlast auswirken kann:

Verarbeiten Sie Bilder mit einem separaten CDN, das auch für das Hosten von Bildformaten der nächsten Generation wie WebP optimiert ist
Erwägen Sie das Hosten von CPU und Speicherplatz basierend auf der Funktion und den Anforderungen Ihrer Website
Überwachen Sie Aktivitäten mit Lösungen wie New Relic, um die übermäßige Nutzung von Plugins und Bots zu überwachen

6. Balance der Javascript-Nutzung

Wenn der Googlebot auf einer Webseite landet, rendert er alle Assets auf dieser Seite, einschließlich Javascript. Während das Crawlen von HTML recht einfach ist, muss der Googlebot Javascript mehrmals verarbeiten, um es rendern und seinen Inhalt verstehen zu können.

Dadurch kann das Crawling-Budget von Google für eine Website schnell aufgebraucht werden. Die Lösung besteht darin, Javascript-Rendering auf der Serverseite zu implementieren.

Durch das Vermeiden des Sendens von Javascript-Assets an den Client zum Rendern verbrauchen Crawler-Bots ihre Ressourcen nicht und können effizienter arbeiten. ¹¹

Empfehlungen von SODP :

Verwenden Sie Lazy Loading auf Browserebene, anstatt JS-basiert zu sein
Bestimmen Sie, ob Elemente
Verwenden Sie serverseitiges Tagging für Analysen und Tagging von Drittanbietern, entweder selbst gehostet oder mit Lösungen wie https://stape.io/ . ¹²

7. Aktualisieren Sie Core Web Vitals (CWV), um das Seitenerlebnis zu verbessern

Die Core Web Vitals (CWV) der Google Search Console (GSC) verwenden das, was der Suchriese „ reale Nutzungsdaten “ nennt, um die Seitenleistung anzuzeigen. ¹³

Der CWV-Bericht gruppiert die URL-Leistung in drei Kategorien:

Metriktyp (LCP, FID und CLS)
Status
URL-Gruppen

Metrisch

Der CWV-Bericht basiert auf den „Large Contentful Paint“ (LCP), ¹⁴ „First Input Delay“ (FID) ¹⁵ und „Cumulative Layout Shift“ (CLS) ¹⁶ .

LCP bezieht sich auf die Zeit, die benötigt wird, um das größte Inhaltselement im sichtbaren Bereich der Webseite sichtbar zu machen.

Beim FID handelt es sich um die Zeit, die eine Seite benötigt, um auf die Interaktion eines Benutzers zu reagieren.

CLS ist ein Maß dafür, wie stark sich das Seitenlayout während der Benutzersitzung ändert, wobei höhere Werte eine schlechtere Benutzererfahrung bedeuten.

Status

Nach einer Seitenbewertung wird jeder Metrik einer von drei Statusrängen zugewiesen:

Gut
Muss verbessert werden
Arm

URL-Gruppen

Der Bericht kann Probleme auch einer Gruppe ähnlicher URLs zuordnen, vorausgesetzt, dass Leistungsprobleme, die ähnliche Seiten betreffen, auf ein gemeinsames Problem zurückzuführen sind.

CWV und Crawlability

Wie bereits erwähnt: Je länger der Googlebot auf einer Seite verbringt, desto mehr verschwendet er sein Crawling-Budget. Daher können Publisher die CWV-Berichte nutzen, um die Seiteneffizienz zu optimieren und die Crawling-Zeit zu verkürzen.

von SODP , mit Schwerpunkt auf WordPress:

Hinweise zur Geschwindigkeitsverbesserung	Implementieren über	Validieren am
Konvertieren Sie Bilder in das WebP-Format	Wenn CDN aktiviert ist, konvertieren Sie es über die CDN-Seite oder installieren Sie das EWWW-Plugin	https://www.cdnplanet.com/tools/cdnfinder/
Implementieren Sie SRCSET und prüfen Sie unter https://pagespeed.web.dev/, ob das Problem mit der richtigen Bildgröße behoben ist	Implementieren Sie durch manuelles Hinzufügen von Code	Überprüfen Sie im Browsercode, ob alle Bilder den SRCSET-Code haben
Aktivieren Sie das Browser-Caching	WP-Rakete	https://www.giftofspeed.com/cache-checker/
Lazy Load-Bilder	WP-Rakete	Überprüfen Sie in der Browserkonsole, ob der Lazyload-Code zum Bild hinzugefügt wurde. Bis auf das vorgestellte Bild.
Externe Skripte zurückstellen: Nur die Skripte im kann aufgeschoben werden	WP-Rakete oder eine schnellere Website! (auch bekannt als defer.js)-Plugin	Überprüfen Sie nach dem Hinzufügen des Defer-Tags unter https://pagespeed.web.dev/ , ob das Problem „Nicht verwendetes JavaScript reduzieren“ behoben ist
Identifizieren und entfernen Sie nicht verwendete JS- und CSS-Dateien	Manuell
Aktivieren Sie die Gzip-Komprimierung	Serverseitig wenden Sie sich an den Hosting-Anbieter	https://www.giftofspeed.com/gzip-test/
JS und CSS minimieren	WP-Rakete	https://pagespeed.web.dev/
Laden Sie Schriftarten lokal oder laden Sie Web-Schriftarten vorab	OMG-Font-Plugin oder laden Sie die Font-Dateien auf den Server hoch und fügen Sie sie per Code im Header hinzu
CDN aktivieren	Cloudflare (jeder andere CDN-Dienst) und konfigurieren Sie es für die Site

8. Verwenden Sie einen Crawler eines Drittanbieters

Mit einem Crawler eines Drittanbieters wie SEMrush, Sitechecker.pro oder Screaming Frog können Webentwickler alle URLs einer Website prüfen und potenzielle Probleme identifizieren.

Crawler können verwendet werden, um Folgendes zu identifizieren:

Inhalte unserer Partner

Warum Online -Verleger ein VPN benötigen: Schutz von Daten, Quellen und Einnahmen

Das Goldillocks -Problem des Publikumsmanagements (2)

Das Goldilocks -Problem des Publikumsmanagements: Wie Verlage zwischen Technik gefangen wird, die nicht funktionieren oder zu komplex sind, um sie zu verwenden

Eine Geschichte darüber, wie der Verlag von Rollerads 60.000 US -Dollar verdiente

Kaputte Links
Doppelter Inhalt
Fehlende Seitentitel

Diese Programme bieten einen Crawl-Statistikbericht, um Probleme hervorzuheben, die mit den Google-eigenen Tools möglicherweise nicht möglich sind.

Durch die Verbesserung strukturierter Daten und die Reduzierung von Hygieneproblemen wird die Arbeit des Googlebots beim Crawlen und Indexieren einer Website optimiert.

Empfehlungen von SODP :

Verwenden Sie SQL-Abfragen, um Batch-Updates für Fehler durchzuführen, anstatt jedes Problem manuell zu beheben.
Emulieren Sie den Googlebot über die Such-Crawling-Einstellungen, um zu verhindern, dass er von Hosting-Anbietern blockiert wird, und um alle technischen Probleme ordnungsgemäß zu identifizieren und zu beheben.
Debuggen Sie fehlende Seiten aus einem Crawl mithilfe dieser großartigen Anleitung von Screaming Frog . ¹⁷

9. URL-Parameter

URL-Parameter – der Abschnitt der Webadresse, der auf das „?“ folgt. – werden auf einer Seite aus verschiedenen Gründen verwendet, einschließlich Filterung, Paginierung und Suche.

Dies kann zwar das Benutzererlebnis verbessern, kann aber auch zu Crawling-Problemen führen, wenn sowohl die Basis-URL als auch eine URL mit Parametern denselben Inhalt zurückgeben. Ein Beispiel hierfür wäre „http://mysite.com“ und „http://mysite.com?id=3“, die genau dieselbe Seite zurückgeben.

Mithilfe von Parametern kann eine Website über eine nahezu unbegrenzte Anzahl von Links verfügen, beispielsweise wenn ein Benutzer Tage, Monate und Jahre in einem Kalender auswählen kann. Wenn der Bot diese Seiten crawlen darf, wird das Crawl-Budget unnötig aufgebraucht.

Empfehlungen von SODP :

Verwenden Sie robots.txt-Regeln. Geben Sie beispielsweise Parameterreihenfolgen in einer Allow-Anweisung an.
Verwenden Sie hreflang, um die Sprachvarianten des Inhalts anzugeben.

Zusammenfassung der Mythen und Fakten zum Googlebot

Es gibt mehrere Missverständnisse über die Leistungsfähigkeit und den Umfang des Googlebots.

Hier sind fünf, die wir untersucht haben:

1. Der Googlebot crawlt zeitweise eine Website

Der Googlebot crawlt Websites tatsächlich ziemlich häufig und in manchen Situationen sogar täglich. Die Häufigkeit wird jedoch durch die wahrgenommene Qualität, Neuheit, Relevanz und Beliebtheit der Website bestimmt.

Wie oben erwähnt, kann die Google Search Console (GSC) verwendet werden, um einen Crawl anzufordern.

2. Googlebot trifft Entscheidungen über das Site-Ranking

Während dies früher richtig war, betrachtet Google dies laut Martin Splitt , WebMaster Trends Analyst bei Google, mittlerweile als einen separaten Teil des Crawl-, Index- und Ranking-Prozesses. ¹⁸

Es ist jedoch auch wichtig zu bedenken, dass der Inhalt einer Website, die Sitemap, die Anzahl der Seiten, Links, URLs usw. Faktoren sind, die ihr Ranking bestimmen.

Im Wesentlichen können kluge SEO-Entscheidungen von Publishern zu einer soliden Positionierung innerhalb der SERPs führen.

3. Googlebot dringt in private Bereiche einer Website ein

Der Bot hat kein Konzept von „privaten Inhalten“ und hat lediglich die Aufgabe, Websites zu indizieren, es sei denn, der Eigentümer der Website weist ihn dazu an, etwas anderes zu tun.

Bestimmte Webseiten können nicht indiziert bleiben, solange innerhalb der Allgemeinen Geschäftsbedingungen die erforderlichen Schritte unternommen werden, um den Zugriff einzuschränken.

4. Googlebot-Aktivitäten können die Funktionsfähigkeit der Website beeinträchtigen

Der Googlebot-Prozess hat seine Grenzen, sowohl aufgrund der Ressourcenbeschränkungen von Google als auch, weil Google eine Website nicht stören möchte.

Splitt sagte: „Wir kriechen ein bisschen und steigern es dann im Grunde genommen.“ Und wenn wir anfangen, Fehler zu sehen, reduzieren wir den Aufwand ein wenig.“ ¹⁵

Das GSC kann das Crawlen verzögern. Da manche Websites mehrere Hunderttausend Seiten haben, teilt der Googlebot das Crawlen auf mehrere Besuche auf.

5. Der Googlebot ist der einzige Bot, um den man sich Sorgen machen muss

Obwohl der Googlebot der weltweit führende Crawler ist, gehören nicht alle Bots zu Google. Andere Suchmaschinen durchsuchen das Web, aber auch Bots, die sich auf Analysen sowie Daten- und Markensicherheit konzentrieren, sind aktiv.

Gleichzeitig entwickeln Kriminelle immer ausgefeiltere Software, um Anzeigenbetrug zu begehen , Inhalte zu stehlen, Spam zu versenden und vieles mehr. ¹⁹

Abschließende Gedanken

Es ist wichtig, sich daran zu erinnern, dass die Optimierung des Crawling-Budgets und erfolgreiche Benutzererlebnisse verwaltet werden können, ohne einander zu beeinträchtigen

Die Überprüfung des Zustands des Crawling-Budgets einer Website sollte ein Bestandteil der Wartungsprogramme aller Website-Eigentümer sein, wobei die Häufigkeit dieser Überprüfungen von der Größe und Art der Website selbst abhängt.

die technische Verwaltung – wie die Behebung defekter Links, nicht funktionierender Seiten, doppelter Inhalte, schlecht formulierter URLs und alter, fehlerbehafteter Sitemaps – ist unerlässlich.

Redakteurfavoriten

Content-Strategie

Google Crawl Budget: Ein Leitfaden für Verlage

Vahe Arabian

Andrew Kemp