INHALTSVERZEICHNIS:

Inhaltsverzeichnis

Strategische SEO Beratung vom erfahrenen Freelancer:

Der Google Crawl ist der erste Kontakt von Google mit der Website. Ohne Crawling also kein Auftauchen der URLs in den Suchergebnissen! Doch wie funktioniert das Crawling und was unterscheidet es von der Indexierung einer Website? Wie kann das Crawling analysiert und optimiert werden? Welche Crawling-Fehler gibt es und wie werden diese verhindert? Was ist das Crawl Budget? Bei diesen Fragen hilft dieser Beitrag weiter…

Robert Goese – SEO Beratung: Tel. 030 / 53 00 56 01

Crawl durch den Googlebot

Was ist Crawling?

Der Googlebot und andere Suchmaschinen-Crawler (auch Spider genannt) untersuchen und analysieren Webseiten durch Nachverfolgung von domaininternen oder auch externen Links. Auch Links aus XML-Sitemaps, die explizite Anmeldung einer URL und die Eingabe einer expliziten URL im Chromebrowser kann bei Google zum Crawlen führen. Für ein erfolgreiches Crawlen sollten möglichst alle Links dem herkömmlichen HTML-Schema folgen.

				
					<a href="https://example.com" target="_blank" rel="noopener">Hier zur Webseite</a>
				
			

Was ist der Googlebot?

Der Googlebot selbst ist eigentlich nichts anderes als ein Headless- ausgeführter Chrome- Browser (ein Chrome-Browser ohne Benutzeroberfläche). Dieser folgt ohne irgendeine Nutzeraktion (wie Button drücken etc.) allen Links, die dem oben genannten HTML-Schema folgen und parst die entsprechenden Inhalte.

Hierbei greift er auf Website-Urls zu, die ihm vom Scheduler (sozusagen ein „Vorgesetzter mit einem Arbeits-Stundenplan“) zugewiesen werden. Die gesammelten Informationen gibt der Googlebot an den Parser weiter.

Der Google Crawl in der technischen SEO
Vereinfachte Darstellung: Google Crawl und Indexierung

Das Parsen der Website

Das Parsen der Website bedeutet, dass der HTML-Code der URL interpretiert wird, aber die Website wird hier nicht gerendert (d.h. Inhalte die erst durch Rendering von JavaScript-Inhalten im ausgelieferten HTML-Code erscheinen, werden hier noch nicht erkannt – mehr zum JavaScript-Rendering weiter unten).

Der Parser ist hier (wie der gesamte Crawlprozess) stark vereinfacht dargestellt, hinter diesem können sich, je nach Suchmaschine, Dinge wie z.B. Storeserver, Dokumentenindex und Repository-Index verbergen1. Die Vereinfachung ist der Bedeutung für den SEO geschuldet: 

Es gilt nur festzuhalten, dass hier der HTML-Code der URL nach Keywordvorkommen im Quelltext (Title, Description, Überschriften, Maincontent, Bild- und Video-Dateinamen und Alt-Tags etc.) durchsucht wird, der Dokumententyp und die Dokumentenlänge werden festgehalten und unerwünschte Inhalte durch einen Blacklist-Filter von der weiteren Indexierung ausgeschlossen.

Es findet also hier eine erste Analyse der Website-Url statt und die erhaltenden Informationen werden erst dann an die Indexierung weitergegeben.

Crawling und Indexierung sind verschieden!

Crawling und Indexierung sind nicht identisch: Ein Crawling führt nicht automatisch zur Indexierung. Die Überführung der gecrawlten URLs in den Suchmaschinen-Index braucht auch etwas Zeit. Bei Duplikaten, mangelnder Qualität bzw. bei Seiten, die seitens Google als unwichtig bewertet werden, verweigert Google auch die Aufnahme in den Index.

Der Scheduler

Der Scheduler ist für eine Unmenge an Bots zuständig1. Er steht in ständigem Austausch mit den einzelnen Bots und dem Parser. Der Scheduler überwacht die Crawl-Aktivitäten und steckt auch neu entdeckte URLs (z.B. nach dem Rendering von JavaScript) in die Crawl-Warteschlange.

KAPAZITÄTEN ANFRAGEN
Sie wollen SEO-Beratung von einem langjährigen SEO-Experten?

Der Google Crawl stark vereinfacht erkärt von Google selbst (englisch)

"Gecrawlt ist noch lange nicht indexiert"

- Altes SEO Sprichwort

Googlebot & JavaScript

Ein Sonderfall im Crawling ist die Verwendung von JavaScript zur Inhaltsdarstellung. Hier wird der HTML-Quellcode dieser Inhalte durch JavaScript ersetzt. Kurz gesagt: Der Googlebot und der Parser selbst rendert keine solchen Inhalte:

Dies bedeutet, wenn Links nicht dem herkömmlichen HTML-Schema (<a href=“https://www.example.com/eine-seite.html“>) entsprechen, kann der Googlebot diesen Links nicht folgen und die Inhalte der Seite erfassen. 

Es wird also erst nur die entsprechende Seite vom Googlebot gecrawlt, vom Parser zum Renderer geschickt, dort gerendert und die gerenderten Inhalte wieder an den Parser gegeben. Dieser gibt bei neuen Links die entsprechenden URLs wieder an den Scheduler zum Crawlen der neu gefundenen URLs. 

Dieser Vorgang verlängert den Crawl- und Indexierungsprozess erheblich und kann unter Umständen auch 2 bis 3 Wochen dauern. Weiterhin ranken solche Inhalte, wie Studien zeigen, um einiges schlechter: Genauere Infos finden sich im Beitrag JavaScript SEO.

Google Crawl und JavaScript Rendering
Der Parser schickt JavaScript zum Rendern erst zum Renderer

JavaScript SEO

Die Verwendung moderner JavaScript-Bibliotheken erfordert eine besondere technische SEO

Google Crawl und die robots.txt

Durch Angaben in der robots.txt Datei kann das Crawlen durch Google beeinflusst werden. Die robots.txt-Textdatei muss sich dabei im Rootverzeichnis einer Domain befinden und unter „https//example.com/robots.txt“ erreichbar sein. Die Angaben stellen eine Empfehlung dar und sind nicht bindend, allerdings hält sich Google wie auch Bing an diese. Bei den Angaben wird die Groß- bzw. Kleinschreibung beachtet.

Die entsprechenden Angaben sind User-Agent (Google etc.), Allow und Disallow und der Pfad zur XML-Sitemap. Es können also das Crawlingverhalten von einzelnen User-Agents, einzelner URLs, Verzeichnisse bzw. der ganzen Domain in der Datei definiert werden.

Die User-Agent-Angabe für den Googlebot und andere

Die User-Agent Angabe definiert das Crawlen durch die einzelnen Suchmachinenspider oder seltener auch Browser die eigene User-Agents in ihrer Serveranfrage angeben.

Die einzelnen User-Agents werden durch folgende Angabe angesprochen:

				
					// für alle User-Agents
User-Agent:* 

// Beispiel für Googlebot (Mobil):
User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

// Beispiel für Googlebot (Desktop)

User-Agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

// Beispiel für Bilder-Googlebot

User-Agent: Googlebot-Image/1.0

// Beispiel für Video-Googlebot

User-Agent: Googlebot-Video/1.0



				
			
Angaben zu den einzelnen Bots von Google sind hier zu finden. Aber beachten:  Spammer etc. können den eigenen User-Agent verändern und sich z.B. als Googlebot ausgeben. Unerwünschte Spider können sie in der htaccess-Datei vom Zugang sperren (Infos unter Quellen).

Die Allow- und Disallow- Angabe

Während die Disallow- Angabe den Zugriff auf Domainbestandteile für User-Agents sperren soll, wird die Allow-Angabe verwendet um bestimmten User-Agents eben Zugriff zu erlauben. 

Allerdings muß die Allow-Angabe nicht explizit erfolgen. Alle Suchmaschinen gehen standardmäßig von einem Erlauben aus. Allow- Angaben werden somit nur für Ausnahmen von ausgeschlossenen URLs verwendet.

				
					// Disallow für alle User-Agents
User-Agent:*
Disallow: /Ordnername/

// Disallow Beispiel für Googlebot:
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1;+http://google.com/bot.html)
Disallow: /Warenkorb/

// Allow Ausnahme für erlaubte URL in verbotenem Ordner
User-Agent:*
Disallow: /Ordnername/*
Allow: /Ordnername/erlaubte-URL.html
				
			
Grundsätzlich sollten alle CSS- und JavaScript- Dateien für das Crawlen erlaubt sein, damit Google die Darstellung der Inhalte nachvollziehen kann (werden Informationen erst durch JavaScript sichtbar etc.)

Die Pfadangabe für XML-Sitemaps

XML-Sitemaps gelten als die Landkarten der Suchmaschinen (und sind damit sehr wichtig für die technische SEO). Im nächsten Kapitel befinden sich weitere Informationen zu den XML-Sitemaps. Für die robots.txt Datei ist es wichtig, dass dort der Pfad zu den XML-Sitemaps angegeben werden kann, da sie nicht an einen vorgeschriebenen Speicherort wie die robots.txt gebunden ist.

				
					// Angabe der XML-Sitemap in der robots.txt

Sitemap: https://example.com/sitemap.xml
				
			

Indexiert trotz robots.txt?

Wenn URLs von extern verlinkt werden kann es passieren, dass durch die robots.txt Datei gesperrte URLs trotzdem indexiert werden. In diesem Falle kennt Google zwar den Inhalt einer Seite nicht, aber es sind ja weitere Informationen über die URL existent (verlinkende Seiten mit Ankertexten etc.). Hier hilft die Verwendung des Meta-Noindex-Tags oder eines entsprechenden HTTP- Antwortheaders (siehe dazu Technische SEO – Indexierung).

Testen der robots.txt

Gerade Anfänger sollten ihre robots.txt auch gegentesten. Hierfür kann das entsprechende Testing-Tool in der Search Console verwendet werden, oder sollte die Domain dort  noch nicht angemeldet sein, geht dies auch mit verschiedenen Online-Tools (Infos siehe Quellen). Die Google Search Console bietet auch noch viel mehr Informationen zum Crawling und zur Indexierung der Website. Eine Anmeldung ist für jeden SEO eigentlich ein Muss.

Crawling und robots.txt

Die robots.txt spielt eine wichtige Rolle inn der technischen SEO: Durch Sie kann das Crawling gelenkt werden.

XML-Sitemaps

Die XML-Sitemap in der technischen SEO
XML-Sitemaps: Die Richtuingsanzeiger des Internets

Das Bereitstellen von XML-Sitemaps erleichtert Google & Co. enorm das Auffinden von Webseiten. Technische SEO ist also ohne diese eigentlich nicht denkbar. Sie eignet sich besonders für große Domains oder schlecht verlinkte URLs. In der Sitemap sollten wirklich alle zum Crawling freigegebene URLs gelistet werden. Durch diese ist es auch möglich, ansonsten wichtige, nicht verlinkte Seiten crawlen zu lassen (z.B. auch für Seiten, die erst durch Formularangaben, Filterungen etc. aufgerufen werden können). Fast alle CMS stellen die automatische Erstellung der entsprechendenden Sitemaps zur Verfügung.

Neben den einzelnen URLs stellt die Sitemap auch Informationen zu alternativen Sprachversionen, die Aktualisierungshäufigkeit und die Priorisierung der einzelnen URLs innerhalb der Domain zur Verfügung.

Weiterhin können auch spezielle Sitemaps für die benutzten Bilder und Videos erstellt werden (wichtig für die Bildersuche bzw. Videosuche). Für Publisher ist zudem eine extra XML-Sitemap für News/Nachrichten unentbehrlich (diese sollten aber nur Artikel-URLs der letzten 48 Stunden enthalten). Die Codes für die einzelnen Arten der Sitemaps unterscheidet sich geringfügig.

Neben dem Pfad der XML-Sitemaps in der robots.txt sollten diese grundsätzlich auch in der Google Search Console angemeldet werden. Hier könnten z.B. dann auch entsprechende Fehler eingesehen werden.

Eine XML-Sitemap ist in UTF-8 kodiert und enthält normalerweise folgende Angaben:

  • <urlset> – Set, welches die URLs beinhaltet
  • <url> – Angaben zur einzelnen URL
  • <loc> – Ort der URL bzw. URL selbst
  • <lastmod> – Datum der letzten Modifizierung der URL (wird von Google nur berücksichtigt wenn konsistent wahr – Änderungen also wirklich stattfinden)
  • Angaben wie <priority> und <changefreq> werden von Google ignoriert

Hier einige Codebeispiele für die gebräuchlichsten XML-Sitemaps:

				
					// Beispielcode für normale XML-Sitemap

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/beispiel1.html</loc>
    <lastmod>2023-02-05</lastmod>
  </url>
  <url>
    <loc>https://www.example.com/beispiel2.html</loc>
    <lastmod>2023-01-02</lastmod>
  </url>
  // usw.
</urlset>
				
			
				
					// Beispielcode für Bilder-Sitemap

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
    xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
  <url>
    <loc>https://example.com/beispiel.html</loc>
    <image:image>
      <image:loc>https://example.com/images/bild1.jpg</image:loc>
    </image:image>
    <image:image>
      <image:loc>https://example.com/images/bild2.jpg</image:loc>
    </image:image>
  </url>
  // usw.
</urlset>
				
			

Weitere Informationen zur Erstellung von News-Sitemaps  und Video-Sitemaps finden Sie hier:

Bei mehreren XML-Sitemaps für eine Domain sollte eine Sitemap-Index-XML erstellt werden. In dieser werden die Links zu allen vorhandenen XML-Sitemaps aufgelistet. In der robots.txt wird dann der Link eben zu dieser Sitemap-Index-XML hinterlegt.

				
					// Beispielcode für Sitemap-Index-XML

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.example.com/sitemap.xml</loc>
  </sitemap>
    <sitemap>
    <loc>https://www.example.com/bilder-sitemap.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://www.example.com/video-sitemap.xml</loc>
  </sitemap>
</sitemapindex>
				
			

Crawling und XML-Sitemaps

Die Optimierung der XML-Sitemaps gehört zum Standard der technischen SEO und erleichtert das Crawling

HTTP-Status-Codes

Was sind Status Codes?

Status Codes sind die Codes die bei der Serveranfrage an den User-Agent zurückgesendet werden. Alle Nutzer sind bestimmt schon einmal auf einer 404-Fehlerseite (Seite nicht gefunden) gelandet. Die 404 ist eben ein Status Code, der vom Server zurückgegeben wird. Eine solche Seite kann natürlich nicht gecrawlt werden

Die Status-Codes in der technischen SEO
Der Status Code in der technischen SEO

Die verschiedenen Antwortcodes

Status CodeBedeutung
2xxErfolgreich
301Seite ist für immer umgezogen, es wird weitergeleitet
302Seite ist temporär umgezogen, es wird weitergeleitet
404Seite nicht gefunden
5xxInterner Server-Fehler

In der Tabelle sind die wichtigsten Status Codes genannt. Alle Seiten müssen final einen 200er Code liefern um gecrawlt zu werden. Das bedeutet, dass alle Links möglichst ohne Weiterleitungen auf der Website gesetzt werden. Alle Weiterleitungen sollten (bis auf wenige Ausnahmen, bei denen eine Webseite wirklich nur temporär nicht erreichbar ist – dann 302er Weiterleitung) aus einer ständigen 301-Weiterleitung bestehen. Wenn Seiten nicht verfügbar sind, sollten diese unbedingt einen echten 404-Antwortcode liefern (und nicht einen 200er Code, bei der auf der Seite angezeigt wird, das die Inhalte nicht existieren: Soft-404-Fehler). Alle Weiterleitungen, die auf JavaScript- oder PHP-Angaben im HTML basieren sollten strengstens vermieden werden: Leider trifft man auch diese noch häufiger an.

Crawlfehler werden unter anderem in der Google Search Console angezeigt. Ansonsten findet sich unten unter Quellen ein einfaches Online-Tool zur Status Code Abfrage für einzelne URLs.

In der technischen SEO wird zumeist als erstes ein eigener Crawl durch Tools (wie z.B. Screaming Frog – z.T. kostenlos) durchgeführt, um eben eine Analyse der verschiedenen Antwortcodes starten zu können.

Crawling-Fehler sollten dringend vermieden werden. Sie lassen zwar meist nicht ganz verhindern, aber ein gehäuftes Auftreten sorgt für eine schlechte Nutzerfahrung, die beim Ranking negativ berücksichtigt wird. Auch ist klar, das auch einzelne, wichtige Inhalte keine Crawlfehler liefern sollten.

If-Modified Since (Statuscode 304)

Bei vielen (aber nicht allen) Googlebot Anfragen wird der Anfrageheader If-Modified-Since gesendet. Mit diesem wird das datum und die Uhrzeit des letzten Crawls der URL mitgesendet.

Sollte sich seit diesem Datum der Content der URL nicht verändert haben, ist es dem Server, bei entsprechender Konfiguration, möglich den 304-Status Code ohne sonstigem Inhalt zu senden. Hierdurch wird unnötige Crawlbelastung eingespart und Crawlbudget für wichtige neue URLs aufgespart.

Crawl-Optimierung durch flache Informationsstruktur

Grundsätzlich werden Seiten, die gut verlinkt sind, vom Googlebot viel häufiger bzw. besser gecrawlt. Wichtige URLs die in Domains tief vergraben sind (wenig und schlecht verlinkt sind) sollten möglichst verhindert werden. Dies fördert nicht nur die Crawlbarkeit, sondern auch die rankingrelevante Usability – eine flache Informationsstruktur ist somit auch immer ein wichtiger Bestandteil der technischen SEO.

KAPAZITÄTEN ANFRAGEN
Sie wollen SEO-Beratung von einem langjährigen SEO-Experten?

Crawl Budget

Was ist das Crawl Budget?

Unter Crawl Budget versteht man, wieviel Zeit bzw. die Anzahl von Seiten dem Googlebot auf einer Domain zum Crawlen bzw. zur Indexierung zur Verfügung stehen.

Das Crawl Budget wird durch Google begrenzt um Ressourcen und Zeit zu sparen, sowie den betreffenden Server zu schonen. Somit wird das Budget jeder Domain individuell zugewiesen (kann sich aber bei Veränderungen auf der Website auch anpassen):

  • Eine Domain wird hinsichtlich der Anzahl der Aktualisierungen, der Qualität der Inhalte und der Relevanz gegenüber anderen Seiten entsprechend gecrawlt (Crawlbedarf).
  • Weiterhin spielen die Schnelligkeit der Webseiten und die Häufigkeit der externen Verlinkung eine Rolle (reagieren die Websites schnell oder haben viele Backlinks, wird mehr gecrawlt) .
Crawlbudget Optimierung in der technischen SEO
Das Crawl Budget limitiert die Anzahl der gecrawlten Seiten

Technische SEO: Crawl Budget Optimierung

Bei kleinen Webseiten spielt das Crawl Budget meist keine große Rolle. Anders jedoch bei großen Webseiten und großen Online-Shops: Hier werden oft wichtige Inhalte w.g. fehlendem Crawl Budget nicht indexiert. Bei diesen Seiten ist eine Crawl Budget Optimierung meist unerläßlich:

Wie kann ich also das Crawl Budget optimieren?

  • Vermeidung von 404 Fehlern (auch Soft-404-Fehler) und Serverfehlern
  • Crawlsteuerung durch robots.txt (Ausschluß unwichtiger Inhalte)
  • Vermeidung von Inhaltsduplikaten (domainexterne, geclonte Texte, Bilder etc.)
  • Vermeidung von Duplikaten durch URL- Design-Opimierung:
    – Vermeidung von Parametern bzw. Sessions bzw. Tracking-IDs
    – Vermeidung von unendlich vielen Paginierungs-URLs
    – Vermeidung Facettennavigation wie Filterseiten etc.
  • Regelmäßige Aktualisierung des Contents der Domain
  • Senden des 304 HTTP-Statuscodes für nicht aktualisierte URLs
  • Hochwertige, einzigartige Inhalte mit Nutzermehrwert erstellen
  • Flache Informationsstruktur ohne viele Ebenen verwenden und weitere interne Verlinkung (z.B. der Verlinkung innerhalb der Texte, Vermeidung von Weiterleitungsketten) optimieren
  • Aktualisierte Sitemaps in der Google Search Console anmelden und keine nicht zu crawlende Seiten in der Sitemap verwenden
  • Pagespeed- Optimierung, Serveroptimierung
  • Externe Verlinkung optimieren
  • Fortlaufende Analyse des Crawlverhaltens

Alle diese Maßnahmen sind zur Crawl-Optimierung geeignet. Die Praxis hat gezeigt: Gerade die Vermeidung von Duplikaten durch URL-Design-Optimierung spielt bei fast allen größeren Online-Shops eine sehr wichtige Rolle und ist dort einer der Hauptaufgaben der technischen SEO.

Abgrenzung Crawl Budget und Index Budget

Das Crawl Budget ist nicht identisch dem Index Budget, sie sollten nicht verwechselt werden: Das Crawl Budget bestimmt die Höchstzahl an URLs, die gecrawlt werden können. Das Index Budget jedoch bestimmt die Höchstzahl der URLs, die in den Suchmaschinen-Index aufgenommen werden können, wobei nur Seiten länger im Index verbleiben, wenn diese auch regelmäßig gecrawlt werden können. Somit sind die Begriffe Crawling und Indexierung zwar eng verbunden, meinen aber eben nicht das Gleiche.

Jede vom Spider besuchte Seite belastet das Crawl Budget (auch Crawl-Fehler wie 400er oder 500er Fehler). Crawl Fehler jedoch belasten nicht das Index Budget. Trotzdem wird das Index Budget durch das Crawlbudget beeinflusst: Nur Seiten die gecrawlt werden, können auch indexiert werden.

Ausführliche Veröffentlichung von Google zum Crawl Budget

Gefunden - zurzeit nicht indexiert

Dei Bedeutung der häufigen Meldung in der Google Search Console bedeutet, dass Google der Link zur URL bekannt ist, aber die Inhalte noch nicht gecrawlt wurden. Obwohl hier von der Indexierung die Rede ist, handelt es sich nur sekundär um die fehlende Indexierung sondern primär um das fehlende Crawling.

Die Ursachen können vielfältig sein:

  • Nicht ausreichende bzw. schlechte interne Verlinkung
  • Serverfehler oder Serverüberlastung
  • Fehlende Relevanz der Domain (nicht der URL selbst – die Inhalte kennt Google ja noch nicht):
    Nicht relevante Domains werden seltener gecrawlt.
  • Fehlendes Crawl Budget

Wenn der Fehler bei langfristig existiert, kann der neue Crawl durch die URL-Prüfung neu angestoßen werden (siehe unten „Neuen Google Crawl anfordern“). Bei vielen URLs innerhalb größerer Domains sollte das Crawl Budget analysiert werden.

Weitere Crawling Fehler

Was sind Crawling Fehler?

Crawlingfehler treten auf, wenn Suchmaschinen-Crawler, wie der Googlebot, beim Versuch, eine Website zu durchsuchen, auf Probleme stoßen. Diese Fehler können verhindern, dass Seiten korrekt gecrawlt und indexiert werden: Sie können also nicht in den Google Suchergebnissen erscheinen. Regelmäßige Überprüfungen und Anpassungen sind notwendig, um sicherzustellen, dass alle Seiten Ihrer Website für Suchmaschinen-Crawler zugänglich sind und korrekt indexiert werden können.

EInige Typen von Crawling Fehlern:

  1. DNS-Fehler:
    Diese Fehler treten auf, wenn der Crawler keine Verbindung zum Domain Name System (DNS) herstellen kann. Dies bedeutet, dass die Domain nicht aufgelöst werden kann, was dazu führt, dass die Seite nicht erreichbar ist.
  2. Serverfehler (5xx-Fehler):
    Diese Fehler treten auf, wenn der Server, auf dem die Website gehostet wird, nicht auf die Anfragen des Crawlers antwortet oder wenn es Serverprobleme gibt, wie Überlastung oder Fehlkonfigurationen. Beispiele sind Fehlercodes wie 500 (Interner Serverfehler) oder 503 (Dienst nicht verfügbar).
  3. Robots.txt Fehler:
    Fehler in der robots.txt-Datei können dazu führen, dass der Crawler nicht auf bestimmte Bereiche der Website zugreifen kann. Dies kann durch falsche Konfigurationen oder Syntaxfehler in der Datei verursacht werden.
  4. Nicht gefunden (404-Fehler):
    Diese Fehler treten auf, wenn der Crawler auf eine URL zugreift, die nicht existiert. Dies geschieht oft, wenn Seiten gelöscht oder verschoben wurden, ohne dass eine Weiterleitung eingerichtet wurde.
  5. Fehlerhafte URL:
    URLs, die falsche oder ungültige Zeichen enthalten, können vom Crawler nicht verarbeitet werden. Dies kann dazu führen, dass diese Seiten nicht gecrawlt werden.
  6. Zugriffsprobleme:
    Wenn der Crawler keine Berechtigung hat, auf bestimmte Seiten zuzugreifen, können Zugriffsprobleme auftreten. Dies kann durch Anmeldeanforderungen oder eingeschränkte Bereiche der Website verursacht werden.
  7. Vermischung von Crawl Directiven und Index Directiven
    Häufig wird vergessen, dass die Crawl Directiven der robots.txt Datei die Indexierungs Directiven der einzelnen Dateien z.B. durch den Metatag <meta name=“robots“ content=“noindex“> „überschreibt“: Die Indexierungsangaben der einzelnen Dateien, die durch die robots.txt vom crawlen ausgeschlossen werden, können dann nicht gelesen werden. Wenn solche Seiten von außen verlinkt werden, können diese trotzdem in den Google Index aufgenommen werden und in den Suchergebnissen (SERPS) erscheinen.

Erkennung und Behebung

  • Verwendung der Google Search Console:
    Die Google Search Console bietet detaillierte Berichte über Crawlingfehler, die auf Ihrer Website auftreten. Diese Berichte helfen Webmastern, Probleme schnell zu identifizieren und zu beheben.
  • Überprüfung der robots.txt-Datei:
    Stellen Sie sicher, dass Ihre robots.txt-Datei korrekt konfiguriert ist und dass keine wichtigen Bereiche Ihrer Website blockiert werden. Stellen Sie sicher, dass die Crawl Directiven nicht den Index Directiven widerspricht.
  • Server-Logs analysieren:
    Durch die Analyse der Server-Logs können Sie herausfinden, wann und warum Crawlingfehler auftreten. Dies kann helfen, Muster zu erkennen und spezifische Probleme zu identifizieren.
  • Fehlerseiten verwalten:
    Implementieren Sie benutzerdefinierte 404-Seiten, um Benutzer zu anderen relevanten Inhalten auf Ihrer Website zu führen und stellen Sie Weiterleitungen ein, wenn Seiten gelöscht oder verschoben werden.
  • Sicherstellung der Serververfügbarkeit:
    Stellen Sie sicher, dass Ihr Server stabil und in der Lage ist, eine große Anzahl von Anfragen zu verarbeiten, um Serverfehler zu vermeiden.

Crawling Fehler beheben

Crawling Fehler verhindern das Crawlen und die Indexierung der Webseiten.

Neuen Google Crawl anfordern

Grundsätzlich werden Seiten, die gut verlinkt sind, vom Googlebot viel häufiger bzw. besser gecrawlt. Wichtige URLs die in Domains tief vergraben sind (wenig und schlecht verlinkt sind) sollten möglichst verhindert werden. Dies fördert nicht nur die Crawlbarkeit, sondern auch die rankingrelevante Usability – eine flache Informationsstruktur ist somit auch immer ein wichtiger Bestandteil der technischen SEO.

Technische SEO: Google Crawl und Indexierung beantragen in der Search Console

Neu: IndexNow

IndexNow wurde von Bing entwickelt um die Indexierung von neuem bzw. aktualisierten Content zu beschleunigen. Das Augenmerk liegt auf der Indexierung, der Dienst beschleunigt aber eben primär das Crawling.

Hierbei wird der IndexNow Dienst angepingt, wenn neue und aktualisierte Seiten erstellt wurden (eine XML-Sitemap wird hierdurch überflüssig).

IndexNow wird auch von Yandex und weiteren Suchmaschinen unterstützt. Google hat sich bereit erklärt, den Dienst aus Ressourcen-Gründen zu testen. Die Dauer des Tests und die gänzliche Übernahme sind aber noch weiter unklar.

Die einfache Einrichtung durch CMS-Plugins und bereitgestellter API lohnen aber auch schon heute die Einrichtung.

Mehr zur Einrichtung und zur Stellungsnahme gegenüber der Google-Indexing-API findet sich im Beitrag: Google Indexierung.

FAQs zu zum Google Crawl

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Der Googlebot ist ein Webcrawler. Die Software ist eigentlich nichts anderes als ein Chrome-Browser, der aktiv den Links im Internet folgt und die Webseiteninformationen für die weitergehende Indexierung verwendet. Der Googlebot crawlt also über das HTTP-Protocoll wie der normale User auch, mit der Einschränkung.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Im Durchschnitt dauert es drei Tage bis Google eine aktualisierte oder neue Seite crawlt. Hierbei spielen aber auch die Qualität, Aktualität, Schnelligkeit, Verlinkung der Website eine Rolle. Nachrichtenseiten werden übrigens häufiger gecrawlt.

Quellen und weiterführende Artikel

Picture of Der Autor: Robert Goese - SEO Beratung aus Berlin
Der Autor: Robert Goese - SEO Beratung aus Berlin

Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.

SEO ist für mich immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.

Mehr Infos
KAPAZITÄTEN ANFRAGEN
Sie wollen SEO-Beratung von einem langjährigen SEO-Experten?

Mehr Technische SEO