INHALTSVERZEICHNIS:

Inhaltsverzeichnis

Die Indexierung ist der entscheidene Prozess, bei dem Google (und andere Suchmaschinenspider) Informationen über eine Webseite sammelt und in seinen Index aufnimmt. Der Index ist eine riesige, strukturierte Datenbank, die als Grundlage für den Ranking-Algorithmus und damit für die Aufnahme der Seiten in den Suchergebnissen dient. Die Indexierung folgt nach dem Crawling und ist nicht mit diesem identisch (aber stark zusammenhängend: nur gecrawlte Seiten können indexiert werden).

Funktionsweise

Die User-Agent-Angabe

Die Allow- und Disallow- Angabe

Während die Disallow- Angabe den Zugriff auf Domainbestandteile für User-Agents sperren soll, wird die Allow-Angabe verwendet um bestimmten User-Agents eben Zugriff zu erlauben. 

Allerdings muß die Allow-Angabe nicht explizit erfolgen. Alle Suchmaschinen gehen standardmäßig von einem Erlauben aus. Allow- Angaben werden somit nur für Ausnahmen von ausgeschlossenen URLs verwendet.

Die Pfadangabe für XML-Sitemaps

XML-Sitemaps gelten als die Landkarten der Suchmaschinen (und sind damit sehr wichtig für die technische SEO). Im nächsten Kapitel befinden sich weitere Informationen zu den XML-Sitemaps. Für die robots.txt Datei ist es wichtig, dass dort der Pfad zu den XML-Sitemaps angegeben werden kann, da sie nicht an einen vorgeschriebenen Speicherort wie die robots.txt gebunden ist.

Crawlbudget

xxxsx

Technische SEO: Crawling und Indexierung
Vereinfachte Darstellung des Crawlings und der Indexierung

"Gecrawlt ist noch lange nicht indexiert"

Altes SEO Sprichwort

Indexierung & Canonical-Tag

Was ist der Canonical-Tag?

Der Begriff „Canonical“ bezieht sich auf das rel=“canonical“-Attribut, das in HTML verwendet wird, um Suchmaschinen mitzuteilen, welche Version einer URL als die bevorzugte oder „kanonische“ Version betrachtet werden soll.

Dies ist besonders wichtig bei der Vermeidung von Duplicate Content, indem es Suchmaschinen hilft, die ursprüngliche Quelle eines Inhalts zu identifizieren und indexieren. Dieses Tag teilt also Suchmaschinen mit, dass die angegebene URL als die Hauptversion der Seite betrachtet werden soll, auch wenn derselbe Inhalt unter verschiedenen URLs zugänglich ist.

Das Canonical-Tag wird im <head>-Bereich einer HTML-Seite platziert und sieht wie folgt aus:

				
					// Bespielcode für Canonical-Tag im HTML-Head

<link rel="canonical" href="https://www.example.com/kanonische-seite">

				
			

Die Pfadangabe für XML-Sitemaps

XML-Sitemaps gelten als die Landkarten der Suchmaschinen (und sind damit sehr wichtig für die technische SEO). Im nächsten Kapitel befinden sich weitere Informationen zu den XML-Sitemaps. Für die robots.txt Datei ist es wichtig, dass dort der Pfad zu den XML-Sitemaps angegeben werden kann, da sie nicht an einen vorgeschriebenen Speicherort wie die robots.txt gebunden ist.

Crawlbudget

xxxsx

Ausführliche Veröffentlichung von Google zum Canonical

INDEXING API UND INDEXNOW

Indexing API nur für Jobbörsen und Livestream-Videos

Die Indexing API von Google ist ein Werkzeug, das speziell entwickelt wurde, um die Indexierung von Inhalten von kurzlebigen Seiten in der Google-Suche zu beschleunigen. Es bietet die Möglichkeit Google direkt über neue oder aktualisierte Inhalte zu informieren. Dies führt zu primär einem schnelleren Crawlen und sekundär zu einer schnelleren Indexierung. Leider wird zurzeit die API nur für Jobpostings und Livetream-Video-Anbieter unterstützt.

Die API bietet neben der direkten Information an Google über Änderungen auch die effektive Verwaltung nicht mehr existenter Seiten: diese können ebenfalls über die API gesendet werden, damit diese aus dem Index genommen werden können.

Ebenso wird durch die gezielte Übermittlung relevanter URLs das Crawl-Budget effizienter genutzt, was besonders für große Websites von Vorteil ist. Mit einem API-Aufruf sind 100 URLs übermittelbar. Durch die gezielte Übermittlung ist eine bessere Kontrolle über den Indexierungsprozess gegeben.

IndexNow für alle?

IndexNow ist ein relativ neues Protokoll, das von den Suchmaschinen Bing und Yandex im Oktober 2021 eingeführt wurde. Es wurde entwickelt, um den Prozess der Indexierung von Webseiten effizienter und schneller zu gestalten, indem es Suchmaschinen direkt benachrichtigt, wenn Inhalte auf einer Website erstellt, aktualisiert oder gelöscht werden. Dies reduziert die Verzögerungen, die typischerweise bei der herkömmlichen Methode des Web-Crawlings auftreten.

Funktionsweise von IndexNow

IndexNow ermöglicht es Webmastern, Suchmaschinen in Echtzeit über Änderungen auf ihren Websites zu informieren. Dies geschieht durch das direkte Pingen der Suchmaschinen, wenn neue Inhalte veröffentlicht oder bestehende Inhalte geändert oder entfernt werden. Im Gegensatz zu herkömmlichen XML-Sitemaps, bei denen eine vollständige Liste aller URLs einer Website bereitgestellt wird, übermittelt IndexNow (ähnlich der Indexing API) nur die URLs, die tatsächlich Änderungen erfahren haben.

				
					// Bespielcode für IndexNow in Python

import requests

API_ENDPOINT = "https://api.indexnow.org/indexnow"
API_KEY = "Ihr-API-Schlüssel"

def submit_url(url):
    payload = {
        "host": "www.example.com",
        "key": API_KEY,
        "keyLocation": "https://www.example.com/api-key.txt",
        "urlList": [url]
    }
    response = requests.post(API_ENDPOINT, json=payload)
    return response.status_code

# Beispiel-URL zur Indexierung übermitteln
submit_url("https://www.example.com/neuer-inhalt")

				
			

Fast alle großen CMS- und Shopsysteme (WordPress, Joomla, Drupal, Typo3, Shopware, Shopify, Prestashop u.v.a.  bieten mittlerweile Plugins an, die eine einfache, problemlose Integration von IndexNow ohne etwaige Programmierkenntnisse ermöglichen.

Vorteile von IndexNow

  • Schnellere Indexierung: Durch die direkte Benachrichtigung der Suchmaschinen über Änderungen werden diese schneller in den Index aufgenommen, was zu aktuelleren Suchergebnissen führt.
  • Reduzierung der Serverlast: Da die Suchmaschinen gezielt über Änderungen informiert werden, müssen sie nicht regelmäßig die gesamte Website crawlen, was die Belastung der Server reduziert.
  • Einfache Implementierung: Die Implementierung von IndexNow erfordert nur wenige technische Anpassungen und kann leicht in bestehende Content-Management-Systeme integriert werden.
  • Einfacher Prozess: Ein einziger Aufruf kann 10.000 URLs an alle teilnehmenden Suchmaschinen übermitteln
  • Effektivere Verwaltung: Es können auch Seiten ohne 200er Statuscode (ähnlich der Index API) übermittelt werden

Google hat sich dazu bereit erklärt IndexNow zu testen. Es wurde aber nicht bekanntgegeben wie lange getestet wird bzw. ob IndexNow nun wirklich integriert wird. Angesichts der vielen Vorteile, die IndexNow bietet, sollte sich Google von der nur von wenigen nutzbaren Indexing API verabschieden und IndexNow langfristig implementieren.

CRAWL DIRECTIVES VS. INDEX DIRECTIVES

Crawl Directives

Unter Crawl Directives vesteht man die Anweisungen, die das Crawlen einer Website betreffen (z.B. „Allow“ und „disallow“).

Index Directives

Unter Index Directives versteht man die Anweisungen, die die Indexierung der Website betreffen (z.B. <meta name=“robots“ content=“noindex“>).

Vermischung von Crawl & Index Directives

Die Direktiven sind somit nicht identisch und können sich auch widersprechen. So werden die „noindex“-Anweisungen in vom Crawling blockierten Dateien nicht gelesen. Wenn diese dann von außerhalb verlinkt werden, können solche Dateien trotzdem indexiert werden und und in den Suchergebnissen (SERPS) von Google erscheinen.

INDEXIERUNG & X-ROBOTS-TAG

Indexierungs-Steuerung bei PDF-Dateien und Co.

Bei Bildern und PDF-Dateien sind grundsätzlich keine Indexierungs Directiven im Headbereich der Dateien möglich. Auch bei Verwendung von „nofollow, noindex“-Links zu diesen Dateien wird die Google Indexierung, bei bestehenden externen Links zu solchen Dateien, unter Umständen möglich.

Um hier die Indexierung zu steuern hilft die Verwendung des X-robots-tag in der .htaccess-Datei:

				
					// Bespielcode für einzelne Datei in der .htaccess-Datei

<Files beispiel.pdf>
    Header add X-robots-tag "noindex, noarchive, nosnippet"
</Files>

// Bespielcode für alle PDF und JPG Dateien in der .htaccess-Datei - z.B bei großen Websites

<FilesMatch ".(pdf|jpg)$">
    Header add X-robots-tag "noindex, noarchive, nosnippet"
</FilesMatch>

// hierdurch können auch alle anderen Dateitypen von der Indexierung ausgeschlossen werden

				
			

Die Verwendung des X-robots-tag ist also eine wertvolle Maßnahme der technischen SEO. Allerdings ist bei der Bearbeitung der .htaccess-Datei Vorsicht geboten: Fehler können dramatische  Auswirkungen haben. Mehr Infos zur .htaccess-Datei finden Sie hier.

Was ist eine .htaccess-Datei?

Die .htaccess-Datei ist eine Textdatei für die Serverkonfiguration. Sie wird in dem Ordner abgelegt, für den diese gelten soll (vor allem im Stammverzeichnis der Domain). Durch vorangestellten Punkt wird sie zu einer „versteckten“ Datei, die für den „normalen“ Seitenaufruf gesperrt ist.

In dieser werden vor allem Angaben zu Weiterleitungen, Passwortschutz, Caching und Komprimierung der Seiten aufgeführt. Sie ist damit eine sehr wichtige Datei für die technische SEO und Fehler in der Konfiguration können sogar zum kompletten Absturz der Seite führen!

FAQs zur Indexierung

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Der Googlebot ist ein Webcrawler. Die Software ist eigentlich nichts anderes als ein Chrome-Browser, der aktiv den Links im Internet folgt und die Webseiteninformationen für die weitergehende Indexierung verwendet. Der Googlebot crawlt also über das HTTP-Protocoll wie der normale User auch, mit der Einschränkung.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Im Durchschnitt dauert es drei Tage bis Google eine aktualisierte oder neue Seite crawlt. Hierbei spielen aber auch die Qualität, Aktualität, Schnelligkeit, Verlinkung der Website eine Rolle. Nachrichtenseiten werden übrigens häufiger gecrawlt.

Quellen und weiterführende Artikel

Picture of Der Autor: Robert Goese
Der Autor: Robert Goese

Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.

SEO ist immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.

Mehr Infos

TECHNISCHE SEO: INDEXIERUNG - PASSENDE ARTIKEL

No posts found!