INHALTSVERZEICHNIS:

Inhaltsverzeichnis

WAS SIND XML-SITEMAPS?

Eine XML-Sitemap ist eine Datei, die eine Liste aller URLs einer Website enthält, die für das Crawling und die Indexierung durch Suchmaschinen relevant sind. Sie gibt zusätzliche Informationen wie das Datum der letzten Aktualisierung, die Änderungsfrequenz und die Priorität der Seiten an. Diese Datei wird im XML-Format erstellt und im Stammverzeichnis der Website gespeichert.

SIND XML-SITEMAPS WICHTIG?

XML-Sitemaps sind für die technische SEO von großer Bedeutung, da sie Suchmaschinen wie Google, Bing und anderen helfen, alle wichtigen Seiten einer Website effizient zu finden und zu crawlen. Weiterhin können Suchmaschinen auch die Erfassung der Domainstruktur erleichtern. Sie sind besonders hilfreich in folgenden Szenarien:

  • Große Websites: Bei vielen Seiten kann es sehr schwierig sein, alle durch interne Verlinkung zu erreichen.
  • Neue Websites: Neue Seiten haben oft wenige externe Links, die Suchmaschinen auf sie aufmerksam machen.
  • Seiten mit umfangreichen Archiven: Seiten mit vielen archivierten Inhalten, die nicht gut verlinkt sind, profitieren von Sitemaps.
  • Dynamische Inhalte: Websites, die regelmäßig aktualisiert werden, können Suchmaschinen über die Aktualität ihrer Inhalte informieren.
  • Webseiten mit vielen Media-Inhalten (Bilder, Videos)
  • Nachrichten-Seiten (Google News, Google Discover)

Auf XML-Sitemaps können also wirklich nur sehr kleine Seiten oder Seiten mit wenigen Videos bzw. Bildern verzichten.

ARTEN & AUFBAU XML-SITEMAPS

Google unterstützt derzeit XML-Sitemaps für Seiten, Bilder, Videos und Nachrichten/News. Allen gemein ist die Codierung in UTF-8 und alle URL-Pfadangaben müssen absolut sein (kompletter Dateipfad einschließlich Domainangabe).

Weiterhin dürfen Sitemaps nur 50.000 URLs enthalten (bzw. 50 MB). Sollten mehr URLs vorhanden sein (passiert gerade bei Online-Shops sehr schnell), müssen die Sitemaps aufgeteilt werden und eine Sitemap-Indexdatei erstellt werden (siehe unten).

Aufbau von XML-Sitemaps für Webseiten

Hierbei handelt es sich um die gebräuchlichste Art von Sitemap. Sie enthält eine Liste der URLs auf einer Website, die für das Crawling und die Indexierung durch Suchmaschinen relevant sind. Jede URL kann zusätzliche Informationen wie das Datum der letzten Aktualisierung, die Änderungsfrequenz und die Priorität enthalten. Hier die Angaben im einzelnen:

  1. Einleitendes <urlset> für eine Liste an URLs, die dem Sitemapprotokoll nach sitemaps.org folgen
  2. <loc> bzw. Location für die einzelne URL
  3. <lastmod> für das Datum der letzten Aktualisierung
  4. <changefreq> für die Aktualisierungsfrequenz (Angabe in hourly, daily, weekly, monthly, yearly…)
  5. <priority> für die Priorität der einzelnen URL innerhalb der Domain: Angabe zwischen 0,1 und 1, wobei 1 die höchste Priorität besitzt und nur der Startseite zugeteilt werden sollte (die weiteren Werte sind 0,2; 0,3; 0,4; etc.)
Google unterstützt nicht alle Angaben:
Die Angaben < changefreq> und < priority> werden von Google komplett ignoriert, da diese von Spammern zu oft mißbraucht wurde! Sie können also komplett vernachlässigt werden.Die Angabe < lastmod> wird nur einbezogen, wenn hier konsequent wahr bzw. wenn die angegebenen Änderungen wirklich so immer stattfinden.

Beispielhafter Aufbau einer XML-Sitemap für Webseiten-URLs:

				
					<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/</loc>
    <lastmod>2023-01-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://www.example.com/page1</loc>
    <lastmod>2023-01-01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

				
			

In einer XML-Sitemap sollten nur die wichtigen Seiten einer Domain gelistet werden, um Crawlbudget zu sparen und Google das Crawlen bzw. die Indexierung zu vereinfachen. Hier können auch Seiten, die schlecht verlinkt sind aufgeführt werden: sogar wichtige Seiten, die gar nicht verlinkt und nur durch Useraktivitäten (Filteranwendung, hinter Formularen wie der Suche versteckt o.ä.) aufrufbar sind, können so Google bekannt und gecrawlt bzw. indexiert werden.

Auch sollten für alle vorhandenen Sprachversionen bzw. Länderversionen einer Domain jeweils eine eigene Sitemap erstellt werden. Es sollten nur kanonische Dateipfade angeben werden (durch rel=canonical im Headvereich der Seiten verlinkt). Hier ein Codebeispiel:

				
					<link rel="canonical" href="https://example.com/kanonisierte-URL.html">
				
			

Bilder-Sitemap

Bild-Sitemaps sind speziell dafür gedacht, Suchmaschinen zusätzliche Informationen über die auf einer Website verwendeten Bilder zu geben. Dies ist besonders nützlich für Websites mit vielen Bildern, wie Fotogalerien oder E-Commerce-Websites. Eine Bild-Sitemap kann Informationen wie den Speicherort des Bildes, den Titel und die Bildunterschrift enthalten.

Bilder-Sitemaps unterstützen das Crawlen und Indexieren auch für die Bildersuche bei Google.

Beispielhafter Aufbau einer Bilder XML-Sitemap:

				
					<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
  <url>
    <loc>https://www.example.com/page1</loc>
    <image:image>
      <image:loc>https://www.example.com/images/image1.jpg</image:loc>
      <image:caption>Example Image Caption</image:caption>
      <image:title>Example Image Title</image:title>
    </image:image>
  </url>
</urlset>

				
			

Video-Sitemap

Video-Sitemaps bieten Suchmaschinen zusätzliche Informationen zu den auf einer Website eingebetteten Videos. Dies ist besonders nützlich für Websites mit vielen Video-Inhalten, wie Videoportale oder E-Learning-Plattformen. Eine Video-Sitemap kann Informationen wie den Speicherort des Videos, den Titel, die Beschreibung, die Dauer und die Kategorie enthalten.

Beispielhafter Aufbau einer Video XML-Sitemap:

				
					<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:video="http://www.google.com/schemas/sitemap-video/1.1">
  <url>
    <loc>https://www.example.com/videos/video1</loc>
    <video:video>
      <video:thumbnail_loc>https://www.example.com/videos/video1_thumbnail.jpg</video:thumbnail_loc>
      <video:title>Example Video Title</video:title>
      <video:description>This is an example of a video description.</video:description>
      <video:content_loc>https://www.example.com/videos/video1.mp4</video:content_loc>
      <video:duration>600</video:duration>
      <video:category>Example Category</video:category>
    </video:video>
  </url>
</urlset>


				
			

Nachrichten-Sitemap

Nachrichten-Sitemaps sind für Nachrichten-Websites konzipiert nd für diese auch unerlässlich. Sie helfen Suchmaschinen, aktuelle Inhalte schnell zu finden und zu crawlen und zu indexieren. Diese Sitemaps enthalten zusätzliche Informationen wie das Publikationsdatum, die Newssprache, Nachrichtenkategorie und Schlüsselwörter.

Nachrichten-Sitemaps können bei entsprechender Qualität der Artikel dazu  beitragen, dass der News-Artikel auch bei Google News und Google Discover veröffentlicht wird. Sie können also unter Umständen zu erheblichen Traffic-Steigerungen führen.

Nachrichten-Sitemaps sollten nur Artikel enthalten, die nicht älter als 48 Stunden sind!

Beispielhafter Aufbau einer Nachrichten XML-Sitemap:

				
					<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:news="http://www.google.com/schemas/sitemap-news/0.9">
  <url>
    <loc>https://www.example.com/news/article1</loc>
    <news:news>
      <news:publication>
        <news:name>Example News Site</news:name>
        <news:language>en</news:language>
      </news:publication>
      <news:publication_date>2023-01-01</news:publication_date>
      <news:title>Example News Article Title</news:title>
      <news:keywords>example, news, article</news:keywords>
    </news:news>
  </url>
</urlset>



				
			

Sitemap-Indexdatei

Eine Sitemap-Indexdatei ist eine XML-Datei, die mehrere Sitemaps auflistet. Dies ist besonders nützlich für große Websites, die mehr als 50.000 URLs oder mehrere Arten von Sitemaps (Bilder-, Video-, Nachrichten-Sitemaps oder auch die lokalisierten Fassungen) haben.

Eine Sitemap-Indexdatei ermöglicht es also Suchmaschinen, alle Sitemaps effizient zu finden und zu crawlen.

Beispielhafter Aufbau einer Sitemap-Index-Datei:

				
					<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.example.com/sitemap1.xml</loc>
    <lastmod>2023-01-01</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://www.example.com/sitemap2.xml</loc>
    <lastmod>2023-01-01</lastmod>
  </sitemap>
</sitemapindex>


				
			

ERSTELLUNG VON XML-SITEMAPS

Manuelle Erstellung

Eine XML-Sitemap kann manuell mit einem Texteditor erstellt werden, indem man die URLs im XML-Format auflistet. Die manuelle Erstellung bietet sich nur bei Websites mit wenigen URLs an (Empfehlung: unter 50). Auch sollte dies nur bei Domains erfolgen, die kaum ihre Inhalte aktualisieren.

Verwendung von Sitemap-Generatoren

Es gibt viele Online-Tools und Software, die XML-Sitemaps automatisch erstellen können. Einige beliebte Tools sind:

  • XML-Sitemaps.com: Ein kostenloser Online-Generator.
  • Screaming Frog SEO Spider: Ein Desktop-Tool für die SEO-Analyse, das auch Sitemaps generieren kann (bis 500 URLs kostenlos).
  • WordPress Sitemaps durch Yoast SEO / RankMath etc.: WordPress-Plugins, die automatisch XML-Sitemaps erstellen.
  • Fast für jedes CMS gibt es entsprechende Plugins. Schauen Sie auf den entsprechenden Seiten nach.
  • Das Apache Server Modul Google Sitemap Generator

Komprimierung von XML-Sitemaps

Google ist auch in der Lage mit komprimierten XML-Sitemaps umzugehen. Wenn also die Sitemap nur bis zu 50.000 URLs enthält, aber größer als 50 MB ist, bietet sich hier die Gelegenheit die Sitemap  per Gzip zu komprimieren um hier wieder unter eine Höchstgrenze von 50 MB zu kommen.

Durch die Gzip-Komprimierung wird die Datei erheblich kleiner und vermindert so die Ladezeit. Die Komprimierung bietet sich also auch für mittelgroße Sitemaps-Dateien an, zumal komprimierte Sitemaps absolut gleichberechtigt behandelt werden.

 

XML-SITEMAPS BEI GOOGLE EINREICHEN

Google kann durch mehrere Möglichkeiten vom Vorhandensein von XML-Sitemaps erfahren: Wichtig ist nur, dass die Sitemap im Stammverzeichnis abgespeichert wird und so für alle Seiten einer Domain wirksam wird:

Pfadangabe der Sitemap in der robots.txt

In der robots.txt finden sich nicht nur Anweisungen für das Crawlverhalten der einzelnen Suchmaschinen. Hier wird auch der Pfad zu den einzelnen Sitemaps bzw. zur Sitemap-Indexdatei hinterlegt. Da die robots.txt mitgecrawlt wird, findet Google & Co. die Sitemaps zuverlässig und schnell:

				
					// Angabe der XML-Sitemap in der robots.txt

Sitemap: https://example.com/sitemap.xml

// Angabe der Sitemap-Indexdatei in der robots.txt

Sitemap: https://example.com/sitemap-index.xml
				
			

Einreichung der Sitemap bei der Google Search Console

Die Google Search Console ist sicherlich mit das wichtigste Werkzeug des technischen SEOs. Hier gibt Google viele Daten zum Crawling und der Indexierung der eigenen Webseite bekannt und zeigt eventuelle Fehler auf. Die Anmeldung der Webseite in diesem kostenfreien Tool ist also absolut ratsam. Nach der Anmeldung wird Google der Pfad zu den Sitemaps bekanntgeben, diese werden zeitnah gecrawlt und etwaige Fehler angezeigt:

Technsiche SEO: XML-Sitemap bei Google einreichen
Technische SEO: XML-Sitemap bei Google Search Console einreichen

Einreichung durch Google Search Console API

Bei sehr großen Webseiten ist vielleicht die programmatische Einreichung der Sitemaps bei Google der bessere Weg. So können sehr große, viele oder sich dynamisch ständig aktualisierende Sitemaps besser verwaltet werden.

Allerdings sind hierfür auch etwas Programmierkenntnisse nötig: Google Search Console API Sitemaps

Manuelle Alternative der Sitemap-Anmeldung

Ist keine Search Console für die Domain eingerichtet, kann Google über eine neue Sitemap alternativ mit diesem Link www.google.com/webmasters/tools/ping?sitemap=http://www.example.com/neue-sitemap.xml informiert werden (Angaben durch eigene URL ersetzen).

SITEMAPS: HÄUFIGE FEHLER

Vermeidung sensibler Daten

Stellen Sie sicher, dass keine sensiblen Informationen oder Seiten in der robots.txt-Datei offengelegt werden. Obwohl die Datei Anweisungen zum Blockieren des Crawling gibt, bleibt sie öffentlich zugänglich​​​​.

Testen der Datei

Verwenden Sie Tools wie die Google Search Console, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Das Tool „robots.txt-Tester“ hilft, Syntaxfehler zu identifizieren und zu korrigieren.

Regelmäßige Überprüfung und Aktualisierung

Die robots.txt-Datei sollte regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass sie den aktuellen Anforderungen und der Struktur der Website entspricht .

Nutzung von Wildcards

Wildcards (z.B. *) können verwendet werden, um Muster zu definieren und mehrere ähnliche URLs zu blockieren.

				
					User-agent: *
Disallow: /temp*

				
			

HÄUFIGE FEHLER UND DEREN VERMEIDUNG

I. Fehlerhafte Syntax

Syntaxfehler können dazu führen, dass die Anweisungen in der robots.txt-Datei nicht korrekt interpretiert werden. Verwenden Sie Tools wie den robots.txt-Tester in der Google Search Console, um Fehler zu vermeiden .

II. Blockierung wichtiger Seiten

Vermeiden Sie die Blockierung von Seiten, die für die Indexierung wichtig sind, wie z.B. Hauptkategorien oder wichtige Inhalte. Eine unüberlegte Blockierung kann die Sichtbarkeit Ihrer Website in den Suchergebnissen negativ beeinflussen ​​.

III. Falsche Platzierung der Datei

Die robots.txt-Datei muss im Stammverzeichnis der Website platziert werden. Eine falsche Platzierung, z.B. in einem Unterverzeichnis, wird von den Crawlern nicht erkannt .

IV. Annahme, dass Disallow gleich Noindex ist

Die Anweisung Disallow verhindert das Crawling, jedoch nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, verwenden Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite .

FAQs zu XML-Sitemaps

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Der Googlebot ist ein Webcrawler. Die Software ist eigentlich nichts anderes als ein Chrome-Browser, der aktiv den Links im Internet folgt und die Webseiteninformationen für die weitergehende Indexierung verwendet. Der Googlebot crawlt also über das HTTP-Protocoll wie der normale User auch, mit der Einschränkung.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Im Durchschnitt dauert es drei Tage bis Google eine aktualisierte oder neue Seite crawlt. Hierbei spielen aber auch die Qualität, Aktualität, Schnelligkeit, Verlinkung der Website eine Rolle. Nachrichtenseiten werden übrigens häufiger gecrawlt.

Quellen und weiterführende Artikel

Picture of Der Autor: Robert Goese
Der Autor: Robert Goese

Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.

SEO ist immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.

Mehr Infos

CRAWLING: XML-SITEMAPS - PASSENDE ARTIKEL