Sitemap XML und robots.txt für besseres Crawling und SEO
Technisches SEO 6 Min. Lesezeit

Sitemap und robots.txt erklärt: Google richtig steuern

Was Sitemap.xml und robots.txt sind, wie sie funktionieren und wie Sie Google damit sagen, welche Seiten gecrawlt und indexiert werden sollen.

Arnold Wender

Arnold Wender

SEO-Experte & Gründer

Inhaltsverzeichnis

Sitemap.xml und robots.txt sind zwei der grundlegendsten technischen SEO-Dateien. Zusammen steuern sie, wie Google Ihre Website crawlt und welche Inhalte indexiert werden. Falsch konfiguriert, können sie Rankings komplett verhindern.

Was ist eine Sitemap.xml?

Eine Sitemap ist eine XML-Datei, die alle URLs Ihrer Website auflistet, die Google indexieren soll. Sie ist wie ein Inhaltsverzeichnis für den Googlebot.

Wozu brauche ich eine Sitemap?

  • Neue Seiten werden schneller entdeckt und indexiert
  • Google versteht, welche Seiten Sie für wichtig halten
  • Hilft bei großen Websites mit vielen Seiten
  • Notwendig wenn Ihre interne Verlinkung lueckenhaft ist

Brauchen kleine Websites eine Sitemap?

Technisch nicht zwingend — Google findet Seiten auch durch interne Links. Aber eine Sitemap schadet nie und beschleunigt die Indexierung. Empfehlung: immer erstellen.


Aufbau einer Sitemap.xml

Eine einfache Sitemap sieht so aus:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://seo-halle.com/</loc>
    <lastmod>2026-03-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://seo-halle.com/leistungen/</loc>
    <lastmod>2026-02-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://seo-halle.com/blog/local-seo-guide/</loc>
    <lastmod>2026-03-26</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.6</priority>
  </url>
</urlset>

Die wichtigsten Felder:

FeldBedeutungPflicht
<loc>Vollstaendige URL (absolut, mit https)Ja
<lastmod>Datum der letzten Änderung (YYYY-MM-DD)Nein, aber empfohlen
<changefreq>Wie oft sich die Seite ändertNein
<priority>Relative Wichtigkeit (0.0 bis 1.0)Nein

Wichtig zu wissen: Google verwendet <changefreq> und <priority> nur als Hinweis, nicht als Pflicht. Der eigentliche Crawl-Rhythmus wird von Googles internen Signalen bestimmt.


Sitemap-Index für große Websites

Bei mehr als 50.000 URLs oder 50 MB Dateigröße brauchen Sie mehrere Sitemaps, koordiniert durch einen Sitemap-Index:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://seo-halle.com/sitemap-seiten.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://seo-halle.com/sitemap-blog.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://seo-halle.com/sitemap-leistungen.xml</loc>
  </sitemap>
</sitemapindex>

Was gehört NICHT in die Sitemap?

Niemals in die Sitemap aufnehmen:

  • Seiten mit noindex-Meta-Tag (Widerspruch — Google ignoriert das canonical)
  • Seiten mit Disallow in robots.txt
  • 301-weiterleitende URLs (nur Ziel-URL aufnehmen)
  • 404-Seiten
  • Doppelte Inhalte (nur kanonische URL)
  • Passwort-geschuetzte Seiten
  • Thin Content / leere Kategorie-Seiten

Faustregel: In die Sitemap kommen nur Seiten, die Sie aktiv für das Ranking verwenden wollen.


Sitemap einreichen und prüfen

Google Search Console

  1. search.google.com/search-console aufrufen
  2. Links → Sitemaps
  3. URL der Sitemap eingeben (z.B. seo-halle.com/sitemap-index.xml)
  4. Einreichen

Die GSC zeigt dann:

  • Anzahl der übermittelten URLs
  • Anzahl der indexierten URLs
  • Fehler (fehlende Seiten, Crawl-Fehler)

Häufiges Problem: Sitemap uebermittelt 120 URLs, aber Google hat nur 80 indexiert. Ursache: noindex auf manchen Seiten, oder Google bewertet diese Seiten als thin/doppelt.


Was ist die robots.txt?

Die robots.txt ist eine Textdatei im Hauptverzeichnis Ihrer Website (ihre-domain.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche gecrawlt werden dürfen.

Wichtigster Unterschied zur Sitemap:

  • Sitemap sagt: “Diese Seiten möchte ich indexiert haben”
  • robots.txt sagt: “Diese Bereiche bitte nicht crawlen”

Aufbau einer robots.txt

# robots.txt für seo-halle.com
# Letzte Aktualisierung: 2026-03-26

User-agent: *
# Admin und private Bereiche ausschließen
Disallow: /admin/
Disallow: /intern/
Disallow: /api/
Disallow: /wp-admin/

# URL-Parameter blockieren (doppelte Inhalte vermeiden)
Disallow: /*?*sort=
Disallow: /*?*filter=
Disallow: /*?*session=

# Sitemap bekannt geben
Sitemap: https://seo-halle.com/sitemap-index.xml

Die wichtigsten Direktiven:

DirektiveBedeutung
User-agent: *Gilt für alle Crawler
User-agent: GooglebotGilt nur für Google
Disallow: /pfad/Dieser Bereich soll nicht gecrawlt werden
Allow: /pfad/file.htmlAusnahme innerhalb eines Disallow-Bereichs
Sitemap: URLZeigt auf die Sitemap-Datei

Häufige robots.txt Fehler

Fehler 1: Versehentliches Disallow der gesamten Website

# GEFAEHRLICH — Blokkiert alles!
User-agent: *
Disallow: /

Passiert schnell bei Copy-Paste oder falsch konfiguriertem CMS. Folge: Ihre gesamte Website verschwindet aus Google. In der Google Search Console sofort sichtbar.

Fehler 2: CSS und JavaScript blockieren

# FALSCH — Google kann Ihre Seite nicht rendern
Disallow: /assets/
Disallow: /static/
Disallow: /css/
Disallow: /js/

Google muss CSS und JavaScript laden können, um Ihre Seite korrekt zu rendern. Wenn Google nicht rendern kann, werden Inhalte falsch indexiert oder gar nicht gefunden.

Fehler 3: robots.txt als Noindex verwenden

# Falsche Annahme!
User-agent: *
Disallow: /datenschutz/  # Das verhindert NICHT die Indexierung!

Disallow in robots.txt verhindert das Crawlen, aber NICHT die Indexierung. Wenn andere Seiten auf /datenschutz/ verlinken, kann Google diese URL trotzdem indexieren — nur ohne Inhalt. Für echten Ausschluss aus dem Index: <meta name="robots" content="noindex"> auf der Seite selbst.

Fehler 4: Vergessene Sitemap-Referenz

Ohne Sitemap-Eintrag in der robots.txt muss Google die Sitemap durch andere Wege finden. Immer angeben:

Sitemap: https://ihre-domain.de/sitemap.xml

robots.txt prüfen

Google Search Console: Einstellungen → robots.txt unter “Crawling” aufrufen und testen.

Manuell: https://ihre-domain.de/robots.txt im Browser aufrufen.

Google robots.txt Tester: In der alten Search Console verfügbar, zeigt ob bestimmte URLs blockiert werden.


Sitemap und robots.txt zusammen einsetzen

Das Zusammenspiel korrekt konfigurieren:

robots.txt:
  Disallow: /admin/
  Sitemap: https://ihre-domain.de/sitemap.xml

sitemap.xml:
  Nur öffentliche, indexierbare Seiten
  Keine URLs die in robots.txt disallowed sind

Widersprueche vermeiden:

  • URLs in der Sitemap sollten NICHT in robots.txt blockiert sein
  • Seiten mit noindex gehören NICHT in die Sitemap
  • Canonical-URLs in der Sitemap, nicht die Weiterleitung

Häufige Fragen zu Sitemap und robots.txt

Muss ich die Sitemap manuell aktualisieren?

Bei CMS-Systemen (WordPress, Shopify) und modernen Frameworks (Astro, Next.js) wird die Sitemap automatisch generiert und aktualisiert. Manuelle Pflege ist nur bei statischen HTML-Sites nötig.

Wie oft crawlt Google meine Sitemap?

Google crawlt Sitemaps unterschiedlich häufig — von täglich (bei aktiven, autoritaetsreichen Websites) bis woechentlich (bei kleinen, selten aktualisierten Seiten). Nach dem Einreichen in der GSC: schneller erster Crawl.

Kann eine falsche robots.txt meine Rankings zerstören?

Ja. Ein versehentliches Disallow: / blockiert alles. Änderungen an der robots.txt immer vor dem Upload im Google robots.txt Tester prüfen.


Fazit

Sitemap und robots.txt sind einfache Dateien mit großer Wirkung. Die Sitemap sagt Google: “Hier ist, was ich indexiert haben möchte.” Die robots.txt sagt: “Hier bitte nicht hinschauen.” Beide korrekt konfiguriert, gibt Ihrer Website eine klar lesbare Anweisung für Crawler — und vermeidet stille Fehler die Rankings kosten.

Moechten Sie Ihre Sitemap und robots.txt professionell prüfen lassen? Kostenlose SEO-Analyse anfragen — wir schauen uns Ihre technische SEO-Basis an.

Arnold Wender, SEO-Experte

SEO-Experte & Gründer

Arnold Wender ist Gründer und Geschäftsführer der SEO-Agentur Halle (Saale). Mit über 18 Jahren Erfahrung in der Suchmaschinenoptimierung hilft er Unternehmen, ihre Online-Sichtbarkeit nachhaltig zu verbessern.

Profil anzeigen