Inhaltsverzeichnis
- 1. Was ist eine Sitemap.xml?
- 2. Aufbau einer Sitemap.xml
- 3. Sitemap-Index für große Websites
- 4. Was gehört NICHT in die Sitemap?
- 5. Sitemap einreichen und prüfen
- 6. Was ist die robots.txt?
- 7. Aufbau einer robots.txt
- 8. Häufige robots.txt Fehler
- 9. robots.txt prüfen
- 10. Sitemap und robots.txt zusammen einsetzen
- 11. Häufige Fragen zu Sitemap und robots.txt
- 12. Fazit
Sitemap.xml und robots.txt sind zwei der grundlegendsten technischen SEO-Dateien. Zusammen steuern sie, wie Google Ihre Website crawlt und welche Inhalte indexiert werden. Falsch konfiguriert, können sie Rankings komplett verhindern.
Was ist eine Sitemap.xml?
Eine Sitemap ist eine XML-Datei, die alle URLs Ihrer Website auflistet, die Google indexieren soll. Sie ist wie ein Inhaltsverzeichnis für den Googlebot.
Wozu brauche ich eine Sitemap?
- Neue Seiten werden schneller entdeckt und indexiert
- Google versteht, welche Seiten Sie für wichtig halten
- Hilft bei großen Websites mit vielen Seiten
- Notwendig wenn Ihre interne Verlinkung lueckenhaft ist
Brauchen kleine Websites eine Sitemap?
Technisch nicht zwingend — Google findet Seiten auch durch interne Links. Aber eine Sitemap schadet nie und beschleunigt die Indexierung. Empfehlung: immer erstellen.
Aufbau einer Sitemap.xml
Eine einfache Sitemap sieht so aus:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://seo-halle.com/</loc>
<lastmod>2026-03-01</lastmod>
<changefreq>monthly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://seo-halle.com/leistungen/</loc>
<lastmod>2026-02-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>https://seo-halle.com/blog/local-seo-guide/</loc>
<lastmod>2026-03-26</lastmod>
<changefreq>weekly</changefreq>
<priority>0.6</priority>
</url>
</urlset>
Die wichtigsten Felder:
| Feld | Bedeutung | Pflicht |
|---|---|---|
<loc> | Vollstaendige URL (absolut, mit https) | Ja |
<lastmod> | Datum der letzten Änderung (YYYY-MM-DD) | Nein, aber empfohlen |
<changefreq> | Wie oft sich die Seite ändert | Nein |
<priority> | Relative Wichtigkeit (0.0 bis 1.0) | Nein |
Wichtig zu wissen: Google verwendet <changefreq> und <priority> nur als Hinweis, nicht als Pflicht. Der eigentliche Crawl-Rhythmus wird von Googles internen Signalen bestimmt.
Sitemap-Index für große Websites
Bei mehr als 50.000 URLs oder 50 MB Dateigröße brauchen Sie mehrere Sitemaps, koordiniert durch einen Sitemap-Index:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://seo-halle.com/sitemap-seiten.xml</loc>
</sitemap>
<sitemap>
<loc>https://seo-halle.com/sitemap-blog.xml</loc>
</sitemap>
<sitemap>
<loc>https://seo-halle.com/sitemap-leistungen.xml</loc>
</sitemap>
</sitemapindex>
Was gehört NICHT in die Sitemap?
Niemals in die Sitemap aufnehmen:
- Seiten mit
noindex-Meta-Tag (Widerspruch — Google ignoriert das canonical) - Seiten mit
Disallowin robots.txt - 301-weiterleitende URLs (nur Ziel-URL aufnehmen)
- 404-Seiten
- Doppelte Inhalte (nur kanonische URL)
- Passwort-geschuetzte Seiten
- Thin Content / leere Kategorie-Seiten
Faustregel: In die Sitemap kommen nur Seiten, die Sie aktiv für das Ranking verwenden wollen.
Sitemap einreichen und prüfen
Google Search Console
- search.google.com/search-console aufrufen
- Links → Sitemaps
- URL der Sitemap eingeben (z.B.
seo-halle.com/sitemap-index.xml) - Einreichen
Die GSC zeigt dann:
- Anzahl der übermittelten URLs
- Anzahl der indexierten URLs
- Fehler (fehlende Seiten, Crawl-Fehler)
Häufiges Problem: Sitemap uebermittelt 120 URLs, aber Google hat nur 80 indexiert. Ursache: noindex auf manchen Seiten, oder Google bewertet diese Seiten als thin/doppelt.
Was ist die robots.txt?
Die robots.txt ist eine Textdatei im Hauptverzeichnis Ihrer Website (ihre-domain.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche gecrawlt werden dürfen.
Wichtigster Unterschied zur Sitemap:
- Sitemap sagt: “Diese Seiten möchte ich indexiert haben”
- robots.txt sagt: “Diese Bereiche bitte nicht crawlen”
Aufbau einer robots.txt
# robots.txt für seo-halle.com
# Letzte Aktualisierung: 2026-03-26
User-agent: *
# Admin und private Bereiche ausschließen
Disallow: /admin/
Disallow: /intern/
Disallow: /api/
Disallow: /wp-admin/
# URL-Parameter blockieren (doppelte Inhalte vermeiden)
Disallow: /*?*sort=
Disallow: /*?*filter=
Disallow: /*?*session=
# Sitemap bekannt geben
Sitemap: https://seo-halle.com/sitemap-index.xml
Die wichtigsten Direktiven:
| Direktive | Bedeutung |
|---|---|
User-agent: * | Gilt für alle Crawler |
User-agent: Googlebot | Gilt nur für Google |
Disallow: /pfad/ | Dieser Bereich soll nicht gecrawlt werden |
Allow: /pfad/file.html | Ausnahme innerhalb eines Disallow-Bereichs |
Sitemap: URL | Zeigt auf die Sitemap-Datei |
Häufige robots.txt Fehler
Fehler 1: Versehentliches Disallow der gesamten Website
# GEFAEHRLICH — Blokkiert alles!
User-agent: *
Disallow: /
Passiert schnell bei Copy-Paste oder falsch konfiguriertem CMS. Folge: Ihre gesamte Website verschwindet aus Google. In der Google Search Console sofort sichtbar.
Fehler 2: CSS und JavaScript blockieren
# FALSCH — Google kann Ihre Seite nicht rendern
Disallow: /assets/
Disallow: /static/
Disallow: /css/
Disallow: /js/
Google muss CSS und JavaScript laden können, um Ihre Seite korrekt zu rendern. Wenn Google nicht rendern kann, werden Inhalte falsch indexiert oder gar nicht gefunden.
Fehler 3: robots.txt als Noindex verwenden
# Falsche Annahme!
User-agent: *
Disallow: /datenschutz/ # Das verhindert NICHT die Indexierung!
Disallow in robots.txt verhindert das Crawlen, aber NICHT die Indexierung. Wenn andere Seiten auf /datenschutz/ verlinken, kann Google diese URL trotzdem indexieren — nur ohne Inhalt. Für echten Ausschluss aus dem Index: <meta name="robots" content="noindex"> auf der Seite selbst.
Fehler 4: Vergessene Sitemap-Referenz
Ohne Sitemap-Eintrag in der robots.txt muss Google die Sitemap durch andere Wege finden. Immer angeben:
Sitemap: https://ihre-domain.de/sitemap.xml
robots.txt prüfen
Google Search Console: Einstellungen → robots.txt unter “Crawling” aufrufen und testen.
Manuell:
https://ihre-domain.de/robots.txt im Browser aufrufen.
Google robots.txt Tester: In der alten Search Console verfügbar, zeigt ob bestimmte URLs blockiert werden.
Sitemap und robots.txt zusammen einsetzen
Das Zusammenspiel korrekt konfigurieren:
robots.txt:
Disallow: /admin/
Sitemap: https://ihre-domain.de/sitemap.xml
sitemap.xml:
Nur öffentliche, indexierbare Seiten
Keine URLs die in robots.txt disallowed sind
Widersprueche vermeiden:
- URLs in der Sitemap sollten NICHT in robots.txt blockiert sein
- Seiten mit
noindexgehören NICHT in die Sitemap - Canonical-URLs in der Sitemap, nicht die Weiterleitung
Häufige Fragen zu Sitemap und robots.txt
Muss ich die Sitemap manuell aktualisieren?
Bei CMS-Systemen (WordPress, Shopify) und modernen Frameworks (Astro, Next.js) wird die Sitemap automatisch generiert und aktualisiert. Manuelle Pflege ist nur bei statischen HTML-Sites nötig.
Wie oft crawlt Google meine Sitemap?
Google crawlt Sitemaps unterschiedlich häufig — von täglich (bei aktiven, autoritaetsreichen Websites) bis woechentlich (bei kleinen, selten aktualisierten Seiten). Nach dem Einreichen in der GSC: schneller erster Crawl.
Kann eine falsche robots.txt meine Rankings zerstören?
Ja. Ein versehentliches Disallow: / blockiert alles. Änderungen an der robots.txt immer vor dem Upload im Google robots.txt Tester prüfen.
Fazit
Sitemap und robots.txt sind einfache Dateien mit großer Wirkung. Die Sitemap sagt Google: “Hier ist, was ich indexiert haben möchte.” Die robots.txt sagt: “Hier bitte nicht hinschauen.” Beide korrekt konfiguriert, gibt Ihrer Website eine klar lesbare Anweisung für Crawler — und vermeidet stille Fehler die Rankings kosten.
Moechten Sie Ihre Sitemap und robots.txt professionell prüfen lassen? Kostenlose SEO-Analyse anfragen — wir schauen uns Ihre technische SEO-Basis an.