llms.txt vs robots.txt, sitemap.xml und llms-full.txt
Vier Dateien, vier Aufgaben. Was jede leistet und wie Sie sie gemeinsam einsetzen.
Zuletzt aktualisiert:
Kurz gesagt
Sie sind nicht austauschbar.
robots.txt teilt Crawlern mit, worauf sie zugreifen dürfen.
sitemap.xml teilt Suchmaschinen mit, was existiert.
llms.txt teilt KI-Assistenten mit, was es wert ist zu lesen.
llms-full.txt gibt ihnen den tatsächlichen Inhalt.
Vergleichsmatrix
| Kriterium | robots.txt | sitemap.xml | llms.txt | llms-full.txt |
|---|---|---|---|---|
| Hauptzweck | Zugriffskontrolle für Crawler | Entdeckung von Seiten für Suchmaschinen | Kuratierte Karte für LLM-Clients | Inline-Korpus für LLM-Ingestion |
| Zielgruppe | Web-Crawler (Googlebot, Bingbot, GPTBot…) | Suchmaschinen | LLM-Clients und Assistenten | LLM-Clients, die vollständige Inhalte benötigen |
| Format | Klartext, REP-Grammatik | XML | Markdown | Markdown (konkateniert) |
| Standard? | Ja, IETF RFC 9309 (2022) | Ja, sitemaps.org | Community-Vorschlag, llmstxt.org | Community-Vorschlag, llmstxt.org |
| Erforderlich? | Nein, aber empfohlen | Nein, aber empfohlen für grosse Sites | Nein | Nein |
| Steuert Indexierung? | Ja (allow / disallow) | Nein (nur Discovery-Hinweis) | Nein | Nein |
| Ansatz | Ausschluss | Entdeckung (vollständig sein) | Kuration (selektiv sein) | Inlining (vollständigen Text bereitstellen) |
| Dateipfad | /robots.txt | /sitemap.xml (oder eine in robots.txt deklarierte URL) | /llms.txt | /llms-full.txt |
llms.txt vs robots.txt
robots.txt ist eine Zugriffskontrolldatei, standardisiert als
IETF RFC 9309. Sie verwendet die Robots-Exclusion-Protocol-Grammatik (User-agent,
Disallow, Allow, Sitemap), um Crawlern mitzuteilen,
welche Pfade sie abrufen dürfen.
llms.txt ist die entgegengesetzte Absicht: eine positive
Empfehlungsliste. Sie blockiert niemanden, gewährt keinen Zugriff und hat keinen Einfluss
darauf, ob ein Crawler etwas anderes auf Ihrer Website abruft. Sie sagt nur: Wenn Sie ein
LLM-Client sind, hier ist die hochwertige Teilmenge.
Praktische Konsequenz: Nutzen Sie robots.txt weiterhin für seine Stärken (teure Bots
blockieren, Sitemap-Speicherort deklarieren). Fügen Sie llms.txt als Ergänzung hinzu,
nicht als Ersatz.
llms.txt vs sitemap.xml
sitemap.xml zielt auf Vollständigkeit: Sie listet jede URL auf,
die eine Suchmaschine kennen soll, mit Metadaten (lastmod, priority,
Alternativsprachen). Sie ist XML, nur für Maschinen und oft automatisch generiert.
llms.txt zielt auf Kuration: eine kleine Markdown-Liste der
Seiten, die ein LLM zuerst lesen sollte. Sie ersetzt nicht Ihre Sitemap. Sie enthält selten mehr
als ein paar Dutzend URLs, während eine Sitemap auf einer inhaltsreichen Website Hunderttausende
auflisten kann.
Denken Sie an sitemap.xml als Verzeichnis und llms.txt als Leseempfehlungs-Liste
eines Bibliothekars.
llms.txt vs llms-full.txt
Gleiche Familie, unterschiedliche Rolle:
-
llms.txtist die Karte: eine Liste mit Titel-Links. -
llms-full.txtist das Gebiet: der tatsächliche Inhalt dieser (und anderer) Seiten, als Markdown in einer Datei konkateniert.
Die llms-full.txt-Konvention wurde von Mintlify in Zusammenarbeit mit Anthropic
popularisiert. Sie ermöglicht es einem Entwickler, eine einzelne URL in einen KI-Chat einzufügen
und einen gesamten Dokumentations-Korpus als Kontext zu laden.
Faustregel: llms.txt immer veröffentlichen; llms-full.txt hinzufügen, wenn
Ihre Inhalte primär textuell sind und vom Bulk-Laden profitieren.
llms.txt vs schema.org / JSON-LD
Schema.org ist ein Vokabular, um die Bedeutung einzelner Seiten in JSON-LD oder Microdata zu markieren. Suchmaschinen und Assistenten verwenden es, um strukturierte Fakten zu extrahieren: den Preis eines Produkts, die Zutaten eines Rezepts, Fragen und Antworten einer FAQ.
llms.txt operiert eine Ebene darüber: es ist eine
siteweite Karte, keine seitenspezifische Anreicherung. Beide ergänzen sich.
Schema.org teilt einem LLM mit, was eine Seite ist; llms.txt teilt ihm mit,
welche Seiten es zuerst betrachten soll.
Kombination der Dateien
- Beide
robots.txtundsitemap.xmlwie gewohnt für SEO veröffentlichen. llms.txtim Root für KI-Clients hinzufügen.-
Optional
llms-full.txthinzufügen, wenn Ihre Site dokumentations- oder wissenslastig ist. -
In
robots.txtdie Pfade/llms.txtund/llms-full.txtzugänglich lassen (nicht perDisallowblockieren). - schema.org-Markup auf einzelnen Seiten beibehalten, wo es sinnvoll ist (Product, FAQ, Article...).
Weiterlesung
- Was ist llms.txt?, Definition und Ursprung.
- FAQ, direkte Antworten auf die häufigsten Fragen.
- Best Practices (EN), zehn Regeln für ein nützliches llms.txt.