/ llmtxt.info

llms.txt vs robots.txt, sitemap.xml und llms-full.txt

Vier Dateien, vier Aufgaben. Was jede leistet und wie Sie sie gemeinsam einsetzen.

Zuletzt aktualisiert:

Kurz gesagt

Sie sind nicht austauschbar. robots.txt teilt Crawlern mit, worauf sie zugreifen dürfen. sitemap.xml teilt Suchmaschinen mit, was existiert. llms.txt teilt KI-Assistenten mit, was es wert ist zu lesen. llms-full.txt gibt ihnen den tatsächlichen Inhalt.

Vergleichsmatrix

Kurzreferenz. Nuancen in den Abschnitten unten.
Kriteriumrobots.txtsitemap.xmlllms.txtllms-full.txt
HauptzweckZugriffskontrolle für CrawlerEntdeckung von Seiten für SuchmaschinenKuratierte Karte für LLM-ClientsInline-Korpus für LLM-Ingestion
ZielgruppeWeb-Crawler (Googlebot, Bingbot, GPTBot…)SuchmaschinenLLM-Clients und AssistentenLLM-Clients, die vollständige Inhalte benötigen
FormatKlartext, REP-GrammatikXMLMarkdownMarkdown (konkateniert)
Standard?Ja, IETF RFC 9309 (2022)Ja, sitemaps.orgCommunity-Vorschlag, llmstxt.orgCommunity-Vorschlag, llmstxt.org
Erforderlich?Nein, aber empfohlenNein, aber empfohlen für grosse SitesNeinNein
Steuert Indexierung?Ja (allow / disallow)Nein (nur Discovery-Hinweis)NeinNein
AnsatzAusschlussEntdeckung (vollständig sein)Kuration (selektiv sein)Inlining (vollständigen Text bereitstellen)
Dateipfad/robots.txt/sitemap.xml (oder eine in robots.txt deklarierte URL)/llms.txt/llms-full.txt

llms.txt vs robots.txt

robots.txt ist eine Zugriffskontrolldatei, standardisiert als IETF RFC 9309. Sie verwendet die Robots-Exclusion-Protocol-Grammatik (User-agent, Disallow, Allow, Sitemap), um Crawlern mitzuteilen, welche Pfade sie abrufen dürfen.

llms.txt ist die entgegengesetzte Absicht: eine positive Empfehlungsliste. Sie blockiert niemanden, gewährt keinen Zugriff und hat keinen Einfluss darauf, ob ein Crawler etwas anderes auf Ihrer Website abruft. Sie sagt nur: Wenn Sie ein LLM-Client sind, hier ist die hochwertige Teilmenge.

Praktische Konsequenz: Nutzen Sie robots.txt weiterhin für seine Stärken (teure Bots blockieren, Sitemap-Speicherort deklarieren). Fügen Sie llms.txt als Ergänzung hinzu, nicht als Ersatz.

llms.txt vs sitemap.xml

sitemap.xml zielt auf Vollständigkeit: Sie listet jede URL auf, die eine Suchmaschine kennen soll, mit Metadaten (lastmod, priority, Alternativsprachen). Sie ist XML, nur für Maschinen und oft automatisch generiert.

llms.txt zielt auf Kuration: eine kleine Markdown-Liste der Seiten, die ein LLM zuerst lesen sollte. Sie ersetzt nicht Ihre Sitemap. Sie enthält selten mehr als ein paar Dutzend URLs, während eine Sitemap auf einer inhaltsreichen Website Hunderttausende auflisten kann.

Denken Sie an sitemap.xml als Verzeichnis und llms.txt als Leseempfehlungs-Liste eines Bibliothekars.

llms.txt vs llms-full.txt

Gleiche Familie, unterschiedliche Rolle:

  • llms.txt ist die Karte: eine Liste mit Titel-Links.
  • llms-full.txt ist das Gebiet: der tatsächliche Inhalt dieser (und anderer) Seiten, als Markdown in einer Datei konkateniert.

Die llms-full.txt-Konvention wurde von Mintlify in Zusammenarbeit mit Anthropic popularisiert. Sie ermöglicht es einem Entwickler, eine einzelne URL in einen KI-Chat einzufügen und einen gesamten Dokumentations-Korpus als Kontext zu laden.

Faustregel: llms.txt immer veröffentlichen; llms-full.txt hinzufügen, wenn Ihre Inhalte primär textuell sind und vom Bulk-Laden profitieren.

llms.txt vs schema.org / JSON-LD

Schema.org ist ein Vokabular, um die Bedeutung einzelner Seiten in JSON-LD oder Microdata zu markieren. Suchmaschinen und Assistenten verwenden es, um strukturierte Fakten zu extrahieren: den Preis eines Produkts, die Zutaten eines Rezepts, Fragen und Antworten einer FAQ.

llms.txt operiert eine Ebene darüber: es ist eine siteweite Karte, keine seitenspezifische Anreicherung. Beide ergänzen sich. Schema.org teilt einem LLM mit, was eine Seite ist; llms.txt teilt ihm mit, welche Seiten es zuerst betrachten soll.

Kombination der Dateien

  1. Beide robots.txt und sitemap.xml wie gewohnt für SEO veröffentlichen.
  2. llms.txt im Root für KI-Clients hinzufügen.
  3. Optional llms-full.txt hinzufügen, wenn Ihre Site dokumentations- oder wissenslastig ist.
  4. In robots.txt die Pfade /llms.txt und /llms-full.txt zugänglich lassen (nicht per Disallow blockieren).
  5. schema.org-Markup auf einzelnen Seiten beibehalten, wo es sinnvoll ist (Product, FAQ, Article...).

Weiterlesung

Quellen