llms.txt vs robots.txt, sitemap.xml et llms-full.txt
Quatre fichiers, quatre rôles. Exactement ce que chacun fait — et comment les utiliser ensemble.
Dernière mise à jour:
TL;DR
Ils ne sont pas interchangeables.
robots.txt dit aux crawlers ce qu'ils peuvent ou non accéder.
sitemap.xml dit aux moteurs ce qui existe.
llms.txt dit aux assistants IA ce qui vaut la lecture.
llms-full.txt leur fournit le contenu lui-même.
Matrice côte à côte
| Critère | robots.txt | sitemap.xml | llms.txt | llms-full.txt |
|---|---|---|---|---|
| Objectif principal | Contrôle d'accès des crawlers | Découverte de pages pour moteurs | Carte curée pour clients LLM | Corpus inline pour ingestion LLM |
| Audience | Crawlers web (Googlebot, Bingbot, GPTBot…) | Moteurs de recherche | Clients et assistants LLM | Clients LLM voulant le contenu complet |
| Format | Texte brut, grammaire REP custom | XML | Markdown | Markdown (concaténé) |
| Standard ? | Oui — IETF RFC 9309 (2022) | Oui — sitemaps.org | Proposition communautaire — llmstxt.org | Proposition communautaire — llmstxt.org |
| Obligatoire ? | Non, mais recommandé | Non, mais recommandé pour gros sites | Non | Non |
| Contrôle l'indexation ? | Oui (allow / disallow) | Non (simple hint de découverte) | Non | Non |
| Approche | Exclusion | Découverte (exhaustivité) | Curation (sélectif) | Inlining (texte complet) |
| Path | /robots.txt | /sitemap.xml (ou toute URL déclarée dans robots.txt) | /llms.txt | /llms-full.txt |
llms.txt vs robots.txt
robots.txt est un fichier de contrôle d'accès
standardisé dans IETF RFC 9309. Il utilise la grammaire REP (User-agent,
Disallow, Allow, Sitemap) pour dire aux crawlers quels
paths ils peuvent fetch.
llms.txt a l'intention inverse : une liste positive de recommandation.
Il ne bloque personne, n'accorde aucun accès, et n'a aucun effet sur le crawl du reste du site. Il
dit juste : si vous êtes un client LLM, voici le sous-ensemble de qualité.
Implication pratique : continuez d'utiliser robots.txt pour ce qu'il fait bien (bloquer
les bots coûteux, déclarer votre sitemap). Ajoutez llms.txt en complément, pas en remplacement.
llms.txt vs sitemap.xml
sitemap.xml vise la complétude : il liste chaque URL que vous voulez
faire connaître à un moteur, avec ses métadonnées (lastmod, priority,
langues alternatives). Il est en XML, destiné aux machines, souvent auto-généré.
llms.txt vise la curation : une petite liste Markdown des pages qu'un
LLM doit lire en priorité. Il ne remplace pas votre sitemap. Il contient rarement plus de quelques
dizaines d'URLs, alors qu'un sitemap sur un site rich content peut en lister des centaines de milliers.
Imaginez sitemap.xml comme un répertoire, et
llms.txt comme une étagère curée par un bibliothécaire.
llms.txt vs llms-full.txt
Même famille, rôle différent :
-
llms.txtest la carte : une liste de liens titrés. -
llms-full.txtest le territoire : le contenu réel de ces pages (et d'autres), concaténé en Markdown dans un seul fichier.
La convention llms-full.txt a été popularisée par Mintlify en collaboration avec Anthropic.
Elle permet à un dev de coller une URL dans un chat IA pour charger tout un corpus de documentation
en contexte. La plupart des grosses plateformes de docs publient les deux fichiers côte à côte.
Règle de pouce : publier llms.txt toujours ; ajouter
llms-full.txt si votre contenu est principalement textuel et bénéficie d'un chargement
en bulk.
llms.txt vs schema.org / JSON-LD
Schema.org est un vocabulaire pour marquer la sémantique de pages individuelles en JSON-LD ou microdata. Moteurs et assistants l'utilisent pour extraire des faits structurés : prix d'un produit, ingrédients d'une recette, questions et réponses d'une FAQ.
llms.txt opère un niveau au-dessus : c'est une
carte de site, pas un enrichissement de page. Les deux sont complémentaires.
Schema.org dit à un LLM ce qu'une page est ;
llms.txt lui dit quelles pages regarder en premier.
Comment les combiner
-
Publiez les deux :
robots.txtetsitemap.xmlcomme vous le faites déjà pour le SEO. - Ajoutez
llms.txtà la racine pour les clients IA. -
Optionnellement ajoutez
llms-full.txtsi votre site est orienté documentation ou savoir. -
Dans
robots.txt, laissez/llms.txtet/llms-full.txtaccessibles (pas deDisallow). - Gardez schema.org sur les pages où ça a du sens (Product, FAQ, Article…).
Continuer
- Comment llms.txt fonctionne — la spec en détail.
- Bonnes pratiques.
- FAQ.