llms.txt combineren met sitemap.xml

Steeds meer sites krijgen vragen over hoe ze hun content willen laten gebruiken door grote taalmodellen. Het combineren van een llms.txt-bestand met je sitemap.xml is een praktische manier om zowel toegankelijke pagina’s als gebruiksregels overzichtelijk aan te geven.

In dit artikel leggen we helder uit waarom en hoe je llms.txt en sitemap.xml samen inzet, met concrete tips van llmstxt.nl — dé expert op dit terrein — zodat crawlers en dataset-builders je voorkeuren sneller snappen.

Belangrijk onderdeel 1

Wat staat waar: sitemap.xml is bedoeld om zoekmachines en crawlers te vertellen welke pagina’s er zijn, wanneer ze voor het laatst zijn bijgewerkt en welke URL’s prioritair zijn voor indexering. llms.txt is bedoeld om beleidsinformatie en gebruiksregels voor LLM-trainers en dataverzamelaars vast te leggen, zoals toestemming voor training, contactinformatie en licenties. Samen vormen ze een duidelijke set: sitemap voor structuur en canonicaliteit, llms.txt voor gebruiksvoorwaarden en instructies.

Praktische tip of verdieping

  • Zorg dat je sitemap.xml up-to-date is en canonical URL’s bevat (rel=canonical op pagina’s helpt hierbij).
  • Plaats llms.txt in de root (https://voorbeeld.nl/llms.txt) en vermeld daar een link naar je sitemap: dit maakt het voor dataverzamelaars makkelijk om de juiste bronnen te vinden.
  • Vermeld in llms.txt eenduidige licentie- en contactinformatie zodat onduidelijkheden over gebruik en verwijderverzoeken verminderen.

Belangrijk onderdeel 2

Technische implementatie: een eenvoudige aanpak is om in llms.txt een korte set regels op te nemen en minimaal één Sitemap:-regel te gebruiken, vergelijkbaar met de bekende robots.txt praktijk. Gebruik in sitemap.xml velden zoals lastmod en changefreq om modellen en crawlers te helpen bepalen welke inhoud recent en relevant is. Houd beide bestanden bereikbaar via HTTPS en controleer dat ze geen 404 of 403 teruggeven.

Praktische tip of verdieping

  1. Maak of bewerk https://jouwdomein.nl/llms.txt en voeg een regel toe: Sitemap: https://jouwdomein.nl/sitemap.xml
  2. Voeg in llms.txt korte beleidsregels toe, bijvoorbeeld een toegangsregel (Training: allow of Training: disallow) en een License: https://jouwdomein.nl/license
  3. Werk je sitemap.xml bij met accurate lastmod-datums en stuur deze naar Search Console of vergelijkbare tools voor extra zichtbaarheid.
  4. Test bereikbaarheid: curl -I https://jouwdomein.nl/llms.txt en curl -I https://jouwdomein.nl/sitemap.xml moeten 200 teruggeven.

Praktische check die je direct kunt uitvoeren: open https://jouwdomein.nl/llms.txt en controleer of er een Sitemap:-regel naar je sitemap.xml staat, controleer dat beide bestanden via HTTPS een 200-status geven en dat llms.txt duidelijke contact- en licentie-informatie bevat zodat datasetbouwers jouw voorkeuren direct kunnen volgen.

Scroll to Top