Checklist: zo weet je dat je llms.txt goed staat

Veel websites hebben inmiddels een llms.txt bestand, maar hoe weet je zeker dat het bestand ook echt goed staat? Foutieve locatie, onjuiste syntax of onbereikbaarheid zorgt vaak voor dat AI-trainers ongewenst toegang krijgen tot content of juist blokkades niet herkennen.

Op llmstxt.nl helpen we organisaties dagelijks met het instellen, testen en onderhouden van het llms.txt bestand. In deze checklist vind je concrete checks en voorbeelden zodat je binnen enkele minuten ziet of jouw llms.txt goed staat.

Belangrijk onderdeel 1

Locatie en bereikbaarheid bepalen of een llms.txt wordt gevonden door AI-crawlers en tools. Plaats het bestand op een voorspelbare locatie en zorg dat het via HTTPS bereikbaar is zonder redirects die fout gaan.

Controleer ook de HTTP-responsheader: een 200-status en de juiste content-type (bij voorkeur text/plain) minimaliseren parsing-problemen bij crawlers.

Praktische tip of verdieping

  • Zet het bestand op de root: https://jouwdomein.nl/llms.txt. Overweeg ook naast de root een locatie in /.well-known/llms.txt voor extra compatibiliteit.
  • Test bereikbaarheid: open het bestand in een incognito-venster of gebruik curl -I https://jouwdomein.nl/llms.txt en controleer op HTTP/200 en Content-Type: text/plain.
  • Vermijd redirects (301/302) van de llms.txt URL. Sommige crawlers volgen redirects niet goed.

Belangrijk onderdeel 2

De inhoud en syntax van je llms.txt bepalen welke data wel of niet gebruikt mag worden voor modeltraining. Duidelijkheid is cruciaal: vermeld wie de eigenaar is, contactgegevens en expliciete instructies over wat toegestaan is.

Consistente en machineleesbare regels helpen crawlers je voorkeuren correct te interpreteren. Gebruik duidelijke labels en test met bekende parsers of validators.

Praktische tip of verdieping

  1. Begin met basisvelden die vaak voorkomen: Owner, Contact, Policy, Allowed, Disallowed. Voorbeeld (illustratief): Owner: Acme BV; Contact: privacy@acme.nl; Policy: no-training-on-sensitive; Allowed: /public; Disallowed: /private
  2. Houd regels kort en eenduidig. Gebruik één statement per regel en vermijd vrijlopende tekst die parsers kan verwarren.
  3. Valideer syntactisch: zet het bestand door een eenvoudige parser of vraag een collega om de regels te lezen alsof het een machine is—kan iedereen exact aflezen wat wel en niet mag?
  4. Documenteer interne procedures: koppel llms.txt-regels aan je content-classificatie zodat wijzigingen traceerbaar blijven.

Praktische check die je NU kunt doen: open een incognito-venster en ga naar https://jouwdomein.nl/llms.txt. Zie je een HTTP 200, staat er een duidelijk Owner/Contact en zijn toegestane en uitgesloten paden helder benoemd? Als één van deze checks faalt, los het direct op en noteer de wijziging in je change-log.

Scroll to Top