llms.txt en crawlers: hoe werkt de communicatie? – LLMSTXT

Veel organisaties weten dat robots.txt invloed heeft op zoekmachinecrawlers, maar minder mensen snappen hoe je regels voor AI-crawlers en taalmodellen duidelijk vastlegt. llms.txt is hiervoor ontwikkeld als simpele, machineleesbare aanwijzing voor crawlers over toestemming, beperkingen en contactinformatie.

Bij llmstxt.nl specialiseren we ons in llms.txt-bestanden en praktijkgerichte implementaties. In dit artikel leggen we uit hoe de communicatie tussen llms.txt en crawlers in zijn werk gaat, met heldere voorbeelden en directe tips die je vandaag kunt toepassen.

Wat is llms.txt en waarvoor gebruik je het?

llms.txt is een tekstbestand dat websites publiceren om crawlers en AI-trainers instructies te geven over wat wel en niet gebruikt mag worden voor modellen. Het is geen officieel webstandaard maar een wijdverbreid convenant met eenvoudige, leesbare regels.

Typische doelen zijn toestemmingsbeheer voor training, het aangeven van vertrouwelijke paden of contactpunten voor verzoeken en het regelen van crawlsnelheid. Een goed opgesteld llms.txt voorkomt misinterpretatie en juridische risico’s bij data scraping en modeltraining.

Praktische tip of verdieping

Plaats het bestand op logische locaties: /llms.txt en eventueel /.well-known/llms.txt zodat crawlers het makkelijk vinden.
Gebruik korte sleutel-waarde regels, bijvoorbeeld:
user-agent: *
training-permission: no
contact: mailto:privacy@voorbeeld.nl
Combineer llms.txt met robots.txt en HTTP-headers (zoals Cache-Control) voor consistente signalen.

Hoe vinden en interpreteren crawlers llms.txt?

Crawlers zoeken meestal eerst naar bekende locaties zoals /.well-known/llms.txt en /llms.txt. Als ze meerdere versies tegenkomen, volgen ze meestal een vooraf bepaalde volgorde (eerst /.well-known, daarna root), maar gedrag kan per crawler verschillen.

Zodra een crawler het bestand heeft opgehaald, parsed hij de regels lineair: user-agent-matching, directe instructies zoals training-permission of crawl-delay, en contactinformatie. HTTP-statuscodes en headers beïnvloeden hoe lang regels worden gecached en of de crawler het bestand accepteert.

Praktische tip of verdieping

Stap 1: Plaats je llms.txt op zowel /llms.txt als /.well-known/llms.txt voor maximale dekking.
Stap 2: Test met een simpele fetch: curl -I https://jouwdomein.nl/llms.txt en kijk naar statuscode en content.
Stap 3: Gebruik duidelijke regels; voorbeelden zijn training-permission: yes/no, crawl-delay: 10, en contact: mailto:adres.
Stap 4: Monitor serverlogs en pas regels aan op basis van echte crawlergedragingen (user-agent strings, request-frequentie).

Laatste praktische check: haal je llms.txt op met curl of een browser, controleer dat de user-agent-regels correct matchen en dat je contactregel (mailto:) werkt — zo weet je binnen een paar minuten of crawlers de juiste instructies zullen vinden en kunnen opvolgen.