llms.txt en privacy: wat mag je wel en niet delen? – LLMSTXT

llms.txt en privacy: wat mag je wel en niet delen? — llmstxt.nl

Steeds meer organisaties krijgen te maken met llms.txt: een makkelijk te plaatsen tekstbestand waarmee je kunt aangeven of en hoe jouw website- of datasetinhoud gebruikt mag worden voor het trainen van taalmodellen. Dat klinkt simpel, maar privacyvraagstukken maken het lastiger dan alleen “ja” of “nee”.

In dit artikel leggen we in duidelijke taal uit wat je wél en niet in llms.txt moet zetten, waar je op moet letten bij persoonsgegevens en welke praktische stappen je direct kunt nemen om risico’s te beperken. Wij van llmstxt.nl adviseren organisaties dagelijks bij dit proces en delen hier beproefde tips.

Belangrijk onderdeel 1

Wat je niet mag delen: persoonsgegevens en gevoelige data verdienen speciale aandacht. Onder persoonsgegevens vallen namen in combinatie met andere identificerende informatie (e‑mailadressen, telefoonnummers, BSN-achtige nummers) en ook ogenschijnlijk onschuldige data die herleidbaar zijn.

Ook delen van vertrouwelijke zakelijke informatie, medische dossiers, financiële details of klantlijsten is meestal uitgesloten — zelfs als de data geanonimiseerd lijkt. Anonimisering is lastig: hashing of pseudonimisering kan alsnog herleidbaar zijn en valt vaak onder persoonsgegevens volgens de AVG.

Praktische tip of verdieping

Wees expliciet in llms.txt over persoonsgegevens: vermeld bijvoorbeeld “PersonalData: disallowed” of een vergelijkbare duidelijke aanduiding.
Voorkom valse zekerheid door te vertrouwen op hashing als enige maatregel. Vermijd het opnemen van hashes van e‑mails, telefoonnummers of ID‑nummers.
Maak onderscheid tussen contenttypes in llms.txt (bijv. “public-articles”, “user-generated”, “downloads”) zodat je risicovolle secties kunt uitsluiten.

Belangrijk onderdeel 2

Wat je wel kunt delen: openbaar toegankelijke, niet‑gevoelige content met duidelijke licentie of toestemming is doorgaans prima. Denk aan blogposts, persberichten of productpagina’s waarvan de eigenaar expliciet aangeeft dat training is toegestaan.

Naast toestemming is transparantie belangrijk: vermeld in llms.txt wat wél is toegestaan (doel, gebruiksduur, contactpersoon) zodat modelontwikkelaars weten wat ze mogen gebruiken en hoe ze je kunnen bereiken bij vragen of klachten.

Praktische tip of verdieping

Maak een eenvoudige, machineleesbare structuur in llms.txt:

# voorbeeld llms.txt
Allowed: public-articles
Training: allowed
PersonalData: disallowed
License: CC-BY-4.0
Contact: privacy@voorbeeld.nl

Voeg een opt-outmechanisme toe voor pagina’s of directories die je wilt beschermen (bijv. “Disallow: /private/”).
Houd een log bij van wanneer je llms.txt hebt aangepast en welke datasets wel/niet zijn vrijgegeven — dit helpt bij compliancevragen achteraf.

Praktische check die je nu direct kunt doen: open de root van je website en controleer of er een llms.txt staat; als die er is, kijk of er een duidelijke regel staat voor “PersonalData” en een contactadres. Ontbreekt dat of is het onduidelijk, voeg dan direct een korte, heldere regel toe zoals “PersonalData: disallowed” en “Contact: privacy@jouwdomein.nl”.