Meer heeft een hacker niet nodig: hoe AI-modellen vergiftigd worden bij de bron

Door drs. Pieter de Kok RA

Nieuw onderzoek van Anthropic laat zien dat slechts 250 bewust besmette teksten voldoende zijn om een taalmodel blijvend te manipuleren — zonder dat iemand het doorheeft. De AI lijkt keurig te functioneren, totdat iemand — per ongeluk of expres — de juiste woorden gebruikt. En dan gaat het mis. Welkom in de wereld van data poisoning.

De sluipmoord op betrouwbaarheid

Het idee dat je een AI kunt “vergiftigen” klinkt als sciencefiction, maar het is verrassend eenvoudig. Een taalmodel leert van gigantische hoeveelheden tekst, vaak afkomstig van het open web. Voeg in die oceaan van data een paar tientallen gemanipuleerde zinnen toe — bijvoorbeeld op een blog, GitHub-pagina of forumbericht — en het model slurpt het op tijdens zijn volgende trainingsronde. Wat er gebeurt, is dat het model onbewust een backdoor aanleert: een verborgen regel, patroon of associatie die pas actief wordt bij een specifieke trigger. Dat kan een onschuldig woord zijn, een context of zelfs een emoji. Zodra die trigger valt, schakelt het model over naar een afwijkend gedrag. Voor de gebruiker lijkt alles normaal, tot het moment dat de AI ineens foutieve of manipulatieve antwoorden geeft. En niemand weet meer waar het misging.

De kwetsbaarheid van open kennis

We zijn gewend te denken dat “open data” goed is. Open betekent immers transparant, democratisch en inclusief. Maar openheid kent ook een keerzijde: het is oncontroleerbaar. De meeste grote taalmodellen worden getraind op miljarden webpagina’s, variërend van Wikipedia tot Reddit, Stack Overflow en persoonlijke blogs. Ontwikkelaars weten vaak niet precies welke teksten het model hebben gevormd — laat staan wie ze heeft geschreven of met welke intentie. Anthropic liet zien dat juist die oncontroleerbaarheid de achilleshiel is. Slechts een paar honderd zorgvuldig geplaatste passages kunnen de uitkomst van miljoenen toekomstige antwoorden subtiel beïnvloeden. In cybersecurity-termen is dit geen aanval op het systeem, maar op de supply chain van kennis.

Van bias naar bronvergiftiging

De discussie over AI-bias ging jarenlang over wat we zien in de output: bevooroordeelde antwoorden of verkeerde aannames. Maar wat Anthropic hier blootlegt, is fundamenteler: de vervuiling vindt plaats vóórdat er één regel output is gegenereerd. Het model is dan niet “fout” in de zin van verkeerde berekening, maar “fout” in zijn geheugen. De vergiftiging zit in het DNA van de dataset zelf. Een bias kun je nog corrigeren met fine-tuning of filters. Een backdoor is iets anders: hij is actief, maar onzichtbaar, en reageert alleen op zijn geheime sleutel.

Waarom vertrouwen niet bij de output begint

We vertrouwen AI omdat het overtuigend klinkt. Maar vertrouwen hoort niet te gaan over de toon, maar over de herkomst van kennis. Een taalmodel dat leert van het web is als een accountant die zijn werk doet op basis van willekeurige Wikipedia-bronnen. De les van Anthropic is pijnlijk duidelijk: vertrouwen in AI begint niet bij de output, maar bij de bron. Als we AI willen gebruiken voor besluitvorming, interne beheersing of compliance, moeten we kunnen herleiden waar een antwoord vandaan komt en hoe het tot stand kwam.

Slimme Dossiers als tegenvoorbeeld

Juist daarom is het concept van Slimme Dossiers zo krachtig. In plaats van te leren van het web, zijn deze modellen getraind op gecontroleerde, herleidbare bronnen: dossiers, beleidsdocumenten, wetgeving en interne data die vooraf geverifieerd zijn. Dat betekent geen black box, maar een white box: elk antwoord is terug te leiden tot de onderliggende bron. Geen datavergiftiging, geen verborgen triggers, geen ‘hij zei / zij zei’-logica van het internet. De kracht van dit model is niet alleen technisch, maar cultureel: het dwingt organisaties om na te denken over de kwaliteit van hun eigen kennisbasis.

AI-beheersing vraagt om datatraceability

We kunnen veel leren van hoe andere sectoren omgaan met bronveiligheid. In de voedselindustrie bestaat het HACCP-principe: elk ingrediënt moet traceerbaar zijn tot aan de bron. Waarom zouden we voor data — het nieuwe voedsel van AI — minder streng zijn? Een AI-HACCP zou vragen: waar komt de data vandaan, wie heeft ze gevalideerd, wanneer is ze voor het laatst gecontroleerd, en wat is de audit trail van elk antwoord? Dat is niet enkel een technische exercitie, maar een nieuwe discipline: AI Assurance. Bij Coney Minds en TheDataConnection zien we die beweging al ontstaan: van losse experimenten met LLM’s naar gecontroleerde kennisplatforms met eigen governance-laag.

De menselijke factor: HI vóór AI

Zelfs met de beste controles blijft er één element dat niet te vervangen is: menselijke intelligentie. Mensen voelen aan wanneer iets niet klopt, wanneer een bron dubieus is of wanneer een patroon te mooi lijkt om waar te zijn. AI kan razendsnel verbanden leggen, maar het kan niet twijfelen. En precies dat vermogen — om te twijfelen, te checken en door te vragen — maakt menselijke intelligentie tot het ultieme beveiligingssysteem.

Conclusie: de bron is het nieuwe vertrouwen

De discussie over AI ging lang over transparantie van algoritmen. Maar het echte gesprek moet gaan over de herkomst van kennis. Een systeem is slechts zo betrouwbaar als de dataset waarop het gebouwd is. Meer heeft een hacker niet nodig dan een paar besmette bronnen om dat vertrouwen te breken. De toekomst van betrouwbare AI ligt daarom niet in nog slimmere modellen, maar in slimmere datahygiëne. Geen black box. Geen vergiftiging. Alleen herleidbare kennis. Dat is de basis waarop we AI kunnen vertrouwen.

Bron: Anthropic, “Poisoning the Well: How Small Data Injections Create Backdoors in AI”, oktober 2025.

Abonneer
Laat het weten als er
guest
0 Commentaren
Inline feedbacks
Bekijk alle reacties