Na het lezen van Emily M. Benders essay “What makes something data?” bleef één ongemakkelijke observatie hangen. In machine learning en AI accepteren we een definitie van data die in vrijwel elke andere wetenschap zou worden uitgelachen:
“Data is alles wat je kunt gebruiken om een model te trainen.”
Het klinkt efficiënt. Praktisch. Business-proof.
Maar het is ook intellectueel lui. En risicovol — juist voor organisaties die steeds meer beslissingen laten ondersteunen door modellen.
In echte wetenschap bestaat “data” niet zomaar
Bender herinnert ons eraan hoe dat in de taalkunde werkt. Een uiting wordt pas data als zij is verzameld binnen een afgebakende setting, geannoteerd volgens expliciete aannames, gekoppeld aan een concrete onderzoeksvraag en interpreteerbaar binnen een theoretisch kader.
Dat geldt net zo goed in natuurkunde, scheikunde en biomedisch onderzoek. Een logbestand, een meetreeks of een simulatie-uitkomst is geen data op zichzelf. Het wordt pas data als duidelijk is:
Zonder die context blijft er geen data over, maar ruis met opslagcapaciteit.
Machine learning maakte schaal belangrijker dan betekenis
In veel ML-praktijken is deze wetenschappelijke discipline ingeruild voor iets anders: schaalbaarheid. Alles wat digitaal beschikbaar is, wordt verzameld. Alles wat verzameld is, heet “data”. En alles wat data heet, mag het model in.
Scrapen werd meten. Opslag werd methodiek. En volume werd synoniem voor kwaliteit.
Dat werkt verrassend goed — tot het niet meer werkt. Tot modellen beslissingen beïnvloeden over kredietverlening, prijsstelling, personeelsplanning of fraudeopsporing. Dan blijkt ineens dat niemand nog precies kan uitleggen waarom juist dit datapakket geschikt was voor deze beslissing.
Het business- en finance-probleem: data als grondstof in plaats van bewijsmateriaal
Hier raakt dit onderwerp direct aan business en finance. In veel organisaties is data verworden tot grondstof: iets wat je “hebt”, “ontsluit” en “vermarkt”. Meer databronnen betekent automatisch meer inzicht. Of zo voelt het.
Maar in finance geldt traditioneel iets anders. Niet elke dataset is geschikt voor elke beslissing. Niet elke KPI is stuurinformatie. En niet elke correlatie is economisch betekenisvol.
Toch zie je in pricing, forecasting, risk modelling en performance management steeds vaker AI-modellen draaien op datasets waarvan niemand meer precies kan aangeven:
Dat is geen technologische zwakte. Dat is een governance-probleem.
CFO’s herkennen dit patroon — vaak te laat
Voor CFO’s voelt dit ongemakkelijk herkenbaar. Dashboards ogen overtuigend. Scenario’s zijn snel doorgerekend. Modellen geven een antwoord.
Maar zodra de vraag komt: “waarom vertrouwen we dit?” wordt het stil.
Niet omdat de data per se fout is, maar omdat niemand het verhaal nog kan reconstrueren. De koppeling tussen data, vraag en besluit is losgeraakt.
AI versterkt dit patroon. Niet omdat het onnauwkeurig is, maar omdat het te makkelijk is om complexiteit te verwarren met diepgang.
De parallel met audit en assurance
In audit en assurance maken we al eeuwen onderscheid tussen data, informatie en controle-informatie. Niet alles wat bestaat, is relevant. Niet alles wat relevant is, is betrouwbaar. En niet alles wat betrouwbaar lijkt, is geschikt voor deze specifieke vraag.
AI negeert dat onderscheid steeds vaker. Alles wordt input. Alles wordt signaal. En zodra het model convergeert, verklaren we het besluit valide.
Maar zonder expliciete context, aannames en toetsbaarheid is er geen zekerheid — alleen een overtuigend resultaat.
De ongemakkelijke vraag
Daarom is Benders vraag zo scherp, en juist nu zo relevant voor business en finance:
If you can’t clearly say why this pile of bits is data for this question, are you still doing science — or just doing very large experiments on autopilot?
Vervang “science” gerust door besluitvorming, risicomanagement of sturing.
Tijd om data weer serieus te nemen
Misschien ligt de volgende stap in AI niet in grotere modellen, maar in scherpere vragen. Niet in meer data, maar in beter gedefinieerde data. Niet in nog een benchmark, maar in expliciete keuzes over wat we wel en niet willen meten — en waarom.
Of, scherper gezegd:
Data is geen brandstof. Het is bewijs-in-wording.
En bewijs vraagt om discipline, uitleg en verantwoordelijkheid.
Tot slot — een reality check
Welke dataset vertrouw jij écht in jouw vakgebied?
En kun je uitleggen waarom juist deze geschikt is voor die beslissing?
Als dat lastig is, ligt dat niet aan jou.
Maar wel aan hoe lichtzinnig we het woord data zijn gaan gebruiken.