Machine learning in de zorg klinkt als een droom. Snellere diagnoses, minder administratielast, betere behandelkeuzes. Maar de werkelijkheid is grilliger. Van algoritmes die systematisch patiënten uitsluiten tot chatbots die racistische medische mythes verspreiden — de risico’s zijn inmiddels net zo zichtbaar als de belofte.
In dit artikel duiken we in concrete (en soms pijnlijke) voorbeelden van mislukte machine learning-projecten in de zorg. Niet om AI af te serveren, maar om ervan te leren.
In een veelbesproken studie uit 2019 bleek dat een commercieel zorgalgoritme in de VS zwarte patiënten consequent lager inschatte in zorgbehoefte dan witte patiënten. De reden? Het model gebruikte historische zorgkosten als proxy voor ‘behoefte’. En historisch gezien werd er minder uitgegeven aan zwarte patiënten — dus leek het algoritme te concluderen: minder zorg nodig.
Lessen:
1. AI die ras herkent op röntgenfoto’s (zonder dat het zou moeten kunnen)
Onderzoek uit 2021 toonde aan dat sommige AI-systemen het ras van een patiënt konden ‘raden’ aan de hand van röntgenbeelden — iets wat zelfs radiologen niet kunnen. Deze verborgen signalen zijn onverklaarbaar en niet wenselijk: ze vormen een risico op onbewuste bias in behandelbeslissingen.
Lessen:
2. AI presteert slechter bij zwarte Amerikanen bij depressiedetectie
In een studie uit 2024 bleek dat AI die depressie moet detecteren op basis van sociale media drie keer slechter presteerde bij zwarte Amerikanen dan bij witte. De oorzaak? De data waarop het model was getraind weerspiegelde vooral witte expressie- en taalpatronen.
Lessen:
3. AI verlaagt nauwkeurigheid van diagnoses als het bevooroordeeld is
Een experiment met 450 zorgprofessionals liet zien dat als een AI-systeem bevooroordeelde suggesties doet, de kans op een correcte diagnose daalt van 73% naar 61%. De AI suggereerde fouten, en mensen namen die over — zelfs als ze zelf twijfelden.
Lessen:
4. AI-chatbots verspreiden racistische medische mythes
In een onderzoek van Stanford uit 2023 gaven grote AI-chatbots zoals ChatGPT en Bard foutieve informatie over vermeende biologische verschillen tussen zwarte en witte mensen — zoals pijngevoeligheid of huiddikte. Deze mythes zijn medisch allang weerlegd, maar zaten nog wel in de trainingsdata.
Lessen:
5. Statistisch slim ≠ medisch logisch
Een treffend voorbeeld uit een ziekenhuismodel: het systeem voorspelde een hogere overlevingskans bij longontsteking voor patiënten met astma. Waarom? Omdat artsen deze groep extra snel opnamen op de IC — wat leidde tot betere zorg. Het model concludeerde: astma = positief. Terwijl het tegendeel waar is.
Lessen:
Wat kunnen we hiervan leren?
Machine learning in de zorg is niet per definitie slecht — maar het is zelden neutraal. Deze voorbeelden laten zien dat:
Of zoals WIRED het scherp stelde:
“Artificial intelligence makes bad medicine even worse.”
Tot slot: Eerst genezen, dan trainen
AI in de zorg kan levens verbeteren, maar alleen als we het met zorg inzetten. De technologie is krachtig — en juist daarom moeten we kritisch zijn. Niet omdat we bang zijn voor AI, maar omdat we geloven in betere zorg.
Heb jij zelf een voorbeeld, ervaring of reflectie op AI in de zorg? Deel ’m vooral — want de toekomst van slimme zorg begint met beter leren van wat misging.
De Redactie