Waarom LLMs nog niet klaar zijn voor de IC

Zorginstellingen experimenteren met Large Language Models, een vorm van generatieve kunstmatige intelligentie (AI). De potentie is veelbelovend, maar de uitkomsten zijn nog onbetrouwbaar. Voor gebruik op de intensive care is meer onderzoek nodig.

Large Language Models (LLMs) zijn grote taalmodellen die teksten kunnen genereren, bijvoorbeeld voor gebruik in een chatbot. Een bekend voorbeeld is ChatGPT. LLMs worden steeds beter en kunnen in de toekomst taken van artsen overnemen, maar voor voor beslisondersteuning op de intensive care zijn ze nog niet nauwkeurig en betrouwbaar genoeg. Dat melden Nederlandse onderzoekers van het Amsterdam UMC en het Rotterdamse Erasmus MC in een artikel in het Journal of Intensive Medicine. 

LLMs worden snel beter
LLMs worden steeds interessanter voor gebruik in de gezondheidszorg. De ontwikkeling van generieke generatieve AI-modellen gaat zo snel dat ze de verbetering van gespecialiseerde modellen in de gezondheidszorg overtreffen, schrijven de onderzoekers. Als voorbeeld wijzen ze naar het GPT-4 model, dat slaagde voor het Amerikaanse toelatingsexamen voor artsen met een gemiddelde score van 87%. LLMs worden geschikt gemaakt voor de zorg door ze specifiek te trainen op medische teksten, zoals klinische richtlijnen, medische literatuur en notities over patiënten. 

Interessanter voor zorg
Eén van de auteurs is Jessica Workum, AI-onderzoeker bij het Erasmus UMC. Ze doet onderzoek naar verantwoord en effectief gebruik van LLMs in de zorg. Daarnaast werkt ze als intensivist en klinisch farmacoloog bij het Elisabeth-TweeSteden Ziekenhuis (ETZ). Het ETZ is het eerste ziekenhuis dat binnen een besloten digitale omgeving gebruik maakt van GPT-4 om online vragen van patiënten te beantwoorden. Dit moet de administratieve last voor zorgverleners verminderen. 

Mogelijkheden eindeloos
De toepassingsmogelijkheden van LLMs in de zorg zijn talrijk. “Als je een taalmodel combineert met medische kennis en patiëntendossiers zijn de mogelijkheden eindeloos,” zegt Workum in de Medisch Specialist. Zo werkt Epic, een grote leverancier van elektronische patiëntdossiers (EPD), momenteel aan zestig verschillende AI-applicaties voor een EPD-systeem. Daaronder zitten ook LLM-gebaseerde applicaties, waarvan sommige al commercieel beschikbaar zijn.  

Specifieke toepassingen
Volgens de onderzoekers worden LLMs steeds beter en geschikter voor toepassing in de intensive care. Ze noemen potentiële specifieke toepassingen, zoals administratieve ondersteuning, hulp bij klinische besluitvorming, het personaliseren van communicatie met patiënten, logistieke hulp, en het verbeteren van datakwaliteit. De beoogde toepassing moet volgens hen vooraf helder zijn, net als de beoogde eindgebruiker: arts, patiënt, zorgmanager of onderzoeker. Dat is nodig om vast te stellen of de specifiek ontwikkelde toepassing voldoet aan de beoogde doelen. 

Jessica Workum spreekt tijdens de aftrap van een opleidingsprogramma over AI voor medewerkers van het Elisabeth TweeSteden Ziekenhuis (foto ETZ)

Jessica Workum spreekt tijdens de aftrap van een opleidingsprogramma over AI voor ETZ-medewerkers (foto ETZ)

Hallucinaties
Momenteel kleven er echter nog risico’s aan de toepassing van Large Language Models in de zorg. Workum en haar collega’s noemen als voorbeeld de hallucinaties, de neiging van LLMs om foute antwoorden te genereren. Dit is vooral zorgwekkend voor de acute gezondheidszorg, waar valse uitkomsten ernstige gevolgen kunnen hebben. Hallucinaties kunnen worden verminderd met technieken zoals retrieval augmented generation (RAG), waarbij LLMs worden gecombineerd met externe kennisbanken, die medische literatuur of klinische richtlijnen bevatten. Maar dit biedt nog geen volledige garantie dat hallucinaties niet meer zullen optreden. 

Bevoordeelde uitkomsten
Een ander nadeel van LLMs is de neiging om bevooroordeelde uitkomsten te produceren. Dit komt door onevenwichtigheden of vooroordelen in de trainingsdata waar het model van leert, melden de onderzoekers. GTP-4 propageerde in onderzoek maatschappelijke vooroordelen, of versterkte deze zelfs. Toen GPT-4 kreeg de opdracht kreeg om klinische vignetten te produceren, bleek dat de LLM consequent demografische presentaties voor diverse ziekten stereotypeerde. Ook bij het genereren van differentiële diagnoses werden diagnoses opgenomen die stereotypen weerspiegelden die geassocieerd werden met specifieke etniciteiten en geslachten. 

Aanzienlijke risico’s
Deze resultaten geven aan dat het gebruik van LLMs kan leiden tot ongelijkheden in de acute zorg en mogelijk het klinische oordeel kan verdraaien, melden Workum en haar collega’s. Dit zou aanzienlijke risico’s kunnen brengen voor de veiligheid van de patiënt. Dit betekent dat de arts voorzichtig en zorgvuldig te werk moet gaan bij de interpretatie van de uitkomsten. Volgens Workum en haar collega’s zijn uitgebreide tests, klinische validatie en continue monitoring noodzakelijk om de betrouwbaarheid van LLMs te verifiëren, zowel vóór als tijdens de implementatie. 

Meer onderzoek nodig
Om Large Language Models verantwoord en effectief toe te passen in de acute zorg is meer onderzoek nodig, concluderen de onderzoekers. Het toegevoegde voordeel van LLMs in de huidige medische praktijk moet nog worden vastgesteld, aangezien klinische validatiestudies ontbreken. Peer-reviewed bewijs, dat de effectiviteit van LLMs in de klinische praktijk aantoont, ontbreekt nog. Implementatie in de gezondheidszorg, een omgeving met een hoog risico, moet daarom met voorzichtigheid en zorgvuldige overweging worden benaderd, aldus de onderzoekers. 

Advies inspectie
Deze conclusie sluit aan bij het advies van de Inspectie van de Gezondheidszorg en Jeugd. De inspectie roept zorgaanbieders op om zorgvuldig om te gaan met de invoering van generatieve AI-toepassingen. Ze adviseert zorgaanbieders om extra alert te zijn op de mogelijke risico’s: “Generatieve AI-modellen kunnen op basis van ingevoerde data zelf nieuwe informatie produceren. Dat kan ook onjuiste of onvolledige informatie zijn en leiden tot risico’s, zoals medicatiefouten of een onjuiste beoordeling van een patiënt door een arts.” 

Oplossing: stapsgewijze aanpak
Workum en haar collega’s pleiten voor een veilige toepassing van LLMs in de zorg. Hiervoor stellen ze als oplossing een praktische, stapsgewijze aanpak voor. “Ondanks het toenemende gebruik van LLMs in de gezondheidszorg, blijft er een kritieke kloof bestaan ​​in duidelijke, uitvoerbare richtlijnen voor zorginstellingen en zorgaanbieders om een verantwoordelijke en veilige implementatie te garanderen. Een stapsgewijze aanpak kan deze kloof dichten door zorginstellingen en zorgaanbieders te ondersteunen bij het garanderen van de verantwoordelijke en veilige implementatie van LLMs in de gezondheidszorg. 

Lees meer over deze aanpak

Bekijk meer artikelen over AI in de zorg

Bronnen:
Large language models in critical care – ScienceDirect
Netwerk AI: Grote taalmodellen in de zorg | Federatie Medisch Specialisten
IGJ roept zorgaanbieders op: ga zorgvuldig om met invoering van generatieve AI-toepassingen | Publicatie | Inspectie Gezondheidszorg en Jeugd

Abonneer
Laat het weten als er
guest
0 Commentaren
Inline feedbacks
Bekijk alle reacties