De huidige taalmodellen waarmee generatieve AI-tools zoals ChatGPT werken zijn niet altijd betrouwbaar. Onderzoekers hebben een zelfcorrectiemechanisme bedacht om de betrouwbaarheid van grote taalmodellen te verbeteren.
Zelfcorrectie wordt gezien als een kenmerkende menselijke eigenschap. Toch zijn onderzoekers van begonnen met te onderzoeken hoe het kan worden toegepast op grote taalmodellen (LLM’s ) om hun capaciteiten te verbeteren zonder externe input nodig te hebben. Ze keken naar manieren waarmee LLM’s hun reacties kunnen evalueren en verfijnen, waardoor ze autonomer en effectiever worden in het begrijpen van complexe taken en het genereren van contextueel passende antwoorden.
Feedback
De huidige taalmodellen vertrouwen vaak op feedback van mensen of externe evaluaties om fouten in de gegenereerde content te corrigeren. Deze afhankelijkheid beperkt het vermogen van LLM’s om zichzelf te verbeteren en onafhankelijk te functioneren. Onderzoekers van MIT, Universiteit van Peking en de Technische Universiteit van München werkten samen in onderzoek om dit te verbeteren door de modellen in staat te stellen hun eigen fouten te corrigeren.
Theoretisch raamwerk
De onderzoekers ontwikkelden een nieuw theoretisch raamwerk, gebaseerd op in-context alignment (ICA). Dit raamwerk stelt LLM’s in staat om hun reacties intern te evalueren en te verbeteren zonder menselijke tussenkomst. Het proces omvat een generatie-criticus-regeneratiemethodologie waarbij het model begint met een initiële respons, deze intern bekritiseert en vervolgens een verbeterde respons genereert.
Modellen verbeterden zichzelf
Om dit zelfcorrectiemechanisme te implementeren gebruikten de onderzoekers een multi-layer transformer-architectuur. Dit helpt modellen om onderscheid te maken tussen goede en slechte reacties en zichzelf te verbeteren met in-context learning. Dit zelfcorrectiemechanisme verlaagde de foutpercentages aanzienlijk. Het mechanisme bleek ook effectief in het verminderen van sociale vooroordelen, zoals over geslacht, ras en sociaal-economische status.
Conclusie
De onderzoekers concluderen dat het zelfcorrectiemechanisme leidt tot meer autonome en intelligente taalmodellen die zichzelf kunnen evalueren en verbeteren zonder afhankelijk te zijn van externe feedback. “Deze studie baant de weg voor het maken van robuustere, veiligere en contextueel bewuste AI-systemen die complexe taken kunnen aanpakken met minimale menselijke tussenkomst. Dit kan het toekomstige ontwerp en de toepassing van LLM’s in verschillende domeinen aanzienlijk verbeteren en een basis leggen voor modellen die niet alleen leren, maar zich ook onafhankelijk ontwikkelen,” aldus de onderzoekers.