AI lijkt de wereld te veroveren. Iedere week verschijnen nieuwe modellen, groter en krachtiger dan hun voorgangers. Maar twee recente wetenschappelijke papers zetten een flinke streep door het idee dat “meer altijd beter is”.
De artikelen laten zien dat achter de indrukwekkende façade van Large Language Models (LLMs) twee fundamentele problemen schuilgaan: de muur van schaalbaarheid en de mirage van Chain-of-Thought.
In The Wall Confronting Large Language Models (Coveney & Succi, 2025, arXiv:2507.19703) wordt haarfijn uitgelegd waarom LLMs tegen harde grenzen aanlopen. De wiskunde is ontnuchterend:
– Elke verdubbeling van parameters levert maar 0,075 exponent verbetering op.
– Meer data geeft slechts 0,095 exponent winst.
– Zelfs als je onbeperkt rekencapaciteit toevoegt, stijgt de performance maar met 0,05 exponent.
Met andere woorden: we investeren miljarden in modellen die nauwelijks beter worden. Dat is geen lineaire groei, dat is diminishing returns in optima forma. De auteurs waarschuwen dat dit uiteindelijk kan leiden tot “Degenerative AI” – systemen die steeds meer fouten en spurious correlations produceren, ondanks hun schaal.
Het tweede paper, Is Chain-of-Thought Reasoning of LLMs a Mirage? (Zhao et al., 2025, arXiv:2508.01191), pakt een andere heilige graal aan: Chain-of-Thought prompting (CoT).
Bekende prompts als “Let’s think step by step” lijken modellen te laten redeneren als mensen. Maar in werkelijkheid gaat het vooral om slim patroonhergebruik. Zodra de data een beetje verschuift – een andere taak, langere redeneringsketen, of afwijkend format – verdwijnt de CoT-illusie als sneeuw voor de zon.
De onderzoekers ontwikkelden “DataAlchemy” om dit gecontroleerd te testen. Hun conclusie is hard: CoT werkt alleen binnen de distributie van de training. Buiten dat domein is het een fata morgana.
Wat beide papers samen blootleggen, is een ongemakkelijke waarheid: de spectaculaire prestaties van LLMs zijn vaak fragiel en contextafhankelijk. Opschalen levert nauwelijks meer rendement op, en methodes als CoT geven een schijnbeeld van intelligentie dat instort zodra de omstandigheden veranderen.
Dat betekent niet dat AI waardeloos is. Integendeel, de toepassingen in tekst, code en data-analyse zijn indrukwekkend en nuttig. Maar het idee dat AI denkt zoals wij, of dat een groter model automatisch slimmer is, moet de prullenbak in.
Voor data-analisten, controllers, auditors en business leaders ligt hier een duidelijke les:
– Wees kritisch op benchmarks. Een model dat 95% scoort in een test, kan alsnog falen zodra je de vraag net anders formuleert.
– Test out-of-distribution. Bouw cases die nét buiten de trainingsdata liggen en kijk wat er gebeurt.
– Investeer in inzicht, niet alleen in schaal. Nieuwe frameworks – zoals hybrid AI, physics-informed modellen of retrieval-augmented reasoning – zijn vaak waardevoller dan nóg een miljard parameters.
AI staat niet op het punt van uitsterven, maar de hype rondom onbegrensde groei en “mensachtige” redenering is een luchtspiegeling. De toekomst zit niet in groter, maar in slimmer: beter begrijpen hoe modellen werken, waar ze falen, en hoe we robuustere systemen kunnen ontwerpen.
Of zoals Zhao et al. het kernachtig formuleerden:
“CoT reasoning is a brittle mirage that vanishes when it is pushed beyond training distributions.”
— Zhao et al. (2025), arXiv:2508.01191
De muur en de mirage: ze herinneren ons eraan dat data-professionals hun rol hebben om hype te doorprikken en de focus te verleggen naar échte vooruitgang.
– Coveney, P. & Succi, S. (2025). *The Wall Confronting Large Language Models*. arXiv:2507.19703. https://arxiv.org/abs/2507.19703
– Zhao, W. et al. (2025). *Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens*. arXiv:2508.01191. https://arxiv.org/abs/2508.01191