Stel dat een medewerker je een rapport geeft met bronvermeldingen die niet bestaan. Niet per ongeluk het verkeerde paginanummer, maar volledig verzonnen publicaties met overtuigende titels, geloofwaardige auteursnamen en plausibele conclusies. En stel dat diezelfde medewerker dat doet zonder het zelf te merken. Dat is wat een AI-model doet wanneer het hallucineert. Het mechanisme erachter verklaart niet alleen waarom dit gebeurt, maar ook waarom het niet zomaar verdwijnt.
Roland Bieleveldt
Een hallucinatie is output die een AI-model genereert alsof het feitelijke informatie is, terwijl die informatie niet bestaat of niet klopt. Het gaat niet om een rekenfout of een verouderd gegeven. Het gaat om informatie die het model fabriceert: rechtszaken die nooit hebben plaatsgevonden, onderzoeken die nooit zijn gepubliceerd, cijfers die nergens op zijn gebaseerd. Gepresenteerd met dezelfde stelligheid als correcte output.
Onderzoekers onderscheiden twee vormen. Bij de eerste vorm spreekt het model zichzelf tegen: het krijgt een document waarin staat dat de omzet 4,2 miljoen is, en genereert een samenvatting waarin 5,1 miljoen staat. De bron is er, maar het model wijkt ervan af. Bij de tweede vorm verzint het model informatie die nergens op is gebaseerd: een wetenschappelijk artikel dat niet bestaat, een statistiek zonder oorsprong, een citaat dat niemand heeft uitgesproken. Deze tweede vorm is lastiger te herkennen, omdat er geen bron is om tegen te controleren. De informatie klinkt plausibel juist omdat het model geleerd heeft hoe plausibele informatie klinkt.
Hier zit het inzicht dat het mechanisme zichtbaar maakt. Onderzoekers van Anthropic publiceerden in 2025 de resultaten van een onderzoek waarin ze de interne werking van een taalmodel in kaart brachten. Wat ze vonden, draait het gangbare beeld om.
Het model weigert standaard om te antwoorden. Niet als bewuste keuze, maar als ingebouwd patroon: er is een circuit dat actief is en dat ervoor zorgt dat het model aangeeft niet genoeg informatie te hebben. Dat is de standaardtoestand. Pas wanneer het model een entiteit herkent, een bekende persoon, een bekend concept, een vertrouwd onderwerp, wordt dat weigering-circuit onderdrukt door een “bekend-antwoord”-circuit. Het model herkent iets, concludeert dat het een antwoord heeft, en genereert dat antwoord.
Hallucinaties ontstaan wanneer dit herkenningscircuit ten onrechte activeert. Het model herkent een naam, maar heeft verder geen informatie over die persoon. Toch wordt de weigering onderdrukt. Het model “besluit” dat het iets kan zeggen, en genereert vervolgens een plausibel maar onjuist antwoord. Niet uit kwade opzet. Niet uit slordigheid. Maar omdat het herkenningssignaal sterk genoeg was om de rem los te laten, terwijl er geen inhoud achter zat om op te steunen.
Vergelijk het met een reflex. Iemand stelt je een vraag en je begint te antwoorden voordat je beseft dat je het eigenlijke antwoord niet kent. Het verschil: een mens kan halverwege stoppen en zeggen “wacht, dat weet ik eigenlijk niet.” Een taalmodel heeft dat correctiemechanisme niet op dezelfde manier. Zodra het genereren begint, produceert het de meest waarschijnlijke voortzetting tot het klaar is.
De exacte percentages verschuiven met elke nieuwe generatie modellen. Het patroon erachter is structureel: de betrouwbaarheid varieert enorm per type taak en per domein. Op gestructureerde taken, zoals het samenvatten van een document dat het model volledig kan raadplegen, presteren de beste modellen met hallucinatiepercentages onder de twee procent. Maar zodra de taak complexer wordt of het model moet putten uit geleerde kennis in plaats van aangeboden tekst, stijgen de percentages steil.
In medische contexten meten onderzoekers hallucinatiepercentages van meer dan zestig procent wanneer modellen klinische casussen moeten beoordelen zonder aanvullende maatregelen. Met gestructureerde prompts daalt dat naar ruim veertig procent. Dat is een verbetering, maar het betekent nog steeds dat bijna de helft van de output feitelijk onbetrouwbaar is.
In juridische contexten is het probleem bijzonder zichtbaar geworden. Een onderzoeker aan HEC Paris en Sciences Po, Damien Charlotin, houdt een publieke database bij van gevallen waarin AI-gegenereerde hallucinaties in juridische procedures zijn aangetroffen. Die database bevat honderden gedocumenteerde gevallen en groeit maandelijks. Rechtbanken in de Verenigde Staten leggen steeds vaker sancties op aan advocaten die AI-gegenereerde bronnen zonder controle indienen. De bedragen lopen op en in meerdere gevallen is de zaak zelf afgewezen als gevolg van de verzonnen verwijzingen.
De nieuwste generatie modellen kan beter redeneren. Ze doorlopen meerdere stappen, wegen alternatieven af en corrigeren zichzelf. Je zou verwachten dat die extra redeneercapaciteit het hallucinatieprobleem verkleint. Op sommige taken is dat zo. Maar op open feitelijke vragen laten metingen een tegenovergesteld patroon zien: redeneermodellen hallucineren in bepaalde tests vaker dan hun voorgangers. De percentages bij sommige modellen lopen op tot boven de vijftig procent, terwijl eerdere versies rond de zestien procent zaten.
De verklaring: het redeneerproces voegt stappen toe, en elke stap is een moment waarop het model kan afdwalen. Hoe langer de redeneerketen, hoe meer kansen voor een plausibele maar onjuiste afslag. Betere redenering betekent niet automatisch betrouwbaardere output. Het betekent complexere output, en complexiteit schept nieuwe risico’s.
Wiskundig onderzoek, gepubliceerd in 2025, concludeert dat hallucinaties niet volledig elimineerbaar zijn uit de huidige generatie taalmodellen. Het is een eigenschap van de architectuur. Taalmodellen genereren de meest waarschijnlijke voortzetting van een reeks woorden. Zolang dat het onderliggende mechanisme is, bestaat de mogelijkheid dat die voortzetting niet overeenkomt met de werkelijkheid.
Dat betekent niet dat het probleem onbeheersbaar is. Het betekent dat de oplossing niet in het model zelf zit, maar in de manier waarop het model wordt ingezet.
Drie benaderingen verlagen het risico aanzienlijk.
De meest effectieve aanpak is het model toegang geven tot een afgebakende set betrouwbare bronnen en het instrueren om alleen op basis van die bronnen te antwoorden. Dit heet Retrieval-Augmented Generation, afgekort RAG. In plaats van te putten uit aangeleerde patronen, zoekt het model eerst relevante informatie op in een kennisbank en baseert daar het antwoord op. Metingen laten zien dat RAG hallucinaties met veertig tot zeventig procent kan verlagen, afhankelijk van het domein en de kwaliteit van de bronnen.
Prompts die het model expliciet vragen om alleen te antwoorden op basis van meegeleverde context, en om aan te geven wanneer het iets niet kan verifiëren, verlagen het hallucinatiepercentage met ruwweg een derde. Geen garantie, maar een reële verbetering.
De derde laag is de meest fundamentele: een mens die de output beoordeelt voordat die wordt gebruikt. Dat klinkt als een open deur, maar de praktijk laat zien dat het precies de stap is die het vaakst wordt overgeslagen. Onderzoek toont dat slechts 27 procent van de gebruikers AI-output consequent controleert. Bij taken die als laag risico worden ingeschat, daalt dat naar vijftien procent. Juist in die gevallen kan een enkele hallucinatie onopgemerkt passeren.
Wie wil begrijpen waarom AI-output in het algemeen niet als waarheid kan worden behandeld, en welke rol vertrouwen daarin speelt, leest de overkoepelende pagina Wat AI niet is (cluster 1.4).
Wie wil weten hoe Retrieval-Augmented Generation werkt en waarom het de meest effectieve manier is om hallucinaties te verminderen, vindt dat bij Kennislaag en RAG (cluster 4.2).
Wie wil begrijpen hoe je AI-output systematisch beoordeelt op kwaliteit en betrouwbaarheid, leest verder bij Evaluatie van AI-output (cluster 6.1).