AI kon beelden herkennen, spraak omzetten en bordspellen winnen van wereldkampioenen. Maar de taak die er het meest toe deed, het verwerken van taal, bleef buiten bereik. Tot 2017. Toen publiceerden acht onderzoekers een nieuwe architectuur die het probleem in één klap oploste: de transformer. Wat niemand had voorzien: diezelfde architectuur maakte het mogelijk om AI-modellen te bouwen op een schaal die alles wat ervoor kwam deed verbleken. Daaruit ontstond een nieuw type model dat de basis vormt van alles wat moderne AI kan.
Roland Bieleveldt
Deep learning had het ene domein na het andere veroverd. Beeldherkenning, spraak, vertaling, bordspellen. Maar voor de taak die er het meest toe deed, het verwerken en produceren van complexe tekst, bleef het resultaat teleurstellend.
Het probleem zat in de architectuur. De netwerken van die periode, zogeheten recurrent neural networks, verwerkten tekst woord voor woord. Van links naar rechts, in volgorde, zoals je een zin uitspreekt. Bij korte zinnen werkte dat. Maar bij langere teksten ontstond een fundamenteel probleem: het model raakte de eerdere informatie kwijt tegen de tijd dat het het einde bereikte. Wat aan het begin van een alinea stond, was vervaagd tot ruis bij de slotzin.
Stel je voor dat je een jaarverslag leest door een smal venster dat over de pagina schuift. Je ziet elk woord, maar je kunt nooit terugbladeren. Tegen de tijd dat je bij de financiële conclusie op pagina veertig bent, ben je de strategische uitgangspunten op pagina drie vergeten. Zo gingen AI-modellen met tekst om.
En tekst is alles. Wie taal kan verwerken op het niveau waarop mensen dat doen, opent de deur naar alles wat met kennis te maken heeft: samenvatten, analyseren, redeneren, schrijven, coderen. De beperkingen van de bestaande architectuur hielden de hele verdere ontwikkeling tegen.
In juni 2017 publiceerden acht onderzoekers van Google een paper met de titel “Attention Is All You Need.” Het was een onopvallende titel voor een publicatie die het hele vakgebied zou kantelen.
De paper introduceerde een volledig nieuw type netwerkarchitectuur: de transformer. Het kernidee was radicaal anders dan alles wat ervoor kwam. In plaats van tekst woord voor woord te verwerken, keek de transformer naar alle woorden tegelijk. En voor elk woord berekende het welke andere woorden in de tekst het meest relevant waren voor de betekenis ervan.
Dat mechanisme heet attention. Het stelt het model in staat om bij elk woord te bepalen: waar moet ik op letten? In de zin “De bank stond aan de oever van de rivier” helpt attention het model om te bepalen dat “bank” hier een zitplaats of een oever betekent, niet een financiële instelling, door te kijken naar de relatie met “oever” en “rivier.”
Terug naar dat jaarverslag. Waar het oude model woord voor woord door een schuifvenster las, legt de transformer het hele document open op tafel. Voor elke zin kan het direct zien welke andere zinnen, waar dan ook in het document, relevant zijn. De conclusie op pagina veertig wordt verwerkt in het licht van de uitgangspunten op pagina drie. Structureel, als onderdeel van hoe het model tekst verwerkt.
Dit klinkt als een technisch detail over hoe een model tekst leest. Maar het had een tweede gevolg dat minstens zo belangrijk bleek.
De oude architectuur was inherent sequentieel: woord na woord, stap na stap. Dat maakte het trainen van grote modellen pijnlijk langzaam. Elk woord moest wachten tot het vorige was verwerkt. De transformer verbrak die keten. Omdat het model alle woorden tegelijk verwerkt, kon de training worden verdeeld over honderden of duizenden grafische processors die parallel werkten. Waar het trainen van een groot taalmodel op de oude architectuur maanden zou kosten, kon het op een transformer-architectuur in weken.
Die parallelliseerbaarheid was de sleutel tot schaal. En schaal bleek alles te veranderen.
Wat volgde was een van de snelste opschalingen in de geschiedenis van de informatica.
In 2018 bouwde OpenAI GPT-1, een taalmodel op basis van de transformer-architectuur met 117 miljoen parameters. Parameters zijn, kort gezegd, de afstelbare waarden in een neuraal netwerk waarmee het model patronen leert herkennen. 117 miljoen klinkt als veel. Maar het was nog maar het begin.
In 2019 kwam GPT-2 met 1,5 miljard parameters, dertien keer zo groot. Het model kon coherente alinea’s tekst genereren die soms nauwelijks van menselijke tekst te onderscheiden waren. OpenAI besloot het model aanvankelijk niet volledig publiek te maken, uit bezorgdheid over misbruik.
In 2020 verscheen GPT-3 met 175 miljard parameters. Meer dan honderd keer zo groot als GPT-2. Dit model deed iets dat niemand had verwacht: het kon taken uitvoeren waar het niet specifiek voor was getraind. Geef het een paar voorbeelden van een vertaling en het vertaalde. Geef het een samenvatting en het vatte samen. Geef het een stuk code en het codeerde verder. Zonder aanpassingen aan het model zelf.
In twee jaar was de schaal van taalmodellen vertienduizendvoudigd. Van 117 miljoen naar 175 miljard parameters. Dat is geen geleidelijke groei. Dat is een ander regime.
Hier ontstond iets nieuws. Iets dat een eigen naam verdiende.
De taalmodellen vóór de transformer waren getraind voor één taak. Een model voor vertaling, een model voor sentimentanalyse, een model voor samenvatting. Elk model apart ontwikkeld, apart getraind, apart onderhouden. Wie drie taken wilde automatiseren, had drie modellen nodig.
De grote transformer-modellen doorbraken dat patroon. Eén model, getraind op een enorme hoeveelheid en verscheidenheid aan tekst, bleek inzetbaar voor tientallen taken zonder specifiek voor die taken te zijn getraind. Stanford-onderzoekers introduceerden in 2021 een term voor deze nieuwe categorie: foundation model. Een basismodel dat als fundament dient voor uiteenlopende toepassingen.
Een foundation model is een AI-model dat is getraind op een grote hoeveelheid en verscheidenheid aan data, en dat als basis kan dienen voor uiteenlopende taken zonder voor elke taak apart te worden getraind. GPT, Claude, Gemini: het zijn allemaal foundation models. Ze zijn breed getraind, breed inzetbaar, en ze vormen het fundament waarop organisaties specifieke toepassingen bouwen.
De stap van taakspecifieke modellen naar foundation models is vergelijkbaar met de stap van losse gereedschappen naar een universeel werkstation. In plaats van voor elke klus een apart apparaat aan te schaffen, investeer je in één krachtige basis die je voor uiteenlopende taken kunt inzetten. Die basis levert voor een afzonderlijke taak misschien niet het absolute optimum, maar de veelzijdigheid en het aanpassingsvermogen compenseren dat ruimschoots.
De gevolgen van deze architectuursprong zijn concreet.
Voor organisaties betekent het dat AI-toepassingen niet meer per stuk hoeven te worden gebouwd. Een foundation model kan worden ingezet voor klantenservice, documentanalyse, rapportage en strategisch onderzoek, zonder dat er vier aparte modellen nodig zijn. Dat verlaagt de drempel om AI in te zetten en maakt het mogelijk om op meer plekken in de organisatie waarde te creëren.
Het betekent ook dat de modellen beter presteren naarmate ze groter worden en meer data verwerken. Onderzoekers ontdekten dat de prestaties van taalmodellen voorspelbaar verbeteren met de omvang van het model, de hoeveelheid trainingsdata en de ingezette rekenkracht. Dat patroon, bekend als scaling laws, is een van de drijvende krachten achter de huidige AI-investeringen.
De transformer-architectuur is het fundament geworden waarop vrijwel alle moderne AI-ontwikkeling plaatsvindt. De redeneermodellen, de multimodale modellen die tekst en beeld combineren, de AI-agents die zelfstandig taken uitvoeren: ze zijn allemaal gebouwd op de architectuur die in 2017 in die ene paper werd geïntroduceerd.
Een voorbeeld dat het verschil tussen de oude en de nieuwe wereld concreet maakt:
Vóór foundation models had een ziekenhuis dat AI wilde inzetten voor drie taken, het analyseren van patiëntbrieven, het samenvatten van onderzoeksresultaten en het beantwoorden van vragen over behandelprotocollen, drie afzonderlijke modellen nodig. Elk model apart ontwikkeld, apart getraind op domeinspecifieke data, apart onderhouden. De kosten en complexiteit maakten het voor de meeste klinieken onhaalbaar. Met een foundation model is dat één systeem dat alle drie de taken uitvoert. Het model is al getraind op een enorme verscheidenheid aan medische en algemene tekst. De kliniek hoeft het niet vanaf nul op te bouwen. Ze past het aan op de eigen context. Dat maakt AI-inzet haalbaar voor organisaties die geen eigen onderzoeksafdeling hebben.
Een adviesbureau met dertig consultants zet een foundation model in voor het doorzoeken en analyseren van honderden brancherapporten. Het model vat samen, vergelijkt cijfers tussen rapporten, en signaleert trends die een consultant in de beschikbare tijd niet zou vinden. Datzelfde model wordt ook ingezet voor het opstellen van eerste versies van klantpresentaties. Twee taken, één model, geen maatwerktraject. De consultants besteden hun tijd aan de inhoudelijke analyse en het klantgesprek in plaats van aan het doorploegen van bronmateriaal.
Wie wil begrijpen hoe de fase vóór de transformer eruitzag en hoe deep learning in 2012 het hele AI-vakgebied kantelde, leest verder bij Deep learning: de doorbraak die alles veranderde.
Wie wil weten wat er gebeurde toen foundation models in handen kwamen van het grote publiek, en waarom die golf anders is dan alles wat eraan voorafging, leest verder bij De huidige AI-golf: waarom deze anders is dan eerdere softwaregolven.
Wie het complete overzicht van alle vijf fases wil zien, keert terug naar De geschiedenis van AI.