Transformers en foundation models: de architectuursprong

01Waarom taal zo lastig was

Deep learning had het ene domein na het andere veroverd. Beeldherkenning, spraak, vertaling, bordspellen. Maar voor de taak die er het meest toe deed, het verwerken en produceren van complexe tekst, bleef het resultaat teleurstellend.

Het probleem zat in de architectuur. De netwerken van die periode, zogeheten recurrent neural networks, verwerkten tekst woord voor woord. Van links naar rechts, in volgorde, zoals je een zin uitspreekt. Bij korte zinnen werkte dat. Maar bij langere teksten ontstond een fundamenteel probleem: het model raakte de eerdere informatie kwijt tegen de tijd dat het het einde bereikte. Wat aan het begin van een alinea stond, was vervaagd tot ruis bij de slotzin.

Stel je voor dat je een jaarverslag leest door een smal venster dat over de pagina schuift. Je ziet elk woord, maar je kunt nooit terugbladeren. Tegen de tijd dat je bij de financiële conclusie op pagina veertig bent, ben je de strategische uitgangspunten op pagina drie vergeten. Zo gingen AI-modellen met tekst om.

En tekst is alles. Wie taal kan verwerken op het niveau waarop mensen dat doen, opent de deur naar alles wat met kennis te maken heeft: samenvatten, analyseren, redeneren, schrijven, coderen. De beperkingen van de bestaande architectuur hielden de hele verdere ontwikkeling tegen.

02De paper die alles veranderde

In juni 2017 publiceerden acht onderzoekers van Google een paper met de titel “Attention Is All You Need.” Het was een onopvallende titel voor een publicatie die het hele vakgebied zou kantelen.

De paper introduceerde een volledig nieuw type netwerkarchitectuur: de transformer. Het kernidee was radicaal anders dan alles wat ervoor kwam. In plaats van tekst woord voor woord te verwerken, keek de transformer naar alle woorden tegelijk. En voor elk woord berekende het welke andere woorden in de tekst het meest relevant waren voor de betekenis ervan.

Attention

Dat mechanisme heet attention. Het stelt het model in staat om bij elk woord te bepalen: waar moet ik op letten? In de zin “De bank stond aan de oever van de rivier” helpt attention het model om te bepalen dat “bank” hier een zitplaats of een oever betekent, niet een financiële instelling, door te kijken naar de relatie met “oever” en “rivier.”

Terug naar dat jaarverslag. Waar het oude model woord voor woord door een schuifvenster las, legt de transformer het hele document open op tafel. Voor elke zin kan het direct zien welke andere zinnen, waar dan ook in het document, relevant zijn. De conclusie op pagina veertig wordt verwerkt in het licht van de uitgangspunten op pagina drie. Structureel, als onderdeel van hoe het model tekst verwerkt.

Wat volgde was een van de snelste opschalingen in de geschiedenis van de informatica.

GPT-1

In 2018 bouwde OpenAI GPT-1, een taalmodel op basis van de transformer-architectuur met 117 miljoen parameters. Parameters zijn, kort gezegd, de afstelbare waarden in een neuraal netwerk waarmee het model patronen leert herkennen. 117 miljoen klinkt als veel. Maar het was nog maar het begin.

GPT-2 en GPT-3

In 2019 kwam GPT-2 met 1,5 miljard parameters, dertien keer zo groot. Het model kon coherente alinea’s tekst genereren die soms nauwelijks van menselijke tekst te onderscheiden waren. OpenAI besloot het model aanvankelijk niet volledig publiek te maken, uit bezorgdheid over misbruik.

In 2020 verscheen GPT-3 met 175 miljard parameters. Meer dan honderd keer zo groot als GPT-2. Dit model deed iets dat niemand had verwacht: het kon taken uitvoeren waar het niet specifiek voor was getraind. Geef het een paar voorbeelden van een vertaling en het vertaalde. Geef het een samenvatting en het vatte samen. Geef het een stuk code en het codeerde verder. Zonder aanpassingen aan het model zelf.

In twee jaar was de schaal van taalmodellen vertienduizendvoudigd. Van 117 miljoen naar 175 miljard parameters. Dat is geen geleidelijke groei. Dat is een ander regime.

Hier ontstond iets nieuws. Iets dat een eigen naam verdiende.

De taalmodellen vóór de transformer waren getraind voor één taak. Een model voor vertaling, een model voor sentimentanalyse, een model voor samenvatting. Elk model apart ontwikkeld, apart getraind, apart onderhouden. Wie drie taken wilde automatiseren, had drie modellen nodig.

De grote transformer-modellen doorbraken dat patroon. Eén model, getraind op een enorme hoeveelheid en verscheidenheid aan tekst, bleek inzetbaar voor tientallen taken zonder specifiek voor die taken te zijn getraind. Stanford-onderzoekers introduceerden in 2021 een term voor deze nieuwe categorie: foundation model. Een basismodel dat als fundament dient voor uiteenlopende toepassingen.

Foundation models

Een foundation model is een AI-model dat is getraind op een grote hoeveelheid en verscheidenheid aan data, en dat als basis kan dienen voor uiteenlopende taken zonder voor elke taak apart te worden getraind. GPT, Claude, Gemini: het zijn allemaal foundation models. Ze zijn breed getraind, breed inzetbaar, en ze vormen het fundament waarop organisaties specifieke toepassingen bouwen.

De stap van taakspecifieke modellen naar foundation models is vergelijkbaar met de stap van losse gereedschappen naar een universeel werkstation. In plaats van voor elke klus een apart apparaat aan te schaffen, investeer je in één krachtige basis die je voor uiteenlopende taken kunt inzetten. Die basis levert voor een afzonderlijke taak misschien niet het absolute optimum, maar de veelzijdigheid en het aanpassingsvermogen compenseren dat ruimschoots.

08Veelgestelde vragen

Een transformer is een architectuur, een manier om een neuraal netwerk op te bouwen. Een foundation model is een categorie, een type model dat op een bepaalde manier is getraind en ingezet. Alle huidige foundation models zijn gebouwd op de transformer-architectuur, terwijl niet elke transformer een foundation model is. Een klein transformer-model dat is getraind voor één specifieke taak is een transformer maar geen foundation model. Het verschil zit in de breedte: foundation models zijn getraind op een enorme verscheidenheid aan data en inzetbaar voor uiteenlopende taken. De architectuur maakt dat mogelijk, maar de categorie gaat over hoe het model is getraind en waarvoor het wordt gebruikt.

Onderzoekers ontdekten dat taalmodellen op een voorspelbare manier beter presteren naarmate ze groter worden, meer data verwerken en meer rekentijd krijgen. Dat is geen vanzelfsprekendheid. Bij veel technologieën levert opschalen op een gegeven moment steeds minder op. Bij transformer-modellen bleek het tegenovergestelde: grotere modellen ontwikkelden capaciteiten die de kleinere versies niet hadden. GPT-3 kon taken uitvoeren waar GPT-2 niet toe in staat was, niet door een specifieke verbetering maar puur door schaal. Dat patroon, dat onderzoekers scaling laws noemen, is een van de drijvende krachten achter de huidige AI-investeringen. Het verklaart waarom bedrijven als OpenAI, Google en Anthropic miljarden investeren in grotere modellen en meer rekencapaciteit: de data laten zien dat die investering meetbaar betere prestaties oplevert.

Vrijwel zeker niet. Het trainen van een foundation model kost tientallen tot honderden miljoenen euro’s aan rekenkracht, vereist enorme hoeveelheden trainingsdata en een team gespecialiseerde onderzoekers. Dat is voorbehouden aan een handvol technologiebedrijven. Wat organisaties wél doen, is bestaande foundation models aanpassen aan hun eigen context. Dat kan via fine-tuning (het model verder trainen op domeinspecifieke data), via RAG (het model koppelen aan een eigen kennisbank zodat het relevante documenten kan raadplegen) of via gerichte prompting (het model de juiste instructies en context meegeven). De kracht van foundation models zit juist in het feit dat je niet vanaf nul hoeft te beginnen.

Dat is een van de verrassendste ontdekkingen van de afgelopen jaren. Tijdens de training op enorme hoeveelheden tekst leert een foundation model patronen die overdraagbaar zijn naar taken die het nooit expliciet heeft geoefend. Het leert iets over de structuur van taal, over logische verbanden, over hoe kennis is georganiseerd. Die patronen blijken breed toepasbaar. Een model dat heeft geleerd om tekst samen te vatten, blijkt ook te kunnen vertalen, analyseren en coderen, omdat al die taken een beroep doen op dezelfde taalpatronen. Onderzoekers spreken van emergente vaardigheden: capaciteiten die spontaan ontstaan bij voldoende schaal, zonder dat ze expliciet zijn ingebouwd. Het is een van de meest bediscussieerde verschijnselen in het huidige AI-onderzoek.

01Waarom taal zo lastig was

02De paper die alles veranderde

Attention

03Waarom schaal ineens mogelijk werd

04Van honderden miljoenen naar honderden miljarden

GPT-1

GPT-2 en GPT-3

05Eén model voor alles

Foundation models

06Wat dit oplevert

07Voorbeelden

Medische kliniek

B2B-dienstverlener

08Veelgestelde vragen

09Verder lezen