Een model dat instructies kan opvolgen is nog geen model dat je kunt vertrouwen. Het kan net zo goed een overtuigend klinkend antwoord geven dat feitelijk onzin is, als een antwoord dat genuanceerd en waarheidsgetrouw is. Het kan een gebruiker helpen bij een legitiem verzoek, maar het kan ook meewerken aan een verzoek dat schadelijk is. Hoe leert een model het verschil? Dat is de vraag die alignment probeert te beantwoorden, en het antwoord is ingewikkelder dan het op het eerste gezicht lijkt.
Roland Bieleveldt
Alignment is het proces waarmee een AI-model wordt afgestemd op menselijke waarden en verwachtingen. Het doel is drieledig: het model moet behulpzaam zijn waar dat kan, eerlijk zijn over wat het wel en niet kan, en weigeren waar dat nodig is.
Dat klinkt rechttoe rechtaan. Maar elk van die drie doelen bevat spanningen die niet met een lijst regels zijn op te lossen. Behulpzaamheid kan botsen met veiligheid: een model dat maximaal behulpzaam is, beantwoordt ook vragen die beter onbeantwoord blijven. Eerlijkheid kan botsen met bruikbaarheid: een model dat bij elke uitspraak een voorbehoud maakt, wordt onleesbaar. Veiligheid kan botsen met openheid: een model dat elk gevoelig onderwerp vermijdt, is voor serieus werk onbruikbaar.
Alignment is het zoeken naar de balans in dat spanningsveld.
Het kernmechanisme achter alignment is preference learning: het model leert welke antwoorden beter zijn door vergelijking.
Het model genereert twee of meer antwoorden op dezelfde vraag. Een beoordelaar vergelijkt de antwoorden en geeft aan welk antwoord de voorkeur heeft. Het model leert van die keuze: de parameters verschuiven zodat het antwoorden produceert die meer lijken op het gekozen antwoord en minder op het afgewezen antwoord.
Na duizenden van zulke vergelijkingen heeft het model een intern richtsnoer ontwikkeld. Het heeft geleerd dat een helder en genuanceerd antwoord beter scoort dan een vaag of misleidend antwoord. Dat een antwoord dat onzekerheid erkent beter is dan een antwoord dat zekerheid simuleert. Dat een weigering bij een schadelijk verzoek beter is dan medewerking.
Dat richtsnoer is niet expliciet geprogrammeerd. Het is een patroon dat het model heeft afgeleid uit de voorkeuren van de beoordelaars, vastgelegd in de parameters. Het model “kent” geen regels over ethiek. Het heeft geleerd welk type antwoord consistent werd gekozen boven andere.
De oorspronkelijke methode hiervoor heet RLHF: reinforcement learning from human feedback. De naam beschrijft precies wat het is: reinforcement learning (het trainingsmechanisme waarbij een model leert door beloningen) toegepast op feedback van mensen.
Bij RLHF worden menselijke beoordelaars getraind om antwoorden van het model te vergelijken op criteria als behulpzaamheid, eerlijkheid en veiligheid. Hun oordelen worden gebruikt om een beloningsmodel te trainen: een apart model dat voorspelt hoe een mens een antwoord zou beoordelen. Vervolgens wordt het taalmodel getraind om antwoorden te produceren die hoog scoren bij dat beloningsmodel.
Het proces heeft drie stappen: menselijk oordeel verzamelen, een beloningsmodel trainen, het taalmodel optimaliseren op dat beloningsmodel. Die keten is effectief, maar complex en duur. Elke stap introduceert mogelijke fouten, en de menselijke beoordelingen zijn arbeidsintensiever dan ze klinken: beoordelaars moeten getraind worden, de criteria moeten helder zijn, en de onderlinge overeenstemming moet regelmatig worden gecontroleerd.
RLHF was de eerste methode, maar het veld is niet stilgestaan. Twee ontwikkelingen zijn het vermelden waard.
De eerste is RLAIF: reinforcement learning from AI feedback. In plaats van menselijke beoordelaars wordt een AI-model ingezet om antwoorden te vergelijken. Dat AI-model beoordeelt op basis van een reeks principes die mensen hebben opgesteld, een lijst met criteria als “het antwoord is eerlijk”, “het antwoord is niet schadelijk”, “het antwoord erkent onzekerheid waar die bestaat.” RLAIF is sneller en goedkoper dan RLHF, maar de kwaliteit hangt af van de principes en van het oordelende model. In de praktijk combineren modelbouwers menselijke feedback voor de moeilijkste afwegingen met AI-feedback voor de schaal.
De tweede is DPO: direct preference optimization. DPO bereikt hetzelfde doel als RLHF, het model leren welke antwoorden beter zijn, maar slaat de tussenstap van het beloningsmodel over. In plaats daarvan wordt het taalmodel rechtstreeks getraind op de vergelijkingsdata, zonder apart beloningsmodel. Het resultaat is vergelijkbaar, het proces is minder complex.
Voor koersbepalers is het verschil tussen deze methoden niet beslissingsrelevant. Wat ertoe doet is het principe: alle methoden leren het model kiezen op basis van vergelijking, en alle methoden zijn afhankelijk van de kwaliteit van de beoordelingscriteria. De technische route verschilt; het doel is hetzelfde.
Een specifieke benadering die het vermelden waard is, is constitutional AI, ontwikkeld door Anthropic, het bedrijf achter Claude. Het idee: geef het model een reeks principes mee, een “grondwet”, en laat het model zijn eigen antwoorden beoordelen op basis van die principes.
Het proces werkt in twee fases. Eerst genereert het model een antwoord, bekritiseert dat antwoord op basis van de principes en produceert een verbeterde versie. Vervolgens worden die verbeterde antwoorden gebruikt als trainingsdata voor preference learning. Het model leert van zijn eigen zelfcorrectie.
Het voordeel is transparantie: de principes zijn expliciet en inspecteerbaar. Een organisatie kan lezen op basis van welke criteria het model is getraind. Bij klassieke RLHF zijn die criteria impliciet in de beoordelingen van de menselijke beoordelaars, en daarmee moeilijker te inspecteren. Het nadeel is dat de principes algemeen geformuleerd zijn en niet elke concrete situatie dekken. “Wees eerlijk” is een helder principe, maar het vertaalt zich niet vanzelf naar de juiste reactie op elke mogelijke vraag.
Alignment is geen eigenschap die een model heeft of niet heeft. Het is een continu spectrum met aan beide uiteinden een probleem.
Een model met onvoldoende alignment volgt instructies op zonder beoordeling. Het helpt bij het schrijven van phishing-e-mails als dat wordt gevraagd. Het produceert medisch advies alsof het een arts is. Het schrijft overtuigende desinformatie zonder aarzeling. Dat is geen theoretisch risico: vroege versies van taalmodellen zonder alignment deden precies dit.
Een model met te strakke alignment weigert onschuldige vragen. Het behandelt een vraag over de Tweede Wereldoorlog als potentieel schadelijk. Het weigert een fictief gewelddadig scenario te schrijven voor een romanauteur. Het voegt aan elke bewering zoveel voorbehouden toe dat het antwoord onleesbaar wordt. Dat wordt in het vakgebied overrefusal of overcautious alignment genoemd, en het is een van de meest voorkomende klachten van gebruikers.
Modelbouwers zoeken bij elke modelversie opnieuw naar die balans. De feedback van miljoenen gebruikers laat zien waar het model te streng of te soepel is. Nieuwe technieken proberen het model te leren onderscheid te maken tussen daadwerkelijk riskante verzoeken en verzoeken die oppervlakkig op riskant lijken maar dat niet zijn.
Die zoektocht is niet af. Het is een ontwerpproces dat bij elke nieuwe modelversie verdergaat. Alignment is in dat opzicht vergelijkbaar met wetgeving: het is een continue poging om regels te formuleren die werken in een wereld die complexer is dan welke regelset ook kan vangen.
Hier raakt alignment aan een vraag die verder reikt dan techniek. Als een model leert wat “behulpzaam” en “veilig” betekent op basis van menselijke voorkeuren, dan hangt het resultaat af van welke mensen die voorkeuren uitspreken. Beoordelaars komen uit specifieke landen, spreken specifieke talen, dragen specifieke culturele normen. Een antwoord dat in de ene cultuur als gepast geldt, is in een andere cultuur ongepast of onvolledig.
Modelbouwers zijn zich hiervan bewust. Initiatieven als collective constitutional AI, waarbij de principes voor het model worden opgesteld door een brede, diverse groep in plaats van door het team van de modelbouwer, proberen die blinde vlek te verkleinen. De vraag wie beslist wat een model wel en niet mag zeggen, is een van de belangrijkste onbeantwoorde vragen in het AI-veld. Het is geen technische vraag. Het is een maatschappelijke vraag die met technische middelen wordt aangesneden.
Voor koersbepalers is dit relevant omdat het verklaart waarom modellen van verschillende aanbieders zich anders gedragen op gevoelige onderwerpen. Elk model weerspiegelt de alignment-keuzes van de organisatie die het heeft getraind. Die keuzes zijn niet neutraal. Ze zijn expliciet of impliciet normatief.
Reinforcement learning wordt bij posttraining niet alleen ingezet voor alignment. Dezelfde trainingstechniek wordt ook gebruikt om modellen beter te laten redeneren: langere denkstappen nemen, problemen opsplitsen in deelproblemen, en hun eigen tussenresultaten controleren. Die toepassing valt buiten het bereik van deze pagina. Wie wil begrijpen hoe redenerende modellen werken en wat ze kunnen, vindt dat bij Redenerende modellen (cluster 5.1).
De effecten van alignment worden zichtbaar in situaties waar het model een afweging maakt tussen helpen en waarschuwen.
Een patiënt vraagt via het online portaal van een ziekenhuis: “Kan ik mijn dosering ibuprofen verhogen als de pijn niet afneemt?” Het AI-model dat het portaal ondersteunt, geeft geen direct antwoord. Het legt uit wat ibuprofen is, beschrijft de algemene richtlijnen voor gebruik, en adviseert de patiënt contact op te nemen met de behandelend arts voor een persoonlijk advies over dosering. Dat gedrag is het resultaat van alignment: het model heeft geleerd dat persoonlijke medische adviezen buiten zijn verantwoorde bereik vallen, ook al beschikt het over de kennis om een antwoord te formuleren. Het onderscheid is subtiel maar wezenlijk: het model beschikt over de kennis (uit pretraining), kan een antwoord formuleren (na fine-tuning), maar kiest ervoor dat niet te doen (door alignment).
Een adviesbureau vraagt een AI-model om een concept-memo te schrijven die beargumenteert waarom een klant moet investeren in een specifiek technologieplatform. Het model schrijft de memo, maar voegt uit zichzelf een alinea toe waarin het benoemt dat de analyse is gebaseerd op publiek beschikbare informatie en dat het de specifieke situatie van de klant niet kan beoordelen. Een oudere versie van hetzelfde model schreef dezelfde memo zonder enig voorbehoud. Het verschil: de nieuwere versie heeft via alignment geleerd dat beweringen over investeringsbeslissingen een risico dragen als ze zonder context worden gepresenteerd. De adviseur besluit de waarschuwingsalinea te behouden. Het versterkt de geloofwaardigheid van het advies.
Een freelance journalist vraagt een AI-model om achtergrondinformatie te genereren over de betrokkenheid van een specifiek farmaceutisch bedrijf bij een medicijnschandaal. Het model reageert met een genuanceerde beschrijving van de publiek bekende feiten, benoemt wat bevestigd is en wat omstreden, en vermijdt beweringen die het niet kan verifiëren. Een jaar eerder had het model dezelfde vraag beantwoord met een minder genuanceerd verhaal dat speculatie en feiten door elkaar mengde. Het verschil is alignment: het model heeft geleerd dat het bij gevoelige onderwerpen expliciet moet onderscheiden wat bevestigd is en wat niet. Voor de journalist is dat niet beperkend. Het is precies de houding die ze van een betrouwbare bron verwacht.
Wie wil begrijpen hoe fine-tuning werkt en wanneer het zinvol is om een model aan te passen aan een specifiek domein of een specifieke taak, leest Fine-tuning (cluster 2.3a).
Wie wil begrijpen hoe de kennis die bij alignment wordt bijgestuurd in het model is terechtgekomen, leest Pretraining: het fundament bouwen (cluster 2.2).
Wie wil weten hoe reinforcement learning wordt ingezet om modellen beter te laten redeneren, en wat redenerende modellen onderscheidt van standaard taalmodellen, vindt dat bij Redenerende modellen (cluster 5.1).