Alignment

01Wat alignment is

Alignment is het proces waarmee een AI-model wordt afgestemd op menselijke waarden en verwachtingen. Het doel is drieledig: het model moet behulpzaam zijn waar dat kan, eerlijk zijn over wat het wel en niet kan, en weigeren waar dat nodig is.

Dat klinkt rechttoe rechtaan. Maar elk van die drie doelen bevat spanningen die niet met een lijst regels zijn op te lossen. Behulpzaamheid kan botsen met veiligheid: een model dat maximaal behulpzaam is, beantwoordt ook vragen die beter onbeantwoord blijven. Eerlijkheid kan botsen met bruikbaarheid: een model dat bij elke uitspraak een voorbehoud maakt, wordt onleesbaar. Veiligheid kan botsen met openheid: een model dat elk gevoelig onderwerp vermijdt, is voor serieus werk onbruikbaar.

Alignment is het zoeken naar de balans in dat spanningsveld.

02Hoe een model leert beoordelen

Het kernmechanisme achter alignment is preference learning: het model leert welke antwoorden beter zijn door vergelijking.

Hoe dat werkt

Het model genereert twee of meer antwoorden op dezelfde vraag. Een beoordelaar vergelijkt de antwoorden en geeft aan welk antwoord de voorkeur heeft. Het model leert van die keuze: de parameters verschuiven zodat het antwoorden produceert die meer lijken op het gekozen antwoord en minder op het afgewezen antwoord.

Na duizenden van zulke vergelijkingen heeft het model een intern richtsnoer ontwikkeld. Het heeft geleerd dat een helder en genuanceerd antwoord beter scoort dan een vaag of misleidend antwoord. Dat een antwoord dat onzekerheid erkent beter is dan een antwoord dat zekerheid simuleert. Dat een weigering bij een schadelijk verzoek beter is dan medewerking.

Dat richtsnoer is niet expliciet geprogrammeerd. Het is een patroon dat het model heeft afgeleid uit de voorkeuren van de beoordelaars, vastgelegd in de parameters. Het model “kent” geen regels over ethiek. Het heeft geleerd welk type antwoord consistent werd gekozen boven andere.

RLHF

De oorspronkelijke methode hiervoor heet RLHF: reinforcement learning from human feedback. De naam beschrijft precies wat het is: reinforcement learning (het trainingsmechanisme waarbij een model leert door beloningen) toegepast op feedback van mensen.

Bij RLHF worden menselijke beoordelaars getraind om antwoorden van het model te vergelijken op criteria als behulpzaamheid, eerlijkheid en veiligheid. Hun oordelen worden gebruikt om een beloningsmodel te trainen: een apart model dat voorspelt hoe een mens een antwoord zou beoordelen. Vervolgens wordt het taalmodel getraind om antwoorden te produceren die hoog scoren bij dat beloningsmodel.

Het proces heeft drie stappen: menselijk oordeel verzamelen, een beloningsmodel trainen, het taalmodel optimaliseren op dat beloningsmodel. Die keten is effectief, maar complex en duur. Elke stap introduceert mogelijke fouten, en de menselijke beoordelingen zijn arbeidsintensiever dan ze klinken: beoordelaars moeten getraind worden, de criteria moeten helder zijn, en de onderlinge overeenstemming moet regelmatig worden gecontroleerd.

Varianten op RLHF

RLHF was de eerste methode, maar het veld is niet stilgestaan. Twee ontwikkelingen zijn het vermelden waard.

De eerste is RLAIF: reinforcement learning from AI feedback. In plaats van menselijke beoordelaars wordt een AI-model ingezet om antwoorden te vergelijken. Dat AI-model beoordeelt op basis van een reeks principes die mensen hebben opgesteld, een lijst met criteria als “het antwoord is eerlijk”, “het antwoord is niet schadelijk”, “het antwoord erkent onzekerheid waar die bestaat.” RLAIF is sneller en goedkoper dan RLHF, maar de kwaliteit hangt af van de principes en van het oordelende model. In de praktijk combineren modelbouwers menselijke feedback voor de moeilijkste afwegingen met AI-feedback voor de schaal.

De tweede is DPO: direct preference optimization. DPO bereikt hetzelfde doel als RLHF, het model leren welke antwoorden beter zijn, maar slaat de tussenstap van het beloningsmodel over. In plaats daarvan wordt het taalmodel rechtstreeks getraind op de vergelijkingsdata, zonder apart beloningsmodel. Het resultaat is vergelijkbaar, het proces is minder complex.

Voor koersbepalers is het verschil tussen deze methoden niet beslissingsrelevant. Wat ertoe doet is het principe: alle methoden leren het model kiezen op basis van vergelijking, en alle methoden zijn afhankelijk van de kwaliteit van de beoordelingscriteria. De technische route verschilt; het doel is hetzelfde.

07Voorbeelden

De effecten van alignment worden zichtbaar in situaties waar het model een afweging maakt tussen helpen en waarschuwen.

Voorbeeld

Medische kliniek

Een patiënt vraagt via het online portaal van een ziekenhuis: “Kan ik mijn dosering ibuprofen verhogen als de pijn niet afneemt?” Het AI-model dat het portaal ondersteunt, geeft geen direct antwoord. Het legt uit wat ibuprofen is, beschrijft de algemene richtlijnen voor gebruik, en adviseert de patiënt contact op te nemen met de behandelend arts voor een persoonlijk advies over dosering. Dat gedrag is het resultaat van alignment: het model heeft geleerd dat persoonlijke medische adviezen buiten zijn verantwoorde bereik vallen, ook al beschikt het over de kennis om een antwoord te formuleren. Het onderscheid is subtiel maar wezenlijk: het model beschikt over de kennis (uit pretraining), kan een antwoord formuleren (na fine-tuning), maar kiest ervoor dat niet te doen (door alignment).

Voorbeeld

B2B-dienstverlener

Een adviesbureau vraagt een AI-model om een concept-memo te schrijven die beargumenteert waarom een klant moet investeren in een specifiek technologieplatform. Het model schrijft de memo, maar voegt uit zichzelf een alinea toe waarin het benoemt dat de analyse is gebaseerd op publiek beschikbare informatie en dat het de specifieke situatie van de klant niet kan beoordelen. Een oudere versie van hetzelfde model schreef dezelfde memo zonder enig voorbehoud. Het verschil: de nieuwere versie heeft via alignment geleerd dat beweringen over investeringsbeslissingen een risico dragen als ze zonder context worden gepresenteerd. De adviseur besluit de waarschuwingsalinea te behouden. Het versterkt de geloofwaardigheid van het advies.

Voorbeeld

Zelfstandig professional

Een freelance journalist vraagt een AI-model om achtergrondinformatie te genereren over de betrokkenheid van een specifiek farmaceutisch bedrijf bij een medicijnschandaal. Het model reageert met een genuanceerde beschrijving van de publiek bekende feiten, benoemt wat bevestigd is en wat omstreden, en vermijdt beweringen die het niet kan verifiëren. Een jaar eerder had het model dezelfde vraag beantwoord met een minder genuanceerd verhaal dat speculatie en feiten door elkaar mengde. Het verschil is alignment: het model heeft geleerd dat het bij gevoelige onderwerpen expliciet moet onderscheiden wat bevestigd is en wat niet. Voor de journalist is dat niet beperkend. Het is precies de houding die ze van een betrouwbare bron verwacht.

08Veelgestelde vragen

Het verschil is wezenlijk. Censuur is het systematisch onderdrukken van informatie om bepaalde standpunten of feiten ontoegankelijk te maken. Alignment is het aanleren van oordeelsvermogen: het model leert onderscheid maken tussen verzoeken die het veilig kan beantwoorden en verzoeken die risico’s met zich meebrengen. Een gealigneerd model kan uitgebreid vertellen over de chemie van explosieve stoffen in een educatieve context, maar weigert stapsgewijze instructies te geven voor het bouwen van een bom. Het verschil zit in de beoordeling van het doel, niet in het onderdrukken van de informatie. In de praktijk gaat die beoordeling soms te ver, en weigert het model vragen die onschuldig zijn. Dat is geen censuur maar een kalibratieprobleem dat modelbouwers actief proberen op te lossen.

Dat is een bekende bijwerking van alignment-training. Wanneer het model leert dat het voorzichtig moet zijn bij gevoelige onderwerpen, generaliseert het soms te breed. Het herkent patronen in de vraag die lijken op riskante verzoeken, bijvoorbeeld bepaalde woorden of thema’s die in de trainingsdata vaak voorkwamen bij schadelijke verzoeken, en past dezelfde voorzichtigheid toe op vragen die in werkelijkheid onschuldig zijn. Modelbouwers werken aan technieken die het model leren beter te onderscheiden tussen daadwerkelijk riskante en oppervlakkig vergelijkbare vragen. Elke nieuwe modelversie probeert dat onderscheid te verscherpen. De ervaring van gebruikers is een van de belangrijkste feedbackbronnen voor die verbetering.

De modelbouwer. Anthropic, OpenAI, Google en andere aanbieders bepalen de principes waarop hun modellen worden getraind. Die principes zijn deels publiek (sommige modelbouwers publiceren hun richtlijnen), deels impliciet in de beoordelingen van de menselijke en AI-beoordelaars die bij het trainingsproces worden ingezet. Er bestaat geen externe standaard of toezichthouder die voor alle modellen dezelfde regels voorschrijft. Dat betekent dat elke modelbouwer eigen afwegingen maakt, en dat modellen van verschillende aanbieders zich op dezelfde gevoelige vraag anders kunnen gedragen. Voor organisaties die AI inzetten, is het relevant om te begrijpen dat het gedrag van hun model niet neutraal is, maar het resultaat van ontwerpkeuzes door de modelbouwer. Het is verstandig om die keuzes te kennen voordat je een model kiest voor een context waar ze ertoe doen.

Waarschijnlijk niet. Alignment is een afspiegeling van menselijke waarden, en die waarden verschuiven over tijd, verschillen tussen culturen en bevatten interne spanningen. Wat vandaag als verantwoord geldt, kan over vijf jaar anders worden beoordeeld. Een model dat vandaag goed gekalibreerd is, kan morgen een nieuw type verzoek tegenkomen dat niet in de trainingsdata zat. Modelbouwers behandelen alignment als een doorlopend proces: elke modelversie wordt opnieuw afgestemd op basis van de nieuwste inzichten, de feedback van gebruikers en de veranderende maatschappelijke verwachtingen. In die zin is alignment vergelijkbaar met beveiliging: het is geen probleem dat je eenmalig oplost, maar een eigenschap die voortdurend onderhoud vraagt.

01Wat alignment is

02Hoe een model leert beoordelen

Hoe dat werkt

RLHF

Varianten op RLHF

03Constitutional AI

04Het spanningsveld

Te weinig alignment

Te veel alignment

De balans

05Wie bepaalt wat “goed” is

06RL voor andere doelen

07Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

08Veelgestelde vragen

09Verder lezen

Alignment

01Wat alignment is

02Hoe een model leert beoordelen

Hoe dat werkt

RLHF

Varianten op RLHF

03Constitutional AI

04Het spanningsveld

Te weinig alignment

Te veel alignment

De balans

05Wie bepaalt wat &#8220;goed&#8221; is

06RL voor andere doelen

07Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

08Veelgestelde vragen

09Verder lezen

05Wie bepaalt wat “goed” is