Er zijn van die momenten in de technologiegeschiedenis waarop alles kantelt. Niet geleidelijk. In één klap. Voor AI was dat moment 2012. Een neuraal netwerk met meerdere lagen won een internationale beeldherkenningswedstrijd met een voorsprong die niemand zag aankomen. Binnen een jaar was deep learning de nieuwe standaard in het AI-vakgebied. Dit is het verhaal van deep learning. De doorbraak die de weg vrijmaakte voor alles wat AI vandaag kan.
Roland Bieleveldt
Machine learning had het AI-vakgebied al fundamenteel veranderd. Systemen die zelf patronen ontdekten in data, zonder dat een mens de regels schreef. Geef zo’n systeem een spreadsheet met klantgegevens en het vond patronen die een mens zou missen.
Maar er was een grens. En die grens had te maken met een stap die van buitenaf onzichtbaar was. Voordat een machine-learning-model aan het werk kon, moest een mens beslissen waar het naar moest kijken. Welke kolommen uit de spreadsheet zijn informatief? Het bedrag? Het tijdstip? De locatie? Die selectie heette feature engineering, en de kwaliteit van het model hing er volledig van af.
Bij gestructureerde data werkte dat. Tabellen, cijfers, categorieën: daar kon een ervaren datawetenschapper de juiste kenmerken selecteren. Maar geef datzelfde systeem een foto, een gesproken zin of een alinea tekst, en het kwam niet ver.
Hier zit een inzicht dat de moeite waard is om even bij stil te staan. Een foto van een kat is voor een mens direct herkenbaar. Maar voor een computer is die foto niets meer dan een raster van miljoenen pixels met elk een kleurwaarde. De vraag “is dit een kat?” vertaalt zich voor een machine naar: “welk patroon in deze miljoenen getallen wijst op een kat?” Dat is een probleem van een totaal andere orde dan patronen vinden in een kolom cijfers. De patronen in beelden, spraak en taal zijn te complex, te gelaagd, te verweven om door een mens te selecteren. Daar liep machine learning vast.
De oplossing bleek verrassend elegant: stapel meerdere lagen patroonherkenning op elkaar.
Neem een foto van een kat. Voor de computer is dat een raster van miljoenen pixels. De eerste laag zoekt daar de meest basale structuren in: randen, contrasten, kleurovergangen. Niet meer dan dat. De tweede laag pakt die randen en combineert ze tot vormen en contouren. De derde laag herkent in die vormen iets dat op een oor lijkt, iets dat op een poot lijkt. En de hogere lagen brengen het samen. Dit is een kat.
Elke laag bouwt voort op wat de vorige heeft gevonden. Elke laag herkent iets abstracter. En aan het einde staat een systeem dat niet naar pixels kijkt, maar naar betekenis.
Deep learning is een vorm van machine learning die gebruikmaakt van neurale netwerken met meerdere verwerkingslagen. De term “deep” verwijst naar precies dit: de diepte van het netwerk, het aantal lagen. Hoe meer lagen, hoe complexer de patronen die het systeem kan herkennen.
En hier zit de verschuiving die alles veranderde. Bij machine learning moest een mens het model vertellen welke kenmerken ertoe deden. Bij deep learning ontdekt het model dat zelf, laag voor laag, uit de voorbeelden. Het hoeft niet te horen dat randen en vormen informatief zijn bij het herkennen van objecten. Het leert dat zelf. Die ene verschuiving maakte alles wat erna kwam mogelijk.
Dat klinkt als een voor de hand liggende truc: voeg meer lagen toe en het wordt beter. Maar in de praktijk was dat jarenlang niet gelukt. De netwerken werden instabiel, de training liep vast, de resultaten werden slechter in plaats van beter. Pas toen onderzoekers nieuwe manieren vonden om diepe netwerken stabiel te trainen, werd de ware potentie van deep networks duidelijk.
Elk jaar organiseerde de academische wereld de ImageNet Large Scale Visual Recognition Challenge, een wedstrijd waarin systemen meer dan een miljoen afbeeldingen moesten classificeren in duizend categorieën. Tot 2012 waren de beste systemen klassieke machine-learning-modellen die elk jaar een klein beetje beter werden.
In 2012 deed een team van de Universiteit van Toronto iets anders. Ze stuurden een diep neuraal netwerk in: AlexNet, gebouwd door Alex Krizhevsky, Ilya Sutskever en Geoffrey Hinton, met acht lagen. Het resultaat: een foutpercentage van 15,3 procent, tegen 26,2 procent voor de beste concurrent. Dat is een sprong van bijna elf procentpunt, waar het veld gewend was aan verbeteringen van minder dan één.
Een dergelijke voorsprong is zeldzaam in de wetenschap. Het was geen discussiepunt, geen kwestie van interpretatie. De cijfers waren overweldigend. Binnen een jaar waren onderzoeksgroepen wereldwijd overgestapt op deep learning. Het bewijs was niet te negeren.
Hier zit een les die vaak wordt gemist als mensen over deep learning praten. De doorbraak was niet alleen een kwestie van een slim algoritme. Drie ontwikkelingen vielen samen, en zonder elk van de drie was het niet gelukt.
De kerntechniek achter deep learning, backpropagation, is een methode om het netwerk te laten leren van zijn fouten. Die methode bestond al sinds de jaren tachtig. Bij echt diepe netwerken liep ze vast: het leersignaal verzwakte met elke laag, waardoor de onderste lagen nauwelijks meeleerden. Pas toen rond 2006 nieuwe trainingstechnieken dat probleem oplosten werd deep learning praktisch bruikbaar.
Deep-learning-modellen hebben miljoenen voorbeelden nodig om complexe patronen te leren. Die data bestonden niet in de jaren tachtig of negentig. Het internet veranderde dat. ImageNet alleen al bevatte meer dan veertien miljoen gelabelde afbeeldingen. Zonder die schaal aan data had het netwerk nooit genoeg patronen kunnen ontdekken.
GPU’s (grafische processors, oorspronkelijk ontwikkeld voor computergames) bleken bijzonder geschikt voor de parallelle berekeningen die deep learning vereist. Wat op een gewone processor maanden zou duren, kon op een GPU in dagen. De gaming-industrie heeft de AI-doorbraak onbedoeld mogelijk gemaakt.
Dit is een patroon dat je vaker terugziet in de technologiegeschiedenis: doorbraken ontstaan wanneer meerdere ontwikkelingen die los van elkaar plaatsvonden, tegelijk rijp zijn. Het is een waardevol inzicht voor wie besluiten neemt over technologie. De vraag “is de technologie er klaar voor?” is pas de helft. De andere helft: “zijn de randvoorwaarden er?”
Na 2012 ging het snel. In de ene discipline na de andere werden bestaande methoden vervangen door deep-learning-modellen die structureel beter presteerden.
Beeldherkenning bereikte menselijk niveau. Systemen konden gezichten herkennen op foto’s, tumoren detecteren op medische scans en kwaliteitsafwijkingen signaleren op een productielijn, met een nauwkeurigheid die vergelijkbaar was met die van getrainde specialisten.
Spraakherkenning maakte een sprong. Stemassistenten werden voor het eerst bruikbaar doordat deep learning gesproken taal veel nauwkeuriger kon omzetten in tekst dan welke eerdere methode ook.
Machinevertaling verbeterde ingrijpend. Vertalingen die jarenlang houterig en letterlijk klonken, begonnen voor het eerst natuurlijk te lezen.
En in 2016 versloeg AlphaGo van Google DeepMind een van de sterkste Go-spelers ter wereld in Go, een bordspel met meer mogelijke stellingen dan er atomen zijn in het heelal. Experts hadden voorspeld dat dit nog minstens tien jaar zou duren. Het duurde vier.
In elk domein was het patroon hetzelfde: deep learning overtrof methoden die tientallen jaren waren verfijnd, vaak met een verrassend grote marge.
Deep learning had bewezen dat neurale netwerken met voldoende lagen, data en rekenkracht taken konden uitvoeren die kort daarvoor onmogelijk leken. Beeldherkenning, spraak, vertaling, strategische spellen: de resultaten waren overtuigend.
Maar voor taal bleven de modellen beperkt.
Het probleem: de netwerken van die periode verwerkten tekst woord voor woord, van links naar rechts. Bij korte zinnen werkte dat prima. Maar bij langere teksten vervaagde de informatie van eerdere woorden voordat het model het einde bereikte.
De oplossing kwam in 2017, met een nieuw type architectuur dat de manier waarop AI met taal omgaat voorgoed zou veranderen: de transformer.
Een radiologieafdeling gebruikt een deep-learning-model dat is getraind op honderdduizenden medische beelden. Het model markeert verdachte gebieden op röntgenfoto’s en CT-scans vóórdat de radioloog ze bekijkt. In vergelijkende studies presteert het model op bepaalde taken vergelijkbaar met ervaren specialisten. Het vervangt de radioloog niet: die neemt de eindbeslissing. Maar het signaleert afwijkingen die in de werkdruk van een volle dag over het hoofd zouden kunnen worden gezien. De technologie erachter is exact dezelfde als die van het ImageNet-moment in 2012: patronen herkennen in beelden via lagen van toenemende abstractie. Alleen is het nu geen wedstrijd meer. Het is dagelijkse praktijk.
Een juridisch adviesbureau zet deep learning in voor documentanalyse. Het model herkent relevante clausules in honderden contracten tegelijk, door de betekenis en structuur van juridische tekst te herkennen. De junior medewerker die eerder contracten handmatig doornam, besteedt de vrijgekomen tijd aan inhoudelijke analyse in plaats van zoekwerk. De technologie werkt op hetzelfde principe als beeldherkenning: laag voor laag herkent het model steeds abstractere patronen. In tekst in plaats van pixels.
Een zelfstandige fotograaf gebruikt deep-learning-tools om een beeldbank van duizenden foto’s automatisch te categoriseren. Het systeem herkent locaties, objecten, gezichten en stijlen zonder dat de fotograaf elke foto handmatig labelt. Wat een weekend handmatig werk zou kosten, is in een uur gedaan. De technologie die erachter zit, is dezelfde als waarmee AlexNet in 2012 de wedstrijd won. Ze is nu verpakt in een tool die iedereen kan gebruiken.
Wie wil weten hoe de transformer-architectuur de stap maakte van deep learning naar de taalmodellen van nu, leest verder bij Transformers en foundation models: de architectuursprong.
Wie wil begrijpen hoe de fase vóór deep learning eruitzag, met machine learning en de verschuiving van regels naar patronen, vindt dat bij Machine learning: van regels naar patronen.
Wie het complete overzicht van alle vijf fases wil zien, keert terug naar De geschiedenis van AI (cluster 1.2).