Deep learning: de doorbraak die alles veranderde

01Waarom machine learning niet genoeg was

Machine learning had het AI-vakgebied al fundamenteel veranderd. Systemen die zelf patronen ontdekten in data, zonder dat een mens de regels schreef. Geef zo’n systeem een spreadsheet met klantgegevens en het vond patronen die een mens zou missen.

Maar er was een grens. En die grens had te maken met een stap die van buitenaf onzichtbaar was. Voordat een machine-learning-model aan het werk kon, moest een mens beslissen waar het naar moest kijken. Welke kolommen uit de spreadsheet zijn informatief? Het bedrag? Het tijdstip? De locatie? Die selectie heette feature engineering, en de kwaliteit van het model hing er volledig van af.

Bij gestructureerde data werkte dat. Tabellen, cijfers, categorieën: daar kon een ervaren datawetenschapper de juiste kenmerken selecteren. Maar geef datzelfde systeem een foto, een gesproken zin of een alinea tekst, en het kwam niet ver.

Pixels en patronen

Hier zit een inzicht dat de moeite waard is om even bij stil te staan. Een foto van een kat is voor een mens direct herkenbaar. Maar voor een computer is die foto niets meer dan een raster van miljoenen pixels met elk een kleurwaarde. De vraag “is dit een kat?” vertaalt zich voor een machine naar: “welk patroon in deze miljoenen getallen wijst op een kat?” Dat is een probleem van een totaal andere orde dan patronen vinden in een kolom cijfers. De patronen in beelden, spraak en taal zijn te complex, te gelaagd, te verweven om door een mens te selecteren. Daar liep machine learning vast.

02Lagen op lagen

De oplossing bleek verrassend elegant: stapel meerdere lagen patroonherkenning op elkaar.

Meerdere lagen

Neem een foto van een kat. Voor de computer is dat een raster van miljoenen pixels. De eerste laag zoekt daar de meest basale structuren in: randen, contrasten, kleurovergangen. Niet meer dan dat. De tweede laag pakt die randen en combineert ze tot vormen en contouren. De derde laag herkent in die vormen iets dat op een oor lijkt, iets dat op een poot lijkt. En de hogere lagen brengen het samen. Dit is een kat.

Elke laag bouwt voort op wat de vorige heeft gevonden. Elke laag herkent iets abstracter. En aan het einde staat een systeem dat niet naar pixels kijkt, maar naar betekenis.

Deep learning is een vorm van machine learning die gebruikmaakt van neurale netwerken met meerdere verwerkingslagen. De term “deep” verwijst naar precies dit: de diepte van het netwerk, het aantal lagen. Hoe meer lagen, hoe complexer de patronen die het systeem kan herkennen.

En hier zit de verschuiving die alles veranderde. Bij machine learning moest een mens het model vertellen welke kenmerken ertoe deden. Bij deep learning ontdekt het model dat zelf, laag voor laag, uit de voorbeelden. Het hoeft niet te horen dat randen en vormen informatief zijn bij het herkennen van objecten. Het leert dat zelf. Die ene verschuiving maakte alles wat erna kwam mogelijk.

Dat klinkt als een voor de hand liggende truc: voeg meer lagen toe en het wordt beter. Maar in de praktijk was dat jarenlang niet gelukt. De netwerken werden instabiel, de training liep vast, de resultaten werden slechter in plaats van beter. Pas toen onderzoekers nieuwe manieren vonden om diepe netwerken stabiel te trainen, werd de ware potentie van deep networks duidelijk.

Hier zit een les die vaak wordt gemist als mensen over deep learning praten. De doorbraak was niet alleen een kwestie van een slim algoritme. Drie ontwikkelingen vielen samen, en zonder elk van de drie was het niet gelukt.

Betere algoritmen

De kerntechniek achter deep learning, backpropagation, is een methode om het netwerk te laten leren van zijn fouten. Die methode bestond al sinds de jaren tachtig. Bij echt diepe netwerken liep ze vast: het leersignaal verzwakte met elke laag, waardoor de onderste lagen nauwelijks meeleerden. Pas toen rond 2006 nieuwe trainingstechnieken dat probleem oplosten werd deep learning praktisch bruikbaar.

Enorme hoeveelheden data

Deep-learning-modellen hebben miljoenen voorbeelden nodig om complexe patronen te leren. Die data bestonden niet in de jaren tachtig of negentig. Het internet veranderde dat. ImageNet alleen al bevatte meer dan veertien miljoen gelabelde afbeeldingen. Zonder die schaal aan data had het netwerk nooit genoeg patronen kunnen ontdekken.

Grafische processors

GPU’s (grafische processors, oorspronkelijk ontwikkeld voor computergames) bleken bijzonder geschikt voor de parallelle berekeningen die deep learning vereist. Wat op een gewone processor maanden zou duren, kon op een GPU in dagen. De gaming-industrie heeft de AI-doorbraak onbedoeld mogelijk gemaakt.

Dit is een patroon dat je vaker terugziet in de technologiegeschiedenis: doorbraken ontstaan wanneer meerdere ontwikkelingen die los van elkaar plaatsvonden, tegelijk rijp zijn. Het is een waardevol inzicht voor wie besluiten neemt over technologie. De vraag “is de technologie er klaar voor?” is pas de helft. De andere helft: “zijn de randvoorwaarden er?”

08Veelgestelde vragen

Deep learning is een specifieke vorm van machine learning. Machine learning omvat veel verschillende technieken om patronen in data te ontdekken. Deep learning gebruikt daar specifiek neurale netwerken met meerdere lagen voor. Het grote verschil zit in de feature engineering: bij klassieke machine learning selecteert een mens welke kenmerken het model als input krijgt, bij deep learning ontdekt het model dat zelf. Die lagen maken het mogelijk om complexere patronen te herkennen, met name in ongestructureerde data zoals beelden, spraak en tekst. Voor gestructureerde data (tabellen, cijfers) werken klassieke methoden soms even goed of beter. Deep learning is de aanpak die werkt waar eerdere methoden niet bij konden.

Omdat het het moment was waarop het bewijs overweldigend werd. Het foutpercentage daalde in één stap van 26 naar 15 procent, waar eerdere jaren telkens verbeteringen van minder dan een procentpunt lieten zien. Dat soort sprong is zeldzaam. Het hele vakgebied stapte binnen een jaar over. En het zette een keten in gang die rechtstreeks leidde tot de taalmodellen en AI-systemen die je vandaag gebruikt. Zonder de doorbraak van 2012 was er geen ChatGPT, geen Claude, geen Gemini geweest, althans niet op dit moment.

Je hoeft niet te weten hoe je een neuraal netwerk bouwt. Maar het principe, patronen herkennen via lagen van toenemende abstractie, is wel de moeite waard om te begrijpen. Want het verklaart waarom AI goed is in bepaalde taken (patroonherkenning, classificatie, taalverwerking) en minder goed in andere (logisch redeneren vanuit vaste regels, omgaan met situaties die helemaal niet in de trainingsdata voorkomen). Met dat inzicht stel je betere vragen bij AI-voorstellen. De vraag wordt dan: “past dit type taak bij wat AI goed kan?”

Alle moderne AI-systemen zijn gebaseerd op deep learning. De taalmodellen, beeldgeneratoren en spraaksystemen van nu zijn stuk voor stuk deep-learning-modellen. Wat veranderd is, is de architectuur: de transformer, geïntroduceerd in 2017, heeft eerdere netwerkontwerpen grotendeels vervangen. Maar het onderliggende principe is hetzelfde gebleven: patronen herkennen via meerdere lagen in een neuraal netwerk. Deep learning is niet achterhaald. Het is het fundament waar de huidige generatie AI op staat.

In de meeste gevallen niet op een manier die een mens direct kan volgen. Een deep-learning-model verdeelt de verwerking over miljoenen verbindingen in tientallen lagen. Er is geen leesbaar regelbestand dat zegt: “dit is een tumor omdat kenmerk A en kenmerk B aanwezig zijn.” Er bestaan technieken die achteraf zichtbaar maken welke delen van een beeld of welke woorden in een tekst het zwaarst meewogen. Maar die geven een indicatie, geen volledige verklaring. Voor organisaties is dat een relevante afweging: in domeinen waar uitlegbaarheid ertoe doet, zoals medische diagnostiek of kredietbeoordeling, is de verklaarbaarheid van het model een ontwerpeis. Het hoort bij het begin van een project, bij de keuze welk type model je inzet.

01Waarom machine learning niet genoeg was

Pixels en patronen

02Lagen op lagen

Meerdere lagen

032012: het jaar dat alles kantelde

04De drie dingen die tegelijk moesten samenvallen

Betere algoritmen

Enorme hoeveelheden data

Grafische processors

05Wat deep learning veroverde

AlphaGo

06De stap die nog moest komen

07Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

08Veelgestelde vragen

09Verder lezen