De grafische processing unit (GPU) heeft in de afgelopen jaren een radicale transformatie ondergaan. Wat begon als een oplossing om 3D-graphics te versnellen, is nu de ruggengraat geworden van kunstmatige intelligentie en machine learning. De opkomst van deep learning-modellen zoals GPT en DALL-E heeft niet alleen de vraag naar GPU’s vergroot, maar ook geleid tot nieuwe technologieën specifiek voor AI.
Architectonisch voordeel
In de kern is een GPU ontworpen om duizenden kleine taken tegelijk uit te voeren. En dat is precies wat vereist is voor het aansturen van een beeldscherm: enkele miljoenen pixels tegelijk laten oplichten, en in gaming dan ook nog liefst met een zo hoog mogelijke frequentie. Interessant is dat dit ze ook ideaal maakt voor andere workloads die sterk parallel zijn, zoals matrixvermenigvuldiging – een kerncomponent van deep learning. AI-training vereist grootschalige vermenigvuldigingen van matrices, bijvoorbeeld om de wegingsfactoren van neurale netwerken te berekenen.
In deze context is het dus prettig dat de architectuur van GPU’s is geoptimaliseerd voor bandbreedte in plaats van latentie. Een CPU is ontworpen voor algemene taken, en kun je je voorstellen als een Ferrari: snel en wendbaar, maar er passen maar maximaal twee personen in. Een GPU is in deze metafoor als een personenbus: er kunnen veel personen in, maar die doen er iets langer over om op de plaats van bestemming te komen. In computertermen, heeft een GPU duizenden rekenkernen die in staat zijn om enorme hoeveelheden data parallel te verwerken. Dit is overigens ook de reden dat Bitcoinfarms bestaan uit meerdere computers met zoveel mogelijk grafische kaarten.
Toen eenmaal duidelijk was dat standaard grafische kaarten speciale voordelen hebben voor gebruik bij AI, gingen GPU-ontwerpers aan de slag om de achterliggende architectuur aan te passen en te verbeteren. Dat leidde tot moderne GPU’s, zoals Nvidia’s H100. Deze is uitgerust met Tensor Cores, speciaal ontworpen hardwarecomponenten die matrixbewerkingen versnellen. Zulke cores bieden enorme prestatiewinsten door AI-taken zoals mixed-precision training efficiënter uit te voeren.
AI-processoren
De eerste doorbraken in AI-training werden nog wel bereikt met off-the-shelf gaming-GPU’s. Nvidia’s GTX 1080 Ti en Tesla K80 waren daarin de voorlopers. Maar naarmate deep learning-modellen groter en complexer werden, liepen ook deze GPU’s tegen de grenzen aan. Nvidia kwam in 2017 met de Volta-architectuur en de Tesla V100 GPU, de eerste GPU specifiek ontworpen voor AI-training. Dit betekende een keerpunt in de industrie. Sindsdien leggen GPU-fabrikanten zich steeds meer toe op hardware, specifiek gericht op AI en ML. Nvidia’s H100 GPU (Hopper-architectuur) bouwde voort op deze innovaties met geavanceerde Tensor Cores en ondersteuning voor transformer-modellen.
Met de introductie van de Blackwell-architectuur zet Nvidia een nieuwe stap in deze evolutie. Blackwell biedt volgens Nvidia niet alleen meer rekenkracht, maar ook verbeterde energie-efficiëntie dankzij een ontwerp met meer dan 200 miljard transistors, geproduceerd op een 4nm-proces. Deze GPU’s zijn geoptimaliseerd voor grootschalige AI-modellen zoals GPT-4 en toekomstige generaties. Hiermee wil Nvidia inspelen op de groeiende vraag naar krachtige en schaalbare AI-hardware, terwijl het energieverbruik binnen de perken wordt gehouden, zegt het bedrijf.
Nvidia is weliswaar marktleider, maar er zijn alternatieven in de maak van onder meer AMD en Google. AMD heeft zijn Instinct MI-serie, die zich richt op open-source oplossingen met zijn ROCm-software-stack. Google introduceerde Tensor Processing Units (TPU’s), hardware waarmee het bedrijf inferentie en training van AI-modellen wil versnellen. Met deze alternatieven hoopt de concurrentie de afhankelijkheid van Nvidia’s CUDA-ecosysteem te verminderen. Toch blijft CUDA, met zijn robuuste API’s en uitgebreide ondersteuning, het dominante platform voor AI-ontwikkeling.
Hoe GPU’s helpen bij AI-training
Naast de rekenkracht van GPU’s speelt ook geheugenbandbreedte een grote rol bij het trainen van AI. Modellen zoals GPT-4 en DALL-E 3 vereisen gigabytes aan geheugen voor hun parameters. GPU’s lossen dit probleem op door grote hoeveelheden snelle geheugenmodules (zoals HBM3, high-bandwidth memory) direct op de kaart te integreren.
Een ander belangrijk aspect is de schaalbaarheid. Moderne AI-systemen gebruiken meestal meerdere GPU’s, verbonden via snelle interfaces zoals Nvidia’s NVLink. Dit zorgt ervoor dat modellen verdeeld kunnen worden over meerdere GPU’s, waardoor trainingstijden drastisch worden verkort.
Voorbeelden hiervan zijn supercomputers zoals Nvidia DGX Systems en Microsoft’s Azure AI-infrastructuur, die duizenden GPU’s gebruiken om AI-modellen te trainen. Met dit soort infrastructuren kunnen modellen zoals OpenAI’s GPT binnen dagen in plaats van maanden worden getraind.
De toekomst is aan hybride architecturen
Hoewel GPU’s een centrale rol spelen in AI, zijn er ook andere ontwikkelingen die de toekomst van hardware beïnvloeden. Eén daarvan is de opkomst van hybride architecturen, zoals de Grace Hopper Superchip van Nvidia. Deze combineert GPU- en CPU-functionaliteit in één systeem, wat de efficiëntie van AI-training verder zou moeten verhogen.
Daarnaast is er een toenemende focus op inferentie, de fase waarin een AI-model wordt gebruikt om voorspellingen te doen. Nvidia heeft daarvoor zijn Triton Inference Server die inferentie op schaal mogelijk moet maken, terwijl hardware zoals de Nvidia A100 specifiek is ontworpen om zowel training als inferentie te ondersteunen.
GPU’s en duurzaamheid
Het energieverbruik van AI-training is een groeiend probleem. De training van een modern model zoals GPT-4 vereist een energieverbruik dat kan oplopen tot honderden megawattuur, afhankelijk van de schaal en de complexiteit van het model. GPU’s spelen hier een dubbelzinnige rol: hoewel ze veel energie verbruiken, bieden ze ook een efficiëntere oplossing dan CPU’s. Nvidia en andere fabrikanten werken aan nieuwe technologieën zoals dynamic voltage scaling en
liquid cooling om het energieverbruik van GPU’s te verminderen.
Daarnaast heeft de overgang naar FP8-precisie een aanzienlijke impact op de energie-efficiëntie van AI-training. FP8 is minder nauwkeurig dan het nu nog gangbare FP32, maar door dit slim in te zetten, kunnen GPU’s dezelfde resultaten leveren met een fractie van het energieverbruik.
De snelle vooruitgang in GPU-technologie heeft ook positieve gevolgen voor kleinere bedrijven en individuele ontwikkelaars. Via cloudplatforms als AWS EC2 P5-instances en Google Cloud TPU Pods hebben kleine
bedrijven en start-ups toegang tot dezelfde krachtige hardware als de grote techbedrijven.
De GPU blijft het fundament van AI-training en machine learning. De introductie van hybride architecturen, verbeterde software-ecosystemen en energie-efficiënte oplossingen betekent dat we nog maar aan het begin staan van wat GPU’s voor AI kunnen betekenen.