We zijn nog maar nauwelijks gewend aan de impact die generatieve AI op het dagelijks leven en werken hebben. Maar de ontwikkeling staat niet stil. Jarenlang leek het vanzelfsprekend: wie met AI werkt, doet dat via de cloud. De enorme rekenkracht die taal- en beeldmodellen nodig hebben, kon nergens anders terecht. Maar dat paradigma begint te kantelen. Nu laptops, tablets en zelfs telefoons hun eigen Neural Processing Unit (NPU) krijgen, schuift AI langzaam richting de rand van het netwerk, naar de plek waar de gebruiker zit.
De nieuwe generatie apparaten, waaronder de zogenoemde Copilot+-pc’s van Microsoft, kan compacte AI-modellen lokaal uitvoeren, zonder datacenters ertussen. Ook Apple, Qualcomm en Intel zetten in op diezelfde beweging. Het idee: als de hardware slim genoeg wordt, waarom zou je dan nog elke prompt door de cloud laten verwerken?
De groei van generatieve AI heeft een prijs. Volgens cijfers van de International Energy Agency kan het stroomverbruik van datacenters in 2030 verdubbeld zijn ten opzichte van nu. AI-modellen zijn daar een belangrijke aanjager van. In datacenters draaien GPU’s continu op volle kracht, met forse koelings- en energiekosten tot gevolg. Grote aanbieders investeren miljarden om hun infrastructuur bij te benen. Dat maakt elke inferentie – elke keer dat een model iets voorspelt of genereert – een dure operatie.
Voor zware toepassingen is dat logisch, maar voor alledaagse taken – tekstsamenvattingen, beeldherkenning, transcriptie – is cloudverwerking meestal overkill. Zeker nu apparaten zelf krachtig genoeg worden om zulke modellen te draaien.
De opmars van de NPU
De sleutel tot lokale AI ligt bij de Neural Processing Unit. Waar CPU’s algemene rekenkracht leveren en GPU’s goed zijn in parallelle berekeningen, is de NPU geoptimaliseerd voor de specifieke matrixoperaties van AI-modellen. Fabrikanten als Qualcomm, AMD, Intel en Apple bouwen NPUs direct in hun chips in. Ze leveren rekenkracht in de orde van tientallen TOPS (trillions of operations per second) en kunnen compacte small language models (SLM’s) lokaal uitvoeren.
Een concreet voorbeeld is Microsofts Phi-3.5, een model dat op deze nieuwe pc’s draait zonder internetverbinding. Vergelijkbare strategieën zie je bij Apple’s Neural Engine en Qualcomm’s AI Hub. De gebruiker merkt: minder vertraging, geen dataverkeer, en meer controle over de eigen data.
De voordelen van lokale verwerking gaan verder dan kostenbesparing alleen. Snelheid is de meest directe winst. Een lokaal model reageert vrijwel zonder vertraging, omdat er geen dataverkeer over internet nodig is. Dat maakt toepassingen als spraakbesturing, vertaling en contextuele assistentie vloeiender en natuurlijker.
Privacy is een tweede voordeel. Gegevens blijven op het apparaat; ze hoeven niet te worden doorgestuurd of opgeslagen in externe omgevingen. Dat is vooral relevant in sectoren waar vertrouwelijkheid telt – denk aan gezondheidszorg, overheid of juridische dienstverlening.
Ook beschikbaarheid speelt mee. Een lokaal model blijft bruikbaar zonder internetverbinding, wat handig is bij mobiele toepassingen of in afgesloten netwerken.
Daarnaast maakt lokale verwerking personalisatie eenvoudiger. Een model kan leren van het gedrag of de documenten van de gebruiker zonder dat deze data het apparaat verlaat. Dat scheelt complexe afspraken over datagebruik en privacy.
En dan is er nog het al eerder genoemde energie-aspect. Een datacenter moet duizenden systemen tegelijk koelen en voeden, terwijl lokale apparaten energieverbruik spreiden over miljoenen eindpunten. Daardoor kan de totale belasting van het elektriciteitsnet afnemen – al verschilt dat per gebruikspatroon.
Goedkoper, maar niet altijd
Datacenters profiteren van schaalvoordelen: infrastructuur, koeling en onderhoud worden gedeeld over talloze workloads. De efficiëntie per watt is daardoor hoog. Laptops en telefoons hebben beperkte koeling en werken vaak onder lage belasting, waardoor hun energie-efficiëntie lager ligt. Onderzoek van de Universiteit van Toronto laat zien dat grote generatieve modellen tot 30 kWh per 1 000 inferenties kunnen verbruiken in een datacenter. Kleinere modellen, lokaal uitgevoerd, komen uit op ongeveer 1 kWh voor vergelijkbare taken. Dat lijkt een enorme winst, maar dat verschil wordt kleiner zodra apparaten weinig worden gebruikt of slecht gekoeld zijn. De besparing zit dus vooral in het vermijden van infrastructuurkosten: minder bandbreedte, minder transport, minder cloudabonnementen. Niet elk scenario profiteert daarvan evenveel.
Lokale verwerking kent ook beperkingen. Wie een AI-model intensief gebruikt, merkt dat laptops warmer worden en batterijen sneller leeglopen. NPUs zijn energiezuiniger dan GPU’s, maar verbruiken nog steeds tientallen watt onder belasting. In datacenters wordt die warmte efficiënt afgevoerd; op een apparaat niet.
Daarnaast is er slijtage. Een NPU die dagelijks urenlang draait, veroudert thermisch sneller dan een chip die vooral idle blijft. En softwarematig vraagt lokale inferentie om optimalisatie. Modellen moeten worden gecomprimeerd of gequantiseerd, en elk NPU-type vraagt om eigen drivers en toolchains. Niet elk model laat zich zomaar ‘omzetten’ voor lokaal gebruik.
De meeste experts verwachten daarom geen alles-of-nietsverdeling tussen cloud en device, maar een hybride architectuur. Kleine modellen – voor contextbegrip, tekstsuggestie of beeldherkenning – draaien lokaal. Zwaardere modellen met miljarden parameters blijven in de cloud.
In zo’n hybride model wisselt een toepassing dynamisch tussen lokale en externe verwerking, afhankelijk van de taak. Dat beperkt kosten en latency, terwijl de zware rekentaken beschikbaar blijven. Fabrikanten ontwikkelen intussen frameworks om deze verdeling automatisch te regelen, zodat ontwikkelaars niet handmatig hoeven te bepalen wat waar draait.
Een veranderend ecosysteem
De verschuiving naar lokale AI verandert de verhoudingen in de sector. Chipmakers zetten hun NPU’s centraal in de marketing van nieuwe devices. Softwareleveranciers passen hun producten aan zodat functies ook zonder internetverbinding werken. Tegelijk groeit de open-sourcegemeenschap rond small language models, zoals Mistral 7B Instruct en Llama 3 8B, die dankzij compressie volledig op consumentenchips draaien. Daarmee wordt AI toegankelijker voor kleinere ontwikkelaars en organisaties die hun data liever binnen eigen muren houden.
Voor bedrijven biedt dit ruimte voor maatwerk-AI: een interne chatbot of beeldherkenner die draait op werkplekken of edge-servers, zonder datagegevens naar buiten te sturen. Dat is sneller, veiliger en vaak goedkoper dan een permanent cloudabonnement.
AI verspreidt zich
Generatieve AI verlaat langzaam zijn cloud-monopolie. Niet omdat datacenters verdwijnen, maar omdat rekenkracht dichter bij de gebruiker komt te liggen. De voordelen – snelheid, privacy, autonomie – zijn reëel, al blijft de cloud nodig voor het zware werk. Wat nu in een datacenter gebeurt, zal de komende jaren in toenemende mate plaatsvinden op laptops, telefoons en edge-servers. AI wordt daarmee minder een dienst op afstand, en meer een ingebouwd onderdeel van de hardware zelf.


