AI bestaat niet in de cloud, maar in hardware

Auteur: ServerDirect

June 1, 2026

De publieke aandacht voor AI gaat vrijwel volledig naar modellen, chatbots en toepassingen. Wat zelden wordt besproken, is de fysieke werkelijkheid die al die software mogelijk maakt. AI-modellen trainen op GPU-clusters die duizenden keren meer rekenkracht vereisen dan een standaard server. Inferencing op schaal vraagt om systemen die honderdduizenden verzoeken per seconde afhandelen met een latency onder de tien milliseconden. Data pipelines voor AI verwerken dagelijks honderden terabytes. Zonder de juiste infrastructuur bestaat er geen AI: alleen code die nergens op draait.

Voor organisaties die serieus investeren in AI-toepassingen is de infrastructuurvraag dan ook niet optioneel. Het is de eerste vraag die gesteld moet worden, voordat er ook maar een euro wordt geïnvesteerd in software, licenties of data-engineering talent. De keuze voor de verkeerde hardware, architectuur of leveranciersrelatie heeft gevolgen die jarenlang doorwerken. Dat is niet overdreven: een GPU-cluster dat te vroeg of te laat wordt aangeschaft, dat onvoldoende geheugenbandbreedte heeft voor de gekozen modelgrootte, of dat vertrouwt op een netwerkarchitectuur die de inter-node communicatie beperkt. Dat zijn fouten die pas zichtbaar worden als de productieomgeving al operationeel is en herontwerp een kostbare ingreep betekent.

Van experiment naar productie: wat verandert er in de vereisten?

De meeste AI-trajecten beginnen als experiment: een team van data scientists met toegang tot een cloudplatform, een GPU-instance en een dataset. In die fase zijn de infrastructuurvereisten relatief beheersbaar. De workload is intermittent, de kosten zijn variabel en de consequenties van suboptimale performance zijn beperkt.

Wanneer een model van waarde blijkt en de organisatie besluit het op productieniveau in te zetten, veranderen de vereisten fundamenteel.

Het gaat dan niet meer om maximale performance voor één trainingssessie, maar om beschikbaarheid, voorspelbaarheid, beveiliging en kostenbeheer over langere periodes. Cloudkosten die exponentieel stijgen zodra workloads structureel worden. Latency-problemen die ontstaan doordat inferencing op gedeelde cloudinfrastructuur plaatsvindt. Compliance-vraagstukken die opduiken zodra de data gevoelig blijkt te zijn. Governance-problemen over wie toegang heeft tot de systemen waarop modellen draaien.

On-premise infrastructuur, zorgvuldig ontworpen en schaalbaar opgebouwd, is voor veel van deze organisaties de meest rationele stap. Voor Europese organisaties die onder de GDPR opereren, is het in veel gevallen ook de meest compliënte keuze.

Training versus inferencing: twee fundamenteel verschillende workloads

Een van de meest gemaakte fouten bij het ontwerpen van AI-infrastructuur is het behandelen van training en inferencing als varianten van hetzelfde probleem. Ze zijn fundamenteel anders in hun hardwarevereisten, en een infrastructuur die voor de één is geoptimaliseerd presteert per definitie suboptimaal voor de ander.

Training van grote modellen is een compute-intensieve, communicatie-zware workload. Het vereist GPU's met hoge geheugenbandbreedte, doorgaans HBM-geheugen met meer dan twee terabytes per seconde bandbreedte per GPU, en snelle interconnects tussen GPU's en nodes. De trainingstijd voor moderne grote taalmodellen met honderden miljarden parameters bedraagt maanden op duizenden GPU's. De efficiëntie van de infrastructuur heeft daardoor directe impact op de kosten en het tempo van modelontwikkeling.

Inferencing stelt andere eisen. De focus ligt op lage latency per verzoek en hoge doorvoer per tijdseenheid. In veel gevallen zijn kleinere, energiezuinigere GPU's of gespecialiseerde inferencing-accelerators efficiënter dan trainings-GPU's. De keuze voor de juiste hardware voor inferencing wordt bovendien beïnvloed door modelgrootte, precisieniveau en de vereiste doorvoer.

De rol van storage in AI-pipelines

In veel AI-infrastructuurontwerpen wordt storage behandeld als een onderdeel dat simpelweg "voldoende" moet zijn. In de praktijk is storage vaak het eerste en meest bepalende knelpunt voor de werkelijke trainingsperformance. Een GPU-cluster dat wacht op data, traint niet; het wacht. En als de I/O-bandbreedte van de storage onvoldoende is om GPU's continu van data te voorzien, wordt de meest kostbare component van de infrastructuur suboptimaal benut.

Voor typische AI-trainingsworkloads geldt dat storage minimaal in staat moet zijn om data te leveren op een snelheid die de GPU-geheugenbandbreedte kan bijhouden. Bij moderne GPU-clusters met gecombineerde geheugenbandbreedte in de orde van terabytes per seconde betekent dit parallelle opslag met NVMe-drives, een snel netwerk naar de compute nodes en een parallel filesysteem dat gelijktijdig door honderden nodes kan worden beschreven en gelezen.

Lustre en BeeGFS behoren tot de meest gebruikte opslagplatformen binnen HPC- en AI-omgevingen.

Architectuurkeuzes met langetermijngevolgen

De hardware die een organisatie kiest voor haar AI-infrastructuur heeft gevolgen die ver voorbij de eerste trainingsrun reiken. GPU-architectuur, geheugentype, koelingsoplossing, power delivery en rackdichtheid bepalen samen de operationele werkelijkheid voor de komende drie tot vijf jaar.

Liquid cooling is hiervan een illustratief voorbeeld. Moderne high-end GPU's hebben een thermisch vermogensprofiel van 400 tot 700 watt per kaart. In een server met acht GPU's betekent dat een warmteproductie van meer dan vijf kilowatt per server. Organisaties die vandaag investeren in luchtgekoelde systemen zonder rekening te houden met de koelcapaciteit van hun datacenter, kunnen binnen enkele jaren geconfronteerd worden met kostbare aanpassingen.

Europese context en digitale soevereiniteit

Voor Europese organisaties speelt bij infrastructuurkeuzes nog een extra dimensie die voor hun Amerikaanse tegenhangers vaak minder urgent is: data-soevereiniteit.

Wie AI-training uitvoert op cloudplatformen buiten de Europese Unie, plaatst trainingsdata en daarmee waardevolle modelkennis op infrastructuur die niet onder Europese jurisdictie valt. Voor organisaties binnen healthcare, finance en overheid is dat vaak geen acceptabele situatie.

On-premise infrastructuur, geassembleerd en beheerd in Nederland, biedt de controle die nodig is om aan Europese regelgeving te voldoen en om governance over data, modellen en systemen intern te houden.

FAQ

Wat is het minimale GPU-geheugen voor LLM-training?

Dat hangt af van de modelgrootte en het precisieniveau. Een model met 7 miljard parameters vereist bij float16-precisie minimaal ongeveer 14 GB GPU-geheugen, exclusief activatiegeheugen. Grotere modellen (70B+) passen niet op één GPU en vereisen multi-GPU-opstellingen met snelle interconnects.

Vuistregel: aantal modelparameters × 2 bytes als absolute ondergrens voor het benodigde GPU-geheugen.

Wanneer is on-premise rationeler dan cloud?

Zodra een workload structureel en voorspelbaar is, de data gevoelig is, de latency-eisen laag zijn of compliance dit vereist. In research- en enterpriseomgevingen met stabiele AI-workloads is on-premise over een periode van één tot drie jaar vaak goedkoper en beter beheersbaar dan vergelijkbare cloudcapaciteit.

Hoe bepaal je de juiste opslagcapaciteit voor AI?

Bereken de grootte van de dataset, voeg ruimte toe voor checkpoints — doorgaans twee tot vijf keer de modelgrootte per checkpoint — houd rekening met meerdere modelversies en reserveer minimaal dertig procent groeiruimte.

Voor parallelle storage is bandbreedte vaak belangrijker dan capaciteit.

Welke fabrikanten zijn relevant voor AI-servers?

Voor GPU-servers behoren Supermicro, Dell Technologies, HPE en Gigabyte tot de meest gebruikte platformen. NVIDIA H100, H200 en Blackwell vormen momenteel de referentie voor trainingsworkloads. AMD Instinct is een sterk alternatief, maar beschikt over een kleiner software-ecosysteem.

Werkt uw organisatie aan de stap van AI-experiment naar productie-infrastructuur?

De engineers van ServerDirect begeleiden organisaties bij het volledige traject: van workload-analyse en architectuurontwerp tot implementatie, optimalisatie en 24/7 onsite support.

Plan een adviesgesprek via:

https://www.serverdirect.nl/talk-to-expert

Schrijf in voor onze Nieuwsbrief

Hebt u vragen of hulp nodig? Wij helpen u graag.

15+ jaar ervaring • Preferred partner van Dell, HPE, Supermicro en meer • Advies op maat binnen 1 werkdag • Snelle levering & installatie • Wereldwijde 24/7 onsite support • Laagste prijsgarantie

Leverancier van betrouwbare serveroplossingen en opslag. Systeemintegratie van servers en opslag van fabrikanten zoals Supermicro, ASUS, NetApp, HPE, Dell, GIGABYTE, ASRock, Western Digital, Seagate, Micron, Chenbro, Toshiba. Wij leveren wereldwijd: Brussel, Parijs, Madrid, Rome, Amerika, Dubai en meer.