Nvidia vindt dat AI-infrastructuur beoordeeld moet worden op kost per tokens: een maatstaf waar de nieuwe Blackwell GPU’s naar verluidt enorm goed op scoren.
Nvidia hekelt in een blogpost dat bedrijven de verkeerde maatstaf gebruiken om AI-infrastructuur te beoordelen. In plaats van te kijken naar de kostprijs per GPU-uur of FLOPS per dollar, zou de echte benchmark kost per token moeten zijn. Dat is de totale kost om één miljoen AI-tokens te produceren.
Datacenters zijn volgens Nvidia intussen uitgegroeid tot “AI-fabrieken” die niet langer enkel rekenkracht leveren, maar vooral “intelligentie produceren in de vorm van tokens”. Daarom is het volgens Nvidia niet relevant om infrastructuur enkel te beoordelen op pure prestaties. Het is accurater om te kijken naar de economische efficiëntie van AI-workloads.
Tokens zijn daar belangrijk. Dat zijn kleine stukjes data waarmee AI-modellen werken om tekst, code of andere output te genereren. Je kan ze zien als een soort eenheid voor AI-denkwerk en als economische maatstaf voor AI. Hoe sneller en goedkoper tokens verwerkt worden, hoe meer AI opbrengt.
Interne keuken
Het bedrijf zet die stelling kracht bij met een vergelijking tussen zijn eigen Hopper- en Blackwell-generatie GPU’s. Op die laatste moeten gebruikers echter nog wachten door toeleveringsproblemen. Per GPU kost Blackwell ongeveer twee keer zo veel als Hopper. Kijk je naar FLOPS per dollar, dan is Blackwell twee keer zo efficiënt. Maar de token output vertelt een ander verhaal: Blackwell levert 65 keer meer tokens per seconde per GPU, 50 keer meer tokens per megawatt, en de kost per miljoen tokens ligt 35 keer lager (0,12 dollar tegenover 4,20 dollar).
De tokenkosten moeten volgens Nvidia dus omlaag om de omzet te maximaliseren. Dat kan door de geleverde tokenoutput te vergroten. Maar hoe wordt die tokenoutput bepaald? Nvidia omschrijft het als een ‘inferentie ijsberg’. De prijs om een GPU een uur te gebruiken, is het zichtbare deel boven water. Wat daaronder zit, van software tot netwerkarchitectuur, bepaalt hoeveel tokens een systeem per seconde afgeeft, en dus wat ieder token uiteindelijk zou kosten.

Bron: Nvidia
Tokenkosten als nieuwe norm
Als je AI-infrastructuur vergelijkt op basis van rekenkosten of FLOPS per dollar krijg je volgens Nvidia een onvolledig beeld van inferentiekosten. De focus naar kost per token is logisch, want zo kan Nvidia aantonen hoe efficiënt de nieuwe GPU’s zijn en dat ze goedkope AI-architecturen mogelijk kunnen maken.
In feite verandert Nvidia het narratief. Waar hardware beoordeeld werd op basis van een objectieve prestatiemaatstaaf (FLOPS) en het verbruik dat daaraan gelinkt is, wil Nvidia organisaties nu overtuigen om naar tokens per watt te kijken.
Daar zit iets in, maar zoals Nvidia zelf zegt is de rest van de hardware- en softwarestack ook relevant voor het aantal verwerkte tokens, niet alleen de GPU zelf. Dat Nvidia een heel software-ecosysteem voorziet, en zijn GPU’s aanbiedt in totaaloplossingen met eigen CPU’s (Vera Rubin en DPU’s), past mooi in dat verhaal.
Tokens per watt zijn zo geen objectieve maatstaaf om de pure prestaties van een GPU te vergelijken, maar kunnen wel een inzicht bieden op de efficiëntie van een totaal AI-systeem. Dat Nvidia, als aanbiedere van een volledige geïntegreerde stack, de tokens verkiest als eenheid, hoeft daarom niet te verwonderen.
