AMD lanceert Instella: familie van volledig open 3B-taalmodellen

AMD logo

AMD introduceert met Instella een familie van volledig open taalmodellen met 3 miljard parameters. De modellen zijn getraind op AMD Instinct MI300X GPU’s en presteren volgens AMD beter dan bestaande volledig open modellen van vergelijkbare omvang.

AMD introduceert Instella. Instella is een reeks van drie miljard-parameter taalmodellen, volledig getraind op AMD-hardware. De modellen presteren volgens AMD niet alleen beter dan bestaande volledig open modellen, maar concurreren ook met open-weight modellen zoals Llama-3.2-3B, Gemma-2-2B en Qwen-2.5-3B. AMD stelt de modelgewichten, trainingsconfiguraties, datasets en code openlijk beschikbaar om samenwerking binnen de AI-gemeenschap te bevorderen.

Instella bouwt voort op eerdere één miljard-parameter modellen van AMD, die getraind werden op Instinct MI250 GPU’s. Met Instella is het model opgeschaald en getraind met 4,15 biljoen tokens op 128 MI300X-GPU’s. Hiermee toont AMD de schaalbaarheid van zijn hardware bij grootschalige AI-trainingen. Dat is belangrijk, aangezien voor velen Nvidia nog steeds synoniem staat met AI-hardware. Aankondigingen als deze helpen om AMD’s accelerators in de markt te zetten als een interessant alternatief.

Verschillende modellen

Instella bestaat uit verschillende versies: een basis pre-trainingsmodel, een verfijnde versie, en modellen met supervisie en instructie-afstemming. De modellen ondersteunen een sequentielengte tot 4.096 tokens en zijn geoptimaliseerd voor efficiëntie met technieken zoals FlashAttention-2 en Fully Sharded Data Parallelism.

Op benchmarktests, uitgevoerd door AMD, presteert Instella-3B beter dan andere volledig open modellen en komt het dichter bij de prestaties van gesloten en open-weight modellen. Zeker bij workloads zoals MMLU en GSM8K toont het sterke resultaten.

Door Instella open te stellen, wil AMD bijdragen aan AI-onderzoek en -ontwikkeling. Het bedrijf plant verdere verbeteringen, waaronder uitbreiding van de contextlengte en multimodale functionaliteiten.