Nvidia lanceert open dataset en spraakmodellen voor Europese talen

AI-vertalingen

Nvidia lanceert een nieuwe dataset die de ontwikkeling van AI-vertaling voor Europese landen moet ondersteunen.

Nvidia heeft een open dataset en twee AI-modellen uitgebracht die gericht zijn op meertalige spraakherkenning en vertaling. De nieuwe Granary-dataset bevat ongeveer een miljoen uur audio en moet de ontwikkeling van spraaktoepassingen in 25 Europese talen versnellen, waaronder Nederlands. De twee modellen genaamd Canary-1b-v2 en Parakeet-tdt-0.6b-v3 zijn bedoeld om te tonen hoe de dataset gebruikt kan worden.

Taaldataset

De Granary-dataset werd ontwikkeld in samenwerking met Carnegie Mellon University en Fondazione Bruno Kessler. Ze bestaat uit ongeveer 650.000 uur voor spraakherkenning en 350.000 uur voor vertaling. De gegevens zijn gestructureerd met behulp van Nvidia’s NeMo Speech Data Processor. Daardoor is handmatige annotatie grotendeels vermeden. De dataset is open source en beschikbaar op GitHub.

Tegelijk met Granary stelt Nvidia ook twee nieuwe modellen beschikbaar via Hugging Face. Het gaat om Canary-1b-v2, een model met een miljard parameters, en Parakeet-tdt-0.6b-v3, een kleiner model geoptimaliseerd voor snelle transcriptie.

Beide modellen ondersteunen 25 Europese talen waaronder Nederlands, maar ook Bulgaars, Tsjechisch, Deens, Duits, Grieks, Engels, Spaans, Ests, Fins, Frans, Kroatisch, Hongaars, Italiaans, Litouws, Lets, Maltees, Nederlands, Pools, Portugees, Roemeens, Slowaaks, Sloveens, Zweeds, Oekraïens, Russisch.

Productieomgevingen

De modellen zijn bedoeld voor gebruik in toepassingen zoals meertalige chatbots, realtime vertaaldiensten en spraakgestuurde klantenondersteuning. Parakeet richt zich op lage latentie en kan audiosegmenten van meer dan 20 minuten in één keer verwerken. Canary biedt volgens Nvidia een hoge nauwkeurigheid bij complexere transcriptie- en vertaalopdrachten.

Volgens tests van het team is er voor Granary tot de helft minder trainingsdata nodig om dezelfde nauwkeurigheid te bereiken als met bestaande datasets. Ontwikkelaars kunnen met deze dataset en modellen sneller spraak-AI-oplossingen bouwen, ook voor ondervertegenwoordigde talen.