Mistral lanceert tekst-naar-spraakmodel Voxtral TTS

Mistral lanceert tekst-naar-spraakmodel Voxtral TTS

Mistral lanceert zijn nieuwe tekst-naar-spraakmodel Voxtral TTS, dat negen talen ondersteunt en zich zou onderscheiden door “natuurlijke spraakgeneratie”.

Mistral AI introduceert Voxtral TTS, een nieuw tekst-naar-spraakmodel dat “inzet op natuurlijke, expressieve en meertalige spraakgeneratie voor zakelijke toepassingen”. Het model combineert volgens Mistral lage latency met een relatief compact formaat van 4 miljard parameters, waardoor het geschikt is voor schaalbare AI-spraakagenten.

Focus op natuurlijke en emotionele spraak

Mistral schrijft in een blogpost dat Voxtral TTS verder gaat dan klassieke tekst-naar-spraak door niet alleen tekst correct uit te spreken, maar ook de context en emotie te interpreteren. Het model kan nuances zoals toon, ritme en intentie verwerken, waardoor spraak natuurlijker klinkt. Daarnaast kan het zich aanpassen aan specifieke stemmen. Na enkele seconden referentie-audio te beluisteren, kan het model een stem nabootsen, inclusief accenten en spreekstijl.

Het model ondersteunt negen talen, waaronder Engels, Frans, Duits en Nederlands. Volgens Mistral kan het model ook spraak aan met verschillende accenten, waarbij bijvoorbeeld een Franse stem Engels spreekt met een natuurlijk accent.

Gericht op zakelijke use cases

Mistral positioneert Voxtral TTS voor zakelijke toepassingen. Denk aan geautomatiseerde klantenservice, financiële diensten en real-time vertaling. Het model kan geïntegreerd worden in bestaande AI-stacks. Voxtral TTS is beschikbaar via API en kan getest worden in Mistral Studio. De prijs ligt op 0,016 dollar per 1.000 karakters, wat het model ook economisch interessant maakt voor grootschalige implementaties.