Microsoft versterkt de ontwikkeling van meertalige AI in Europa door nieuwe samenwerkingen met onderzoeksinstellingen, een programma om open taaldatasets beschikbaar te stellen en financiering voor projecten in ondervertegenwoordigde Europese talen.
Microsoft lanceert nieuwe initiatieven om AI-systemen beter af te stemmen op de taalkundige diversiteit van Europa. Het is de bedoeling om AI-modellen te ontwikkelen die Europese talen beter begrijpen. Centraal in deze plannen staat de uitbreiding van meertalige data voor AI-modellen, met steunpunten in Straatsburg en samenwerkingen met Europese instellingen en onderzoekers.
Straatsburg centraal
In Straatsburg plaatst het bedrijf personeel van het Microsoft Open Innovation Center (MOIC) en het AI for Good Lab. Samen met het ICube-laboratorium van de Universiteit van Straatsburg zullen deze teams meertalige datasets ontwikkelen en delen.
De samenwerking omvat ook financiering voor twee postdoctorale onderzoekers en één miljoen dollar aan Azure-cloudtegoeden. Microsoft zal eigen meertalige datasets, zoals tekstdata van GitHub en spraakdata, toegankelijk maken voor Europese ontwikkelaars. Deze datasets worden verspreid via platforms als Hugging Face, in samenwerking met Common Crawl, waarbij moedertaalsprekers helpen om data in verschillende Europese talen te annoteren.
Datasets
Vanaf 1 september kunnen organisaties voorstellen indienen om digitale tekstverzamelingen beschikbaar te stellen voor AI-ontwikkeling in tien ondervertegenwoordigde Europese talen, waaronder Ests, Slowaaks, Maltees, Grieks en Alsacien. Het is de bedoeling dat die datasets op een verantwoorde en ethische manier gedeeld worden. Geselecteerde projecten ontvangen cloudcredits en technische ondersteuning.
lees ook
‘Microsoft worstelt met aan de man brengen Copilot’
Naast het verzamelen van data werkt Microsoft ook aan betere verwerkingstechnieken voor talen met afwijkende schriftsystemen, zoals Grieks, Cyrillisch of Arabisch. Het bedrijf wil hiermee de nauwkeurigheid en betrouwbaarheid van AI-systemen verbeteren in minder voorkomende Europese talen.
Tot slot publiceren MOIC en het AI for Good Lab een technische blauwdruk voor het ontwikkelen van meertalige datasets en lokale taalmodellen. Ze ondersteunen verder onderzoek, delen tools en werken samen met instellingen zoals het Barcelona Supercomputing Center en het Basque Center for Language Technology. Doel is om AI breder toegankelijk te maken binnen de Europese taalgemeenschappen.
Verantwoordelijkheid of concurrentie?
Microsoft kadert de focus op meertalige AI als een cultureel project waar het verantwoordelijkheid in wil opnemen. Kleine landen met unieke talen zijn inderdaad sterk ondervertegenwoordigd op het Internet. Er is nog best wat Nederlands te vinden op het wereldwijde web, maar andere talen zoals Ests en Lets zijn extreem ondervertegenwoordigd.
Langs de andere kant opent die diversiteit net deuren voor lokale projecten. Zo werkt de Letse start-up Convershake aan AI-modellen voor contactcentra, getraind om lokale talen met niche termen. Lets is één van de minst vertegenwoordigde talen online.
“LLM’s zijn vandaag goed in het Engels, maar kunnen niet echt overweg met kleine talen, en al zeker niet met gespecialiseerde woordenschat”, zegt medeoprichter Emīls Vāvere daarover. Dat Microsoft kleinere talen nu actief wil omarmen, is in dat opzicht ook een zet om te concurreren met lokale bedrijven.