Höstworkshop i repris: Språkteknologi för de nationella minoritetsspråken

Hur skapar man språkteknologi för minoritetsspråk? På årets Höstworkshop presenterade Rickard Domeij, Elina Kangas och Jacob Larsson hur Språkbanken Sam arbetar.

Vad jobbar ni med just nu?

– Vi skapar språkteknologiska verktyg för att man ska kunna använda och forska i nationella minoritetsspråk. Det gör vi på flera olika sätt, men vi har bara börjat.

En förutsättning är att veta hur långt ett språk har kommit vad gäller språkteknologi. I samarbete med ASTIN, arbetsgruppen för språkteknologi i Norden, har vi tagit fram en rapport för att kartlägga vilka resurser som finns för de nordiska minoritetsspråken.

Vidare arbetar vi just nu med grundläggande språkteknologi för meänkieli och romani arli. Vi tar fram språkmodeller som kan användas för att skapa stavningskontroll och textanalysverktyg så att språkforskare ska kunna använda Korp för att söka i texter på meänkieli och arli, inte bara på svenska. Det är helt nödvändigt för att det ska gå att forska om och använda minoritetsspråken på någorlunda lika villkor.

Därför har vi också arbetat med en utbildningssatsning i språkteknologi i samarbete med universitetet i Tromsö. Kursen riktade sig till språkvårdare av små språk i Norden som i sin tur ska fungera som ambassadörer och sprida kunskaper om språkteknologi och språkteknologiska verktyg till exempelvis forskare, studenter, lärare och skribenter i sina språkområden.

Vilka utmaningar finns?

– Språkteknologi kräver att ett språk är standardiserat, vilket inte är självklart för de nationella minoritetsspråken. Vilka varieteter ska vara officiella? Vilka tecken ska användas? Och så vidare. Det här behöver språkvårdare och språkanvändare komma överens om, och det är inte alltid enkelt.

En annan utmaning är att nästan alla satsningar just nu går till språkteknologi som använder maskininlärning på stora textmängder, även kallad AI. Men de flesta nationella minoritetsspråk har inte tillräckligt med text för att träna sådana språkmodeller. Istället behöver vi skapa språkmodeller som baseras på lexikon och grammatik, och göra det i samarbete med språkvetare som kan språken.

Eftersom det oftast saknas kommersiella intressen har staten ett stort ansvar att se till att det utvecklas språkteknologi för de nationella minoritetsspråken och att den finns tillgänglig på de stora techföretagens plattformar, vilket också är ett stort problem.

Vad händer framöver?

– Just nu byggs en gemensam portal som ska bli en samlingsplats för att sprida information om och samverka kring språkteknologi för minoritetsspråk i Norden. Där ska det gå att ladda ner allt från tangentbordslayout och autokorrigering till mer avancerade funktioner och verktyg som grammatikkontroll och maskinöversättning beroende på vad som finns för språket. Portalen koordineras av ASTIN och en grundläggande version beräknas vara klar i slutet av året.

Elina Kangas, Jacob Larsson och Rickard Domeij.

Elina Kangas, Jacob Larsson och Rickard Domeij på Språkbanken Sam. Foto: Staffan Melin.

Publicerad den

Uppdaterad den

Event
Språkteknologi