Månadens profil: Krister Lindén
Hur kan språkteknologi underlätta forskning – och ge industrin möjligheter att utveckla appar för små språk? Det är frågor som intresserar Krister Lindén, teknologidirektör i språkteknologi på avdelningen för digital humaniora vid Helsingfors universitet, nationell koordinator för FIN-CLARIN, ledare för FIN-CLARIAH, där DARIAH-FI ingår, föreståndare för Språkbanken i Finland och sedan första januari i år ordförande för Språkbankens styrgrupp.
Vad gör du på jobbet?
– Jag ägnar mig åt allt från medelsanskaffning och forskningsledning till att möjliggöra forskning för andra. Bland annat leder jag CLARIN ERICs forum för de nationella koordinatorerna. I höstas gick Finland med i ALT-EDIC, en europeisk datainfrastruktur som tillgängliggör och förmedlar dataresurser som medieföretag, företag och den offentliga sektorn kan använda för att tillgängliggöra sina data för industribruk. Just nu planerar jag ett seminarium om lagtekniska frågor när språkdata görs tillgängliga för forsknings- och industriändamål.
Jag leder även ett av teamen inom The Centre of Excellence in Ancient Near Eastern Empires som tillämpar språkteknologi på forna Mellanösterns kilskriftstexter, det vill säga kilformade tecken på lertavlor. Vi forskar i texter på sumeriska och arkadiska, språk som under lång tid var världsspråk i Mellanöstern på samma sätt som latinet i Europa, men som slutade användas när imperierna gick under. Tio procent av texterna är translittererade, transkriberade och lemmatiserade. Det vore intressant att läsa resten av lertavlorna med hjälp av AI, men det är en utmaning att göra OCR på lertavlor eftersom de är tredimensionella.
Vad händer framöver?
– Jag deltar i olika projekt för att utveckla multimodala språkmodeller för minoritetsspråk, något som hittills krävt stora transkriberade dataresurser. I projektet Donera prat samlade Språkbanken i Finland in fyra tusen timmar vardagsfinska som nu kan användas både för akademisk och industriell språkforskning och för att utveckla AI-applikationer. Nu har vi startat projektet LARENA, ett samarbete med KAVI, Finlands nationella audivisuella institut, som samlar in och arkiverar radio- och tv-program i Finland. Bland annat har de ca 30 000 timmar program på samiska som kan användas för att skapa audiomodeller med ostyrd inlärning. Modellerna kan sedan adapteras med en mindre mängd transkriberade data för att få goda taligenkänningsresultat.
Språkbanken i Finland samarbetar även med universitetet i Tromsö och KTH och har använt deras transkriberade data från sameparlamentet för att adaptera en stor språkmodell för samisk taligenkänning. Grundtanken är att utveckla metoder så att industrin får en grund att stå på för att utveckla språkteknologi för små språk.
Vad driver dig?
– Som barn ville jag uppfinna en maskin som kunde översätta mellan olika språk. Hittills har det dock varit lättare att själv lära mig nya språk än att lära en maskin, men vi börjar närma oss. Nu är min viktigaste uppgift att göra det möjligt för andra att bedriva språkforskning och att med hjälp av språkdata utveckla ny teknologi. Det ska bli spännande att bidra till Språkbankens arbete i Sverige!
FIN-CLARIN
Består av alla finska universitet som bedriver språk- och språkteknologisk forskning, Institutet för de inhemska språken (Kotus) samt CSC-IT Centre for Science. FIN-CLARIN är medlem i CLARIN ERIC, som syftar till att bygga upp en gemensam infrastruktur för socialvetenskaper och digital humaniora i Europa. FIN-CLARIN driver Språkbanken i Finland Länk till annan webbplats. som erbjuder olika språkresurser som korpusar, lexikala resurser och verktyg. Läs mer om FIN-CLARIN
Länk till annan webbplats..
DARIAH-FI
En nationell forskningsinfrastruktur som bygger och delar digitala verktyg, data och arbetsflöden för att underlätta högkvalitativ forskning inom naturvetenskap och humaniora. DARIAH-FI siktar på att bli den nationella noden för DARIAH-EU och ge nya möjligheter till internationellt samarbete genom att erbjuda finländska universitet och forskningsinstitut full tillgång till centrala europeiska resurser inom digital humaniora och socialvetenskap. Läs mer om DARIAH-FI Länk till annan webbplats..
FIN-CLARIAH
FIN-CLARIN och DARIAH-FI bildar tillsammans FIN-CLARIAH, en forskningsinfrastruktur för samhällsvetenskap och humaniora. Läs mer om FIN-CLARIAH Länk till annan webbplats..
Publicerad den
Uppdaterad den

Krister Lindén, teknologidirektör i språkteknologi på avdelningen för digital humaniora vid Helsingfors universitet. Foto: Veikko Somerpuro.