Månadens profil: Elena Volodina

Elena Volodina är forskare inom lingvistik, språkteknologi och språkvetenskaplig databehandling vid Institutionen för svenska, flerspråkighet och språkteknologi i Göteborg. Just nu är hon aktuell med projektet ”Mormor Karl är 27 år”, som fått 18 miljoner kr i forskningsbidrag från Vetenskapsrådet.

Grattis! Vad händer nu?

– Jag avslutar ett projekt som startade 2018 där vi undersökte hur språket utvecklas hos personer som lär sig svenska som sitt andra språk. Vi har analyserat uppsatser och byggt upp korpusar och ordlistor. Nu ska uppsatserna ingå som data tillsammans med texter från sociala medier i projektet ”Mormor Karl är 27 år” där vi ska utveckla språkteknologiska algoritmer som automatiskt byter personuppgifter till pseudonymer i texter.

Vad är syftet med projektet?

– Utgångspunkten är att det är brist på forskningsdata. Personligt innehåll hindrar ofta data från att vidareanvändas eftersom risken finns att personer kan identifieras via namn eller yrke, eller att känslig information om till exempel politiska åsikter kan läcka ut.

Vårt mål är att skapa språkteknologiska algoritmer som kan upptäcka personuppgifter och känslig information i stora textmassor och automatiskt ersätta detta med pseudonymer. På så sätt kan personuppgifter skyddas och alla texter användas i olika slags forskning. Algoritmerna ska också kunna användas för andra typer av texter där det finns personlig information. Domstolsinspelningar, sociala medier och medicinska rapporter, till exempel.

Vilka är utmaningarna?

– Många stora frågor ingår i projektet. Till exempel hur pseudonymisering påverkar texter för andra forskare. Hur påverkas läsbarheten? Datans användbarhet för forskning? Hur upptäcker vi personuppgifter som är felstavade eller som uttrycks med ord som har flera betydelser? Hur kan vi säkerställa att texten som helhet stämmer överens med kontexten? Det finns en mängd triviala och kvalificerade problem som vi behöver lösa.

Vad händer nästa år?

– 2023 arrangerar vi en kick off, förbereder datan för experiment och startar själva processen när vi har doktorander på plats. Jag ser också fram emot att jobba med andra, till exempel Clarin, och utbyta erfarenheter. Det finns många grupper i Sverige och världen som är väldigt intresserade av den här frågan så nu ska vi koordinera våra insatser.

Mormor Karl är 27 år

Projektet koordineras av Göteborgs universitet och samlar kompetens inom språkteknologi, lingvistik och datavetenskap vid Göteborgs universitet, Umeå universitet och Helsingfors universitet. Projektet pågår från 2023 till 2028 och finansieras med 18 miljoner av Vetenskapsrådet.

Projektdeltagare

Projektledare Elena Volodina, forskare och docent vid institutionen för svenska, flerspråkighet och språkteknologi, Göteborgs universitet, (huvudsökande). Simon Dobnik, professor vid institutionen för filosofi, lingvistik och vetenskapsteori, Göteborgs universitet, (PI). Xuan-Son Vu, postdoktor vid institutionen för datavetenskap, Umeå universitet. Therese Lindström Tiedemann, universitetslektor, finskugriska och nordiska avdelningen, nordiska språk, vid Helsingfors universitet. Två doktorander - en vid Göteborgs universitet och en vid Helsingfors universitet.

Elena Volodina, forskare inom lingvistik, språkteknologi och språkvetenskaplig databehandling. Foto: Jessica Oscarsson.

Publicerad den

Uppdaterad den