Månadens profil: Eva Pettersson

Fornisländska texter och polisrapporter från 1800-talet. Historiska texter intresserar Eva Pettersson, forskare i datorlingvistik vid institutionen för lingvistik och filologi, Uppsala universitet. Hon har bland annat arbetat med den första svenska diakroniska korpusen och är även föreståndare för Swe-Clarins K-centrum för diakroniska resurser.

Vad gör du på jobbet?

– Jag skriver program som på olika sätt kan analysera historisk text. Jag har till exempel tagit fram en svensk diakronisk korpus. Jag har också ett särskilt intresse för digital humaniora och arbetar i olika projekt som har koppling till det, till exempel uppbyggnaden av Swe-Clarins K-centrum för diakroniska resurser. Från och med i januari är jag även biträdande föreståndare för Språkbanken-CLARIN, som blir en ny nod i den svenska delen av CLARIN-samarbetet.

Berätta mer om den svenska diakroniska korpusen!

– Det har länge funnits diakroniska korpusar för många språk i världen, men ingen för svenska. Varför inte? Så kläcktes iden för arbetet med korpusen som varit ett samarbete mellan mig på Uppsala universitet och Lars Borin på Språkbanken Text. Jag startade arbetet med att intervjua en fokusgrupp med historiker och språkhistoriker. Vilka texter behövde de och hur skulle de vara tillgängliga? Vilka metadata var viktiga? Jag undersökte hur befintliga diakroniska korpusar var uppbyggda vad gäller genrer och tidsperioder och därefter började jag leta texter. Målet var en korpus som sträcker sig från 1200-talet fram till idag, med både tidstypiska texter och genrer som följer hela tidsperioden, såsom juridiska, vetenskapliga, medicinska och religiösa texter.

Korpusen som blev klar 2020 består av 16 miljarder ord fördelade på texter från fjorton olika genrer. Jag har lagt mycket krut på metadata så att man kan filtrera bort eller fram det som är av intresse. Texterna finns i rent textformat, och i ett format med lingvistisk annotering. Korpusen ska framöver integreras i Korp där den även kommer att få ett sökgränssnitt.

Berätta om K-centrumet för diakroniska resurser!

– K-Centrumet är ett samarbete mellan flera parter: Datorlingvistikgruppen vid Uppsala universitet, Göteborgs forskningsinfrastruktur för digital humaniora (GRIDH), Riksarkivet och Språkbanken Text. K-Centrumet erbjuder forskare rådgivning och praktisk hjälp, till exempel med lagring och underhåll av resurser eller tillgängliggörande av diakroniska korpusar. Vi kan också hjälpa till med analysverktyg med fokus på historisk text.

Vad gör du mer just nu?

– Jag arbetar med en korpus, SWENER-1800, som innehåller manuellt uppmärkta namnentiteter i 1800-talstext, bland annat polisrapporter och tidningstext. Korpusen är en spännande resurs för forskare och ger också möjlighet att träna system som automatiskt kan hitta namn i 1800-talssvenska. Jag samarbetar också med forskare på Institutionen för nordiska språk i ett projekt som handlar om förkortningsbruket i fornisländska texter. Det finns många tidigare studier av förkortningsbruket i fornisländska, men främst kvalitativa sådana. Det unika med vår studie är att vi tack vara datorlingvistiska metoder har möjlighet att kvantifiera de hypoteser som tidigare lagts fram.

Vad driver dig?

– Jag gillar att jobba med digital humaniora. Att arbeta tvärvetenskapligt med historiker och språkvetare är spännande och väldigt lärorikt. Vidare är det intressant att arbeta med äldre texter. I vanlig språkteknologi har man tillgång till väldigt mycket text. I historiska texter är tillgången till material begränsad, vilket innebär att jag behöver jobba mer kreativt och mer lingvistiskt. Det gillar jag.

Publicerad den

Uppdaterad den

Swe-Clarin
Språkteknologi
Eva Pettersson

Eva Pettersson, forskare i datorlingvistik vid institutionen för lingvistik och filologi, Uppsala universitet. Foto: Mikael Wallerstedt.