Månadens profil: Dana Dannélls
Dana Dannélls är forskare i språkteknologi på Språkbanken Text. Hon jobbar bland annat med att utveckla, förbättra och utvärdera språkteknologiska verktyg och resurser för att göra dem tillgängliga för språkteknologiska applikationer men också för forskare och den intresserade allmänheten.
Vad jobbar du med just nu?
– Just nu ägnar jag en stor det av min tid åt ett projekt som heter Utvärdering och anpassning av en förbättrad OCR-process vid massdigitalisering. Det är ett samarbetsprojekt mellan Språkbanken Text och Kungliga biblioteket, KB, som handlar om att förbättra processen vid massdigitalisering av text. OCR (Optical Character Recognition) är den teknik som används för att överföra bild till maskinläsbar text. I det här projektet kombinerar vi två olika OCR-metoder och genomför en utvärdering och förbättring av de verktyg som används i digitaliseringen. Det gör vi genom systematiska textanalyser av digitaliserade dagstidningar från 1818 till 2018 och med hjälp av lexikon och ordlistor.
Vad är det ni förbättrar?
– Vi förbättrar produktionen av den maskinläsbara texten genom att hitta och rätta felaktiga tecken, bokstäver, bokstavskombinationer och ord. Det finns olika faktorer som påverkar hur korrekt den OCR-producerade texten blir, bland annat tryckteknik, layout och papperskvalitet. Vi vill få fram en metod som fungerar utifrån vilken källa den används på. Eftersom en del av materialet är fritt tillgängligt och sökbart via Språkbanken Text forskningsinfrastrukturer Korp och Karp förbättrar vi även sökresultaten i dessa verktyg.
Vad är det roligaste med ditt jobb?
– Att det är varierat. För mig som språkteknolog är det både roligt och intressant att få arbeta både med äldre och moderna texter och dessutom kunna bidra till att kulturarvsinstitutioner kan tillgängliggöra sitt material i digital form, som i fallet med KB. Där är OCR-projektet en viktig del i den pågående digitaliseringen av den stora mängd dagstidningar de har där.
Vad har du mer på gång?
– Jag är en av redaktörerna för en bok om projektet Svenskt frasnät++ (SweFN++) som kommer att publiceras med bokförlaget John Benjamins i höst. Boken beskriver vårt arbete under det senaste decenniet med att utveckla en lexikal semantik resurs för språkteknologi genom återvinning av befintliga lexikon. I samband med bokpublikationen planerar vi ett officiellt släpp av det svenska frasnätet.
Under vinjetten Månadens profil presenteras personer vars arbete har anknytning till Nationella språkbanken.
Publicerad den
Uppdaterad den