Månadens profil: Erik Lenas
I framtiden kanske du kan chatta med vilket arkivmaterial som helst, och få länkar till de refererade källorna. Det är en av de visioner som Erik Lenas, Lead Data Scientist på Riksarkivets AI-labb, arbetar med att förverkliga.
Vad gör ni på AI-labbet?
– Vi har två huvudspår. Det ena är att effektivisera vår ärendehandläggning. Det andra är att tillgängliggöra Riksarkivets historiska, och mer nutida, analoga material, för forskning. Dels handlar det om att skanna stora mängder dokument, vilket görs på vår digitiseringsanläggning i Fränsta. AI-labbet omvandlar sedan dessa bilder av till exempel svårläst handskrift till digitalt sökbar text. Just nu möjliggör vi nyckelordssökning, men ett framtida fokusområde är att utveckla själva sökfunktionaliteten, det vill säga det sätt på vilket vi interagerar med den digitala texten. I våra arkiv finns ca fem miljarder dokument. Fem procent, dvs 270 miljoner dokument är skannade hittills. Ambitionen är att skanna, digitalisera, och på bästa möjliga sätt tillgängliggöra, allt material som är relevant för forskningen.
Nämn några aktuella projekt!
– Vad gäller effektivisering av vår ärendehandläggning jobbar många delar av Riksarkivet just nu med att skanna och indexera upp ca 80 miljoner fastighetsakter. Vad AI-labbet gör är att lokalisera aktnumret och handskriftstolka det för att göra bilderna sökbara via detta aktnummer, vilket drastigt kortar ner tiden det tar för våra handläggare att svara på fastighetsärenden. I ett annat stort projekt har vi skapat handskriftsigenkänningsmodeller för svensk, historisk löptext, och sedan specialiserat dem på ett arkiv som heter Svea Hovrätt. Över två miljoner sidor har omvandlats till digital text med bra läsbarhet, och sökbarhet. I mars nästa år släpper vi hela arkivet som digital text tillsammans med en uppdaterad, egenutvecklad bildvisare. Det innebär att man kan gå till en volym i Svea hovrätt, se bild och text samtidigt och göra en nyckelordssökning i volymen, eller på bredden över samtliga volymer, och få träffarna som digital text med tillhörande markering i bilden.
Nyckelordssökning ger möjligheter att forska på ett nytt sätt och att ställa nya typer av frågor till ett mycket större material. För en forskare är det ett enormt framsteg att kunna komplettera närläsning med att datadrivet kunna söka sig fram i material som består av flera miljoner sidor. För kulturminnesinstitutioner innebär det ett helt nytt sätt att tillgängliggöra material.
Vilka utmaningar finns?
– De handskrivna texterna kan vara i dåligt skick och innehålla varierad information, löptext eller tabeller till exempel. En annan stor utmaning är att stavningen förändrats mycket genom historien. Nyckelordsökning fungerar därför inte så bra när man jobbar mot historisk text, utan vi behöver en mer avancerad sökfunktionalitet. För att kunna göra det krävs språkmodeller som är tränade på historisk text och dataset för att utvärdera dessa språkmodeller. Vi har inom Swe-clarin, tillsammans med Nationella språkbanken och språkteknologiska institutionen på Uppsala Universitet, tagit fram datasetet SWENER-1800, ett dataset för namnigenkänning i historisk text. SWENER-1800 är det första ner-datasetet för historisk svenska och ett viktigt steg för att öppna upp språkteknologifältet för historisk text, delvis genom att detta dataset gör det möjligt att utvärdera språkmodeller med avseende på hur väl de hanterar historisk svenska.
Vad händer framöver?
– Ett långsiktigt mål är att med hjälp av våra HTR-modeller och historiska språkmodeller skapa en portal där forskare kan chatta med våra arkiv, ställa frågor och få direkta länkar till källorna i materialet. Ett annat, mer direkt förestående mål, är att tillgängliggöra stora mängder transkriberad text för datadriven forskning, genom en egenutvecklad bildvisare med stöd för sökning och för att visa transkriberad text. Den transkriberade texten kan också användas för att träna historiska språkmodeller. Först ut är ca två miljoner sidor från Svea Hovrätt och andra arkiv, men mycket mer kommer att komma. Allt detta kräver förstås en hel del jobb, samt beräkningskraft i form av stora, dyra datorer, men varför inte? AI-labbet har funnits mindre än ett år, men vi har stor potential. Tillsammans med Kungliga Biblioteket är vi en av Sveriges stora datahubbar. Det är förstås väldigt spännande att vara med på den här resan. Vad vi jobbar mot är ett helt nytt sätt att tillgängliggöra vår historia.
Publicerad den
Uppdaterad den