AI ger nya möjligheter för transkribering

Hur kan AI användas för att effektivisera arbetet med transkribering? Hanna Willdal berättar om projektet ”Automatisk transkribering av äldre folkminnes- och dialektuppteckningar vid AFG”.

Vad var syftet med projektet?

Projektet har haft ett kvantitativt och ett kvalitativt syfte. Det kvantitativa målet var att med tekniken HTR (Handwritten text recognition) generera omkring 30 000 automatiskt transkriberade sidor arkivmaterial, som därmed blir sökbara i fulltext. Det kvalitativa syftet har har varit att laborera, träna och utveckla modeller för automatisk handskriftigenkänning, layoutanalys och metadatataggning. Utgångspunkten har varit att träna modeller på och att automatiskt transkribera folkminnesuppteckningar som finns tillgängliga på arkivtjänsten Folke, äldre texter som kan vara svåra att tyda, både vad gäller handstil och innehåll. Tekniken främjar nya sätt att använda arkivmaterial på och kan i förlängningen leda till ny forskning och kunskap.

Hur har arbetet gått till?

Vi har arbetat i plattformen Transkribus, där vi utifrån manuellt transkriberat arkivmaterial har tränat HTR-modeller att automatiskt transkribera handskriven text. För att kunna transkribera text i en bild, manuellt eller automatiskt, behöver man först göra en layoutanalys av bilden för att identifiera textregioner och textrader. Det kan vara mer eller mindre tidskrävande beroende på materialets komplexitet. I syfte att effektivisera layoutanalysen har vi tränat baselinemodeller som automatiskt segmenterar bilderna. En fördel har varit att uppteckningarna har haft samma layout i form av en standardiserad arkivblankett. Vi har också laborerat med att automatiskt märka upp materialet med strukturella metadata.

Vilka resultat har projektet gett?

Projektet är avslutat, men arbetet fortsätter. Hittills har projektet genererat omkring 7 000 transkriberade uppteckningssidor. Den automatiska transkriberingen är inte felfri, vilket innebär att de transkriberade sidorna behöver rättas manuellt. Här ska vi ta hjälp av en intresserad allmänhet, på samma sätt som vi genom crowdsourcing redan fått hjälp att transkribera över 10 000 uppteckningssidor i Folke. Ambitionen är att materialet ska publiceras i höst.

Folke: digitala folkminnen

Folke består av två digitala arkivtjänster, Folke sök och Folke forska som innehåller tusentals folkminnesuppteckningar som går att söka i, ladda ned och transkribera. Uppteckningarna är insamlade under 1900-talets första hälft och berör 1800-talets berättartraditioner och föreställningsvärldar, årets högtider och livets festseder, vardagsliv på landsbygden och i städerna.

Folke utvecklas ständigt, till exempel kommer materialet att uppdateras med ljudande material i form av dialektinspelningar.

Folkminnesuppteckning i arkivtjänsten Folke.

Publicerad den

Uppdaterad den

Språkbanken Sam