Snart premiär för ny svensk korpus

Svenskan har länge saknat en diakronisk korpus, det vill säga en digitaliserad samling texter som sträcker sig över lång tid. Men nu arbetar Eva Pettersson, datorlingvist vid Uppsala universitet, med att ta fram en textsamling på flera miljarder ord som kommer röra sig från fornsvenska till nutid.

Korpusar är stora textsamlingar eller transkriptioner av taldata. De är sammanställda för att ge en representativ bild av exempelvis ett visst språk, och med hjälp av en korpus kan en forskare använda autentiska exempel för att undersöka språket.

– En diakronisk korpus innehåller texter över en lång tidsperiod. Då kan till exempel språkhistoriker få bättre överblick över hur språkutvecklingen sett ut för svenskan ur ett historiskt perspektiv och de kan även lättare jämföra med andra språk. Vi tror att det är värdefullt att ta fram den här korpusen just för att möjliggöra forskning i stor skala på svenskans utveckling, berättar Eva Pettersson.

Diakroniska korpusar finns redan för många andra språk men är en lucka just när det gäller svenskan. Idag får den som vill titta på språkutvecklingen på ett övergripande plan eller inom en viss genre som till exempel prosa, leta på många olika ställen.

– Det är krångligt och tidskrävande och texterna finns ofta i många olika format. Vi vill göra det betydligt enklare.

Projektet startade på initiativ av Lars Borin, föreståndare för Nationella språkbanken och professor i språkvetenskaplig databehandling, och är även en del av Swe-Clarin, vars syfte är att göra digitala språkresurser tillgängliga för forskare inom alla discipliner, särskilt inom humaniora och samhällsvetenskap.

– Målgruppen är som sagt i första hand språkhistoriker, men även andra forskare som exempelvis litteraturvetare eller historiker kan ha stor användning av detta. Textsamlingen kommer även vara till nytta för datorlingvister och språkteknologer som behöver träna olika program på en stor mängd data, säger Eva Pettersson.

I ett första steg tittade hon på hur diakroniska korpusar ser ut för andra språk för att ha något att utgå ifrån. Efter det gick hon vidare och undersökte vad det finns för genrer inom svenskan som var lämpliga att använda.

– Jag intervjuade också språkhistoriker för att få en bild av vad som är viktigt och vilken typ av texter som skulle finnas med i korpusen. I första hand har vi valt att ha med genrer som finns representerade för hela tidsperioden, till exempel religion, prosa, domprotokoll, lagar och viss vetenskaplig text.

Andra frågor som hon ställts inför handlar också om format, hur korpusen ska se ut och hur man får in texter.
– Kriterierna är att alla texterna ska kunna delas vidare fritt utan förbehåll, det gör det hela lite krångligare och kan vara problematiskt med nutida text, berättar Eva Pettersson och tillägger att korpusen är tänkt att kunna växa med tiden.

Planen är att släppa en första fritt tillgänglig version av korpusen innan 2020 är slut. Textsamlingen kommer att finnas tillgänglig på en webbsida där man ska kunna ladda ner texter exempelvis efter årtal och genre.

– I ett första steg kommer visst material att vara taggat, det vill säga märkt med lingvistisk information som ordklass, morfologi och betydelse. Senare kommer vi att släppa nya versioner och slutmålet är att hela korpusen ska vara taggad. På sikt kommer man också att kunna komma åt korpusen genom Språkbanken Texts sökverktyg Korp, säger hon.

Eva Pettersson, datorlingvist vid Uppsala universitet. Foto: Mikael Wallerstedt.

Publicerad den 10 juni 2020

Uppdaterad den 19 augusti 2020

Nyhet

Swe-Clarin

Språkteknologi