Språkteknologi förenklar arbetet med nya SAOB

Efter 140 år är Svenska Akademiens ordbok, SAOB, färdig från A till Ö. Nu börjar arbetet med att revidera äldre ord och tillföra nya. Ett verktyg som förenklar arbetet är Korp där SAOB har en egen korpus med böcker från 1950 till 2007. Christian Mattson, redaktionschef för Svenska Akademiens ordboksredaktion och Bodil Rosqvist, huvudredaktör, berättar.

Varför har ni tagit fram korpusen?

– För att revidera ordboken behöver vi nytt material. Framförallt behöver vi ord från och med 1950 där vi ännu inte samlat in så mycket material. Den nya korpusen SAOB1950 är alltså ett källmaterial för SAOB med ett urval som speglar det svenska ordförrådet framför allt under 1900-talets senare hälft.

Korpusen innebär att vi får vi en helt annan överblick av materialet. Vi kan undersöka texterna, se varje ord i sitt sammanhang och få tillgång till ordbildsfunktionen som visar vilka ord i materialet som har olika syntaktiska relationer till sökordet. Det är vi väldigt glada över. Vi hoppas dessutom självklart att andra, till exempel språkforskare, ska ha nytta av korpusen.

Vad innehåller korpusen?

– Korpusen innehåller böcker från 1950 till 2007 som lånats från Lunds universitetsbibliotek och skannats in på Svenska Akademiens ordboksredaktion i Lund. Totalt består den av 1 300 källor. Ambitionen har varit att lyfta fram många olika röster för att skapa en bred bild av språkanvändningen. Vi har också försökt få en bredd vad gäller genrer och ämnesområden. Ungefär hälften av verken har valts ut med ambitionen att täcka in många olika ämnesområden och få en någorlunda jämn fördelning vad gäller författarnas kön. För korpusens andra hälft har vi gjort ett mer slumpmässigt urval, där böcker med viss placering i bibliotekets magasin har fogats in. På så sätt får vi en spridning i urvalet.

För samtliga verk finns uppgift om utgivningsår, författare och titel. I många fall anges även författarens kön och ämnesområde genom bibliotekssignum.

Vad händer framöver?

– Vår ambition är att SAOB1950 successivt ska utökas med nya texter. Vi arbetar även med drygt 8,2 miljoner excerpter, språkcitat ur cirka 24 000 tryckta och otryckta källor, som samlats in sedan 1880-talet. Alla dessa är inskannade och nu vill vi ha dem sökbara. Här hoppas vi kunna inleda ett samarbete med Isof som framgångsrikt arbetat med medborgarinitiativ för transkribering i projektet Folke, en digital arkivtjänst med folkminnesmaterial.

Svenska Akademiens ordbok

SAOB är en historisk ordbok som beskriver skriven svenska från 1521 till idag. SAOB behandlar ordens betydelser och redogör för ordens stavning, uttal och böjning. Sista bandet med bokstäverna Ä och Ö gick till tryck i oktober. Det är på 1 150 sidor inklusive ordbokens hela källförteckning på 400 sidor.

SAOB1950 i Korp

Korpusen finns både i ett läge med nusvenskt material Länk till annan webbplats. och i ett eget SAOB-läge Länk till annan webbplats. där SAOB-redaktionen gjort ett eget urval. I SAOB-läget finns bland annat Litteraturbanken i sin helhet och Kungliga bibliotekets tidningar fram till år 1906. Redaktionen har också valt att ha med källor som Svensk författningssamling och finlandssvenska tidningar i sitt urval.

Korpusen SAOB1950 finns även att ladda ner Länk till annan webbplats. som omkastade meningsmängder.

Svenska Akademiens ordbok

Foto: Rickard L. Eriksson.

Publicerad den

Uppdaterad den

Språkbanken Text
Språkteknologi