Verktyg i fokus: Korp

Nationella språkbanken erbjuder en rad verktyg som förenklar vardagen för dig som forskar på språkliga data. Korp är vårt korpusverktyg.

När ska jag använda Korp?

Korp passar för alla språkliga frågor där orden är i fokus. I vilket sammanhang används ett ord? Hur vanligt är det? Hur har ordet förändrats över tid?

Det går även bra att använda Korp för informationssökning, eftersom verktyget bland annat innehåller äldre tidningstexter som inte finns någon annanstans. Forskare är huvudmålgruppen, men Korp är också öppet för alla som är intresserade av språk.

Vad innehåller Korp?

I Korp finns det flera olika samlingar av korpusar, dvs samlingar av texter, som ofta behöver vara meningsomkastade av upphovsrättsliga skäl. Den största är den moderna, med nyhetstexter, myndighetstexter, skönlitteratur, sociala medier och poesi efter 1900-talets språkreform och framåt. Vissa korpusar, som Wikipedia, är omfattande, andra är små som till exempel svenska partiprogram och valmanifest.

Det finns även samlingar med historisk svenska, fornsvenska och andra mindre språk, till exempel somaliska och sibirientyska, där data lagts till från olika projekt.

Alla texter är berikade med språkteknologiska analyser med hjälp av Språkbanken Texts analysverktyg Sparv. Korp fokuserar på skriven text men innehåller även ett antal talspråkskorpusar.

Vilka är fördelarna med Korp?

En stor fördel är att det går att söka i stora mängder material samtidigt. En annan viktig funktion är ordbilden. Här visas det sökta ordet tillsammans med ord som det har olika syntaktiska relationer till i materialet. För ett verb visas till exempel de subjekt och objekt som hänger ihop med just det verbet, och för ett substantiv visas vanliga adjektiv och verb.

Hur använder jag Korp?

Det enklaste sättet är att skriva ett ord i sökrutan och trycka på sökknappen. Det är också möjligt att formulera avancerade sökfrågor baserade på de språkteknologiska analyserna utifrån ett specifikt material eller tidsspann.

Korp är fritt att ladda hem och sätta upp på sin egen server, vilket gör det möjligt att lägga in sina egna data. För avancerade användare som bygger sin egen programvara finns webb-API så att man själv kan bygga vidare.

Språkbanken Text håller just nu på att utveckla ett nytt verktyg, Mink, vilket man kommer att kunna använda för att ladda upp sina egna texter i Korp.

Vem/vilka ligger bakom Korp?

Korp är resultatet av ett lagarbete vid Språkbanken Text. Just nu är Martin Hammarstedt och Maria Öhrman tekniskt ansvariga för Korp.

Publicerad den

Uppdaterad den