Ny forskningsdata med nyhetstexter från SVT möjliggör storskaliga textanalyser

Forskningsingenjörer på Språkbanken Text vid Göteborgs universitet har för första gången samlat alla nyhetstexter på SVT:s webbplats i ett sökbart format. Textsamlingen, eller korpusen, gör det möjligt att göra större automatiska textanalyser på forskningsdatan.

– Det är många som är intresserade av materialet eftersom det gör det möjligt att analysera modernt vårdat språk, säger Anne Schumacher som är huvudansvarig för arbetet.

Behovet av att samla in materialet uppstod i arbetet med Svensk ordbok (SO) och Svenska akademiens ordlista (SAOL) som bedrivs vid institutionen för svenska språket. Redaktionsgruppen ville ha ett referensmaterial för att veta vilka nya ord som uppstår, hur frekventa orden är och hur de används. Då är modern nyhetstext lämplig. Korpusen innehåller alla nyhetstexter som finns på SVT:s webbplats sedan 2004 fram till september 2021 och ger ett rikt underlag för modern vårdad svenska. Textsamlingen har omarbetats för att kunna bli till en sökbar textsamling i korpusverktyget Korp.

skärmklipp från korpusverktyget.

Publicerad den

Uppdaterad den

Språkbanken Text