Månadens profil: Niklas Zechner

Hur kan man avgöra om en text är en recension? Och går det att visualisera äldre polisrapporter på ett nytt sätt? Det är några frågor som Niklas Zechner, forskare inom språkteknologi på Språkbanken Text, arbetar med.

Vad gör du på jobbet?

I min roll som språkteknolog utvecklar jag bland annat verktyg för textklassificering. Textklassificering handlar om att med hjälp av datorprogram analysera en text och säga något om den, till exempel vem som har skrivit den eller vilken genre den tillhör. Det kan också handla om att avgöra om ett mail ska betraktas som spam, eller om ett dokument är relevant för en sökning. Genom att bestämma särdrag och mönster i en text som man vill analysera, till exempel ordfrekvens, ordlängd eller meningslängd, kan programmet förutsäga den information man söker.

Jag utvecklar även egna verktyg. Ett exempel på det är verktyget Råka, som visar hur vanliga olika svenska ord är och hur vårt ordförråd har förändrats från 1850 och framåt.

Vad händer just nu?

Jag har precis kommit hem från konferensen NoDaLiDa på Färöarna. Där presenterade jag ett projekt som handlar om hur storleken på vokabulären i en texttyp förändras med längden på texten, och om det kan säga något om vilken genre texten tillhör.

Vidare jobbar jag med två projekt. Ett av dem, Detektiva avdelningen, utgår från ett unikt material med polisrapporter från Göteborgs poliskammares detektiva avdelning 1868–1902. Tanken är att tillgängliggöra materialet på ett innovativt sätt, bland annat så att det går att läsa de transkriberade journalerna och samtidigt se de platser som nämns på en karta. Med hjälp av datavetenskapliga metoder är det möjligt att identifiera vad som är en plats i materialet och räkna ut var den ligger.

I det andra projektet, Kritikens nya ordning, analyserar forskare hur bokrecensioner förändrats över 100 år. Underlaget är svenska dagstidningar och tidskrifter från 1906 till 2006. Materialet är förstås svindlande stort och omöjligt att analysera manuellt i sin helhet. Mitt jobb är därför att ta fram program som kan avgöra vilka texter som är just recensioner, och att identifiera trender och förändringar över tiden.

Just att hitta recensioner är ett exempel på hur textklassificering kan användas. Ett annat exempel är att jag tillsammans med forskare från Sahlgrenska sjukhuset använde textklassificering för att hitta relevanta dokument om personcentrerad vård och få en bättre förståelse för ämnet. Jag håller också på med egen forskning som syftar till att skapa verktyg och samla in data för textklassificering. Målet är att få en djupare förståelse för hur textklassificering fungerar och vilka faktorer som påverkar resultaten.

Niklas Zechner, språkteknolog på Språkbanken Text.

Niklas Zechner, språkteknolog på Språkbanken Text. Foto: Mats Krook.

Publicerad den

Uppdaterad den

Språkbanken Text