Ordregn – en utveckling av det klassiska ordmolnet

Ordmoln känner nog alla till. Men vad är ett ordregn? Och när ska man använda det? Magnus Ahltorp, språkteknolog på Språkbanken Sam, berättar.

Vad är ett ordregn?

– Ordregn är en teknik för att visualisera text. Det är svårt att beskriva en visualisering med hjälp av ord, så jag visar ett praktiskt exempel. Den översta bilden visualiserar en text med hjälp av ett klassiskt ordmoln. Ordmolnet ger en ganska god överblick över de viktigaste orden i texten, men orden är placerade huller om buller i molnet. Ordmolnet ger därför inte någon överblick över om det är några särskilda kategorier av ord som är viktiga i texten. Det gör också att det egentligen inte finns någon mening med att ha med de mindre viktiga orden i molnet, de som skrivs med en liten font. Det finns ju ändå inte något bra sätt att hitta dem i ordmolnet. Det är även svårt att jämföra två klassiska ordmoln med varandra.

I ordregn däremot, placeras ord som har en liknande betydelse nära varandra. Även detta är lättare att beskriva med ett exempel. Den nedre bilden visar hur samma text visualiserats med hjälp av ett ordregn. Här kan vi se att ord som har en väldigt likartad betydelse placeras nästan rakt under varandra. Till exempel är ”människor”, ”personer” och ”individer” placerade på en nästan rak vertikal linje. Orden ”argument”, ”idéer”, ”tankestrukturer”, ”tänkande” och ”normer” är också likartade ord som hamnar nästan rakt under varandra.

Till skillnad från ett ordmoln blir det nu mycket tydligare vilka kategorier av ord texten handlar om. Exempelvis är det tydligt att texten har något med ordkategorin ”argument”/”idéer”/”tankestrukturer” att göra. Det finns nu även en poäng att ta med ord som skrivs med en liten font i bilden. Om jag till exempel är intresserad av ord som liknar ”argument”, så kan jag ju zooma in ordregnet i närheten av ”argument” och titta på andra liknande ord.

Finns det några andra skillnader jämfört med det klassiska ordmolnet?

– Precis som i ett klassiskt ordmoln skrivs de viktigaste orden med en större fontstorlek. Hur viktigt ett ord är kan till exempel mätas genom ordets frekvens eller genom dess frekvens i relation till ordets förekomst i en standardkorpus. Men i ordregnen har vi även lagt till staplar ovanför orden, som visar mer exakt hur viktiga orden är. Att bara använda fontstorlek kan bli lite missvisande, eftersom långa ord då lätt kan uppfattas som viktigare än vad de egentligen är. Även ordens vertikala placering styrs ungefär av hur viktiga de är. De viktigaste orden placeras ut först, medan de mindre viktiga orden ”regnar nedåt” om det redan finns ett ord med liknande betydelse utplacerat i bilden.

Vad kan ordregn användas till?

– Med hjälp av ordregn är det lättare att jämföra olika texter, och se likheter och skillnader på en högre nivå än på ordnivå. På Språkrådsdagen 23 april visade jag en poster där tre olika texter om klimatförändringar jämförs med hjälp av ordregn. De två översta är två IPCC-rapporter och de får en väldigt likartad visuell profil, medan den nedersta, som handlar om beteendeförändringar, är helt annorlunda.

Vi har även använt ordregn för att undersöka täckningen hos Isofs jiddischordbok för olika textgenrer, och för att få förslag till nya ord att lägga in i ordboken. Dessutom använde vi ordregnen under Språkrådsdagen för att visualisera besökarnas svar på enkätfrågor. I samband med detta presenterade jag hur ordregnstekniken fungerar. Föredraget kan nu ses på UR Play.

Hur gör jag om jag vill skapa ett ordregn av min text?

– Just nu behöver du vara bekväm med att programmera för att skapa ett ordregn. Men jag håller just på att ta fram en webbsida där vem som helst enkelt kan ladda upp en text och få ut en pdf med ett ordregn. Det finns redan en första prototyp, men jag vill testa den i en lite snävare krets innan jag låter andra prova.

Publicerad den

Uppdaterad den

Språkbanken Sam
Språkteknologi
Ordmoln

Ett klassiskt ordmoln.

Ordregn

Samma text visualiserad med hjälp av ett ordregn. Likartade ord är placerade nästan rakt under varandra. Till exempel formar ”människor”, ”personer” och ”individer” en grupp av likartade ord, liksom ”argument”, ”idéer”, ”tankestrukturer”, ”tänkande” och”normer”.