Höstworkshop i repris: Ordregn
Hur kan man enkelt och snabbt få en överblick av ett stort textmaterial? Med hjälp av ordregn. På årets Höstworkshop presenterade Magnus Ahltorp från Språkbanken Sam och Maria Skeppstedt från CDHU (Uppsala universitet) en ny teknik för att visualisera text.
Vad är ett ordregn?
– Ordregnet är en utveckling av det klassiska ordmolnet men placerar, till skillnad från ordmolnet, ord som har en liknande betydelse nära varandra och ger därför en överblick av vilka kategorier av ord som är viktiga i texten. Med hjälp av ordregn är det även lättare att jämföra olika texter, och se likheter och skillnader på en högre nivå än på ordnivå.
Det var på ett seminarium tanken väcktes. Handplockade experter inom visualisering och språkteknologi lyssnade på forskare som presenterade projekt med hjälp av klassiska ordmoln. Alla var eniga om att det var en dålig visualisering, men ingen hade förslag på alternativ. Det var startskottet på vårt arbete. Kunde vi göra något som liknade ordmoln, fast ännu bättre?
Varför ska jag använda ordregn?
– Ordregn är ett sätt att snabbt få en överblick av ett material, till exempel en korpus. Med hjälp av ordregn kan man upptäcka saker man kanske inte hade lagt märke till och hitta spännande saker man själv inte tänkt på. Det är möjligt även med ordmoln och frekvenslistor, men kräver oerhört mycket mer jobb. Ett ordregn är också ett verktyg för att presentera data för kollegor och på så sätt komma vidare i sin forskning.
Ge några exempel där ordregn använts!
– Projektet ActDisease är ett exempel. ActDisease undersöker hur patientorganisationer bidragit till att forma sjukdomskoncept, sjukdomsupplevelse och medicinsk praxis under 1900-talet. I projektet har vi skapat ordregn över olika medlemstidningar, från omkring 1950 till 1990 och har till exempel kunnat se vilka medicinska problem som diskuterats över tid och när nya produkter dykt upp eller försvunnit.
Vi har även använt ordregn för att undersöka täckningen hos Isofs jiddischordbok för olika textgenrer, och för att få förslag till nya ord att lägga in i ordboken. Vi har visualiserat olika texter, till exempel från Wikipedia, och noterat i ordregnet vilka typer av ord som är med och inte och även hittat stavningsvarianter.
Hur skapar jag ett ordregn?
– Det finns två sätt. Den som är bekväm med att programmera kan ladda ner och köra koden för verktyget. Man kan också testa Word Rain service, en webbsida där vem som helst enkelt kan ladda upp en eller flera texter och få ut en PDF med ordregn.
Publicerad den
Uppdaterad den