Månadens profil: Maria Skeppstedt
Maria Skeppstedt är forskare inom språkteknologi. På Språkbanken Sam arbetar hon med teknisk infrastruktur för att samla in och tillgängliggöra termer för forskning och utveckling, till exempel via Eurotermbank. Hon har även tagit fram annoterings- och textminingverktyg, till exempel Topics2Themes som nu används i ett forskningsprojekt om klimatdiskussioner.
Vad gör du just nu?
– Jag arbetar med projektet Manuell och automatisk annotering av klimatförändringstexter med hjälp av verktyg från Språkbanken Sam som är finansierat av Vinnova.
Forskare vid Potsdams universitet undersöker vilka diskussioner som förs om klimatförändringar genom att manuellt annotera olika typer av texter, till exempel ledare från tidskrifterna Nature och Science. Vilka teman förekommer ofta i påståenden och argument som framförs när klimatet diskuteras?
Vårt uppdrag är att se hur Topics2Themes kan effektivisera det manuella annoteringsarbetet. Topics2Themes bygger på tekniken topic modelling, en språkteknologisk metod som gör det enklare att sortera och analysera innehållet i stora mängder text. Projektet går ut på att träna språkmodeller på texterna från Nature och Science och sedan undersöka hur väl de automatiska klassificeringarna stämmer överens med de som gjorts manuellt.
I ett annat delprojekt fokuserar vi på en nyligen publicerad korpus med tyska tweets på ämnet klimatförändringar. Vi använder Topics2Themes för att automatiskt extrahera återkommande ämnen och söker sedan efter teman i de tweets som är närmast kopplade till dessa. Ett återkommande tema är diskussioner om politiska åtgärder för att minska utsläppen av koldioxid. Ett annat vanligt tema är debatter om det är människan som orsakar klimatförändringarna eller inte.
Det senare temat visar konkret nyttan med Topics2Themes. Om det i sociala medier skrivs att det är osäkert om människan har orsakat klimatförändringarna, kan det påverka människors vilja att minska sina koldioxidutsläpp. Då kan det vara bra att informera om att den samlade forskarvärlden slår fast att det är mänsklig påverkan som har värmt upp klimatsystemet. Med Topics2Themes blir det möjligt att snabbt upptäcka den här typen av teman i stora textsamlingar, och på så sätt kunna möta eventuell ryktesspridning med fakta.
Vad har ni kommit fram till?
– För texterna från Nature and Science, där det finns annoterat data, har vi tittat på vilka ämnen som tas upp från 1969 till 2016. De flesta av de stora trender som kan ses med hjälp av det manuellt annoterade datat kan vi också se om vi använder oss av topic modelling. Det ger ett konkret exempel på när Topics2Themes kan användas för att hitta trender över tid kring vilka ämnen som tas upp.
Vad gäller korpusen med tweets är det svårare att hitta tydliga ämnen med vanlig topic modelling, eftersom texterna är så korta. Men Topics2Themes kombinerar topic modelling med andra språkteknologitekniker, till exempel med att automatiskt skapa kluster av ord med liknande betydelse. Eftersom vi hittade många återkommande teman även i twitterkorpusen, verkar verktyget vara användbart också för den här typen av texter.
Just nu skriver vi på en artikel om arbetet med tidskrifterna Nature och Science, och i oktober tar jag tåget till Prag för att presentera undersökningen av tyska tweets på den årliga CLARIN-konferensen.
Vad händer i höst?
– Jag har i dagarna börjat ett nytt jobb som forskningsingenjör på Centrum för Digital Humaniora Uppsala (CDHU) vid Institutionen för ABM, Uppsala universitet. Så i höst kommer jag främst att fokusera på att ta fram digitala verktyg för att stödja forskare inom humaniora och samhällsvetenskap där. Vi har just nu en utlysning för pilotprojekt inom digital humaniora, så det blir spännande att se vilka nya verktygsidéer som skapas under hösten.
Publicerad den
Uppdaterad den