Höstworkshop i repris: Strix.

Strix är en textforskningsplattform som gör det möjligt att analysera hela texter och dokument. På årets Höstworkshop berättade Yousuf Ali Mohammed på Språkbanken Text om fördelarna med Strix.

När ska jag använda Strix?

– Strix är ett avancerat textanalysverktyg för den som vill analysera hela texter och dokument. Med Strix kan man se dokumentet, söka efter ord eller fraser och filtrera data med metadatainformation. Verktyget ger även statistik på korpusnivå liksom på dokumentnivå.

Vad innehåller Strix?

– Strix innehåller ungefär samma korpusar, dvs samlingar av texter, som korpusverktyget Korp Länk till annan webbplats.: nyhetstexter, myndighetstexter, skönlitteratur, sociala medier, poesi och historiska texter från mitten av 1500-talet fram till idag. Av upphovsrättsliga skäl innehåller Strix bara några få textkorpusar, men det långsiktiga målet är att ha alla tillgängliga korpusar som finns i Korp. Den stora skillnaden är att texterna inte är meningsomkastade. Alla texter är berikade med språkteknologiska analyser med hjälp av analysplattformen Sparv Länk till annan webbplats..

Vilka är fördelarna med Strix?

– En fördel är att det går att söka och välja korpus utifrån textmaterial eller utifrån ett årsintervall, vilket gör det enklare att begränsa urvalet. En annan fördel är att det för varje dokument finns möjlighet att få relaterade dokument, antingen från samma korpus eller från ett urval av korpusar. Varje träff i Strix är ett dokument med information om dokumentets storlek, de vanligaste substantiven och de vanligaste namnen. Texten visas i sitt ursprungliga format.

Hur använder jag Strix?

– Det enklaste är att skriva ett sökord eller en fras i sökrutan och klicka på sökknappen. I standardläget är vissa korpuser förvalda. Det finns även ett filteralternativ där man kan begränsa resultatet. Strix är liksom Korp fritt att ladda hem och sätta upp på sin egen server, vilket gör det möjligt att lägga in sina egna data. Det görs enkelt via plattformen Mink Länk till annan webbplats..

Hur kommer Strix att utvecklas?

I början av nästa år kommer Strix att ha avancerade sökfunktioner såsom CQP-sökning i Korp. Dokumentanalysen kommer att förbättras med hjälp av olika NLP-modeller genom Sparv. Målet är att tillgängliggöra alla öppna data som nu finns i Korp även i Strix och länka mellan verktygen.

Yousuf Ali Mohammed

Yousuf Ali Mohammed, forskningsingenjör på Språkbanken Text. Foto: Staffan Melin.

Publicerad den

Uppdaterad den

Event
Språkteknologi