Projekt i fokus: KB-Whisper

KB-Whisper är Kungliga bibliotekets nya tal-till-textmodell. Modellen är tränad på mer än 50 000 timmar tal, bland annat dialekter från Isof, tillgängliggjorda av Språkbanken Sam. Leonora Vesterbacka, senior data scientist på KB-labb, berättar mer.

– Arbetet med att utveckla KB-Whisper startade 2023 som en del av projektet "Speech recognition for Swedish using wav2vec 2.0, Whisper and Conformers". Tanken var att skapa en generell modell som sedan kan tränas vidare för specifika användningsområden, till exempel undertext eller medicinska termer. Idag finns flera liknande tal-till-textmodeller. Skillnaden är att vår modell är tränad på mycket mer data och fri att använda. Modellen utgår ifrån det amerikanska företaget Open AI:s modell Whisper men är den första med gedigen träning på svenska

Modellen tränades med hjälp av Leonardo, en superdator i Bologna, Italien, som vi fick tillgång till via Europeiska Kommissionens Superdatornätverk EuroHPC JU. Modellen tränades i två uppsättningar. En inriktad på undertextning, vilket innebär att modellen kan formulera om och komprimera budskap, samt en standardmodell som mer ordagrant transkriberar vad som sägs.

Vad kan KB-Whisper användas till?

– Modellen kan användas inom många olika områden. Undertextning, telefonbaserad kundtjänst och transkription av läkares diktafoninspelningar till journalanteckningar, till exempel. Den kan också användas för att transkribera möten för dokumentation och panelsamtal för att göra dem mer tillgängliga. Sveriges Radio har till exempel planer på att transkribera intervjuer och radiomaterial för att göra det enklare att söka i arkiv. Det ska vi göra på KB också. På så sätt kan vi göra arkiven sökbara för forskningen och därmed låsa upp material som tidigare varit svårt att hitta.

Vad händer framöver?

– Vi har lite av beräkningsbudgeten kvar, så vi ska även träna en modell som är inriktad på superordagrann transkribering där varenda litet ”mm” och ”ah” kommer med. Det är en fördel till exempel när man ska transkribera för forskningssyften och vara säker på att få med allt. Till sommaren ska vi även träna klart wav2vec2.0-modellen. Det speciella med den modellen är att den inte behöver transkriberade data, utan lär sig genom att framför allt lyssna till stora mängder tal, lite som när ett litet barn lär sig ett språk. Det öppnar helt nya möjligheter att skapa taligenkänning för mindre språk. Vi ska också testa att blanda olika dataset. Kan vi genom att vikta upp äldre inspelningar skapa en modell som klarar av mer historiskt tal? Vi har flera idéer som vi vill testa!

Och hur fungerar KB-Whisper?

Harald Berthelsen, språkteknolog på Språkbanken Sam, har testat KB-Whisper på två olika sätt.

– Projektet SweDia 2000 innehåller dialektprover från hela Sverige. På swedia.ling.gu.se finns korta avsnitt av varje inspelning tillsammans med en transkription. Jag har jämfört resultat från KB-Whisper och andra modeller med de transkriptionerna, och KB-Whisper ger klart bäst resultat. När det gäller undertextning har jag jämfört KB-Whisper med den automatiska undertextningen i MediaFlow för inspelningen av Isofs senaste Folkenarium. Även där fungerar KB-Whisper bättre. Vi kommer att använda KB-Whisper för att transkribera fler inspelningar, och de inspelningarna kommer i sin tur att kunna användas för att göra en senare version av KB-Whisper ännu bättre.

KB-Whisper

Modellen är tränad på mer än 50 000 timmar tal, undertextade tv-sändningar från KB:s samlingar, ljud och transkriptioner från ledamöternas tal under debatter i Sveriges riksdag samt inspelningar av olika dialekter från Institutet för språk och folkminnen (ISOF) som tillgängliggjorts av Språkbanken Sam.

KB-Whisper finns i large, medium, small och tiny. Alla modeller är fria att ladda ner från Hugginface.

Ladda ner KB-Whisper Länk till annan webbplats..

De små modellerna kräver ingen stor server utan går att använda på sin egen dator. Ett exempel på det är en ny tjänst där du kan transkribera ljud direkt i din webbläsare. Testa här! Länk till annan webbplats.

Publicerad den

Uppdaterad den

Språkbanken Sam
Språkteknologi
Artificiell intelligens
Teamet bakom KB-Whisper. Bakre raden: Agnes Toftgård, Justyna Sikora och Faton Rekathati. Främre raden: Leonora Vesterbacka och Robin Kurtz.

Teamet bakom KB-Whisper. Bakre raden: Agnes Toftgård, Justyna Sikora och Faton Rekathati. Främre raden: Leonora Vesterbacka och Robin Kurtz. Foto: Lina Löfström Baker.