– Vi har totalt 25 000 timmar inspelat material från hela Sverige, lagrat på allt från rullband och grammofonskivor till vaxrullar. Det är fascinerande att detta historiska material nu används för att förbättra framtidens teknik, säger Annette Torensjö, chef för Avdelningen för arkiv och forskning på Isof i Uppsala.
Institutet för språk och folkminnen (Isof) har påbörjat ett samarbete med Kungliga bibliotekets KB-labb och AI Sweden, det nationella centret för tillämpad artificiell intelligens. Syftet är att träna nya språkmodeller med hjälp av äldre talinspelningar och på så sätt förbättra språkmodellernas förståelse för dialektal variation.
Inspelningarna i Isof:s arkiv sträcker sig över mer än hundra år.
– De första inspelningarna är från 1890-talet, på vaxrulle. Det var en tid när många flyttade från landet till stan, vilket gjorde att man inom forskningen började fundera på vad som i det läget händer med våra dialekter, berättar Annette Torensjö.
Merparten av inspelningarna är gjorda från 1935 till 1970.
– Under den här perioden åkte man ut och pratade med människor på landsbygden i hela landet för att få en kontuinitet i inspelningar från olika dialektområden. Sedan 1970 har resurserna minskat. I dag gör vi dialektinventeringar som punktinsatser i särskilda forskningsprojekt.
Hur är det med svenska med brytning, är det också något ni dokumenterar?
– Vi har inte aktivt dokumenterat hur man bryter på svenska, men vi har deltagit i några samarbeten kring språkmiljöer där svenska talas av människor med invandrarbakgrund. Vi har också fått en större donation från en forskare som intervjuade ungdomar i Stockholmsområdet, framför allt under 1980-talet. Där finns inslag av förortssvenska.

Alla som har någon form av dialekt vet att det inte alltid är så lätt när man ska hantera ett talsvar.
I de flesta fall är dialektinspelningarna gjorda som intervjuer eller samtal om ämnen som exempelvis vardagsliv, traditioner och folktro. Något annat som är vanligt är systematiska uppteckningar av ortnamn, gårdar och byar. Innehållet ska emellertid inte analyseras i det nya projektet, som är helt inriktat på förståelse av vad som sägs.
Vet ni vad de språkmodeller som nu tränas på dialektförståelse ska användas till?
– Inte exakt. Men det är fantastiskt att vi med vårt material som har så lång kontinuitet kan bidra till samhällsutveckling på det här väldigt tydliga sättet. Alla som har någon form av dialekt vet att det inte alltid är så lätt när man ska hantera ett talsvar. Själv är jag från Nässjö i Småland och det innebär att jag ofta kopplas till personlig service, på grund av mina ”r”.
Genom att språkmodellerna tränas i extremer förfinas träffsäkerheten.
– Det är inte så många som pratar som de gör på våra inspelningar från förra sekelskiftet.men det är ett bra komplement för att skapa förståelse hos språkmodellerna för den variation som kan förekomma. Våra inspelningar bidrar till att datorerna blir smartare. De behöver ett stort underlag. Man får bättre svar när man söker på engelska, och det är eftersom de har ett större material att söka i på engelska än på svenska, säger Annette Torensjö.
För att underlätta arbetet har Språkbanken Sam, en avdelning inom Isof med ansvar för att främja språkteknologi i Sverige, anställt en digitaliseringsassistent för att arbeta med det ljudade materialet. Vissa inspelningar kan också behöva anonymiseras på grund av känsliga uppgifter.
Isof planerar även att tillgängliggöra inspelningarna via den digitala arkivtjänsten Folke.
– I princip tillgängliggör vi så mycket som möjligt med hänsyn till befintliga lagar och forskningsetiska principer. I praktiken innebär det begränsningar för vissa material och användningar. För äldre arkivmaterial är det ganska okomplicerat, så vi har börjat med att tillgängliggöra det, säger Rickard Domeij, föreståndare för Språkbanken Sam på Isof.
För privatpersoner eller föreningar som vill bidra till att utveckla arkivet finns stora möjligheter, säger Annette Torensjö. För arkivtjänsten Folke är behovet stort av transkribering av det handskrivna materialet.
– Något alla kan göra är att gå in och skriva rent handskrivna äldre uppteckningar. Det behöver vi hjälp med. Där förlitar vi oss på medborgarforskningen, den är jätteviktig. Vi har väldigt stora samlingar och saknar möjlighet att renskriva allt.