COVID-19 andis TalTechi teadlastele tõuke väga olulise teenuse loomiseks

Tehnikaülikooli poolt koordineeris projekti Tarkvarateaduste instituudi keeletehnoloogia laboratooriumi juhataja, kaasprofessor tenuuris Tanel Alumäe. Foto: TalTEch / erakogu

Et ühest inforuumist saaks osa võimalikult paljud inimesed, on Eesti Rahvusringhäälingus (ERR) juba pisut üle aasta kasutatud automaatsubtiitreid, mis võimaldavad päevakajalisi saateid jälgida paremini näiteks vaegkuuljatel ja ka neil, kes soovivad lisaks helile saada tuge subtiitritena esitatud tekstist.

Automaatsubtiitrid said esmalt ETV otsesaated “Terevisioon”, “Aktuaalne kaamera”, “Ringvaade”, “Esimene stuudio” ja “UV Faktor” ning “Ukraina stuudio”. 

Projekt valmis ERR-i, Haridus- ja Teadusministeeriumi ja Tallinna Tehnikaülikooli koostöös ning põhineb tehnikaülikoolis loodud lahendusel nimega Kiirkirjutaja.

Vajadus oli olemas juba ammu

Tehnikaülikooli poolt koordineeris Kiirkirjutaja projekti Tarkvarateaduste instituudi keeletehnoloogia laboratooriumi juhataja, kaasprofessor tenuuris Tanel Alumäe. 

Alumäe sõnul olid vaegkuuljad juba aastaid rääkinud sellest, et televisiooni otsesaadetel võiksid olla subtiitrid. Tänu eesti keele kõnetuvastuse kiirele arengule viimase aastakümne jooksul tundus teadlastele lõpuks, et idee on saanud küpseks ja täiesti tehtav. Üllataval kombel andis Kiirkirjutaja sünnile Alumäe sõnul tõuke ka COVID-19. 

“Pandeemia tõttu muutus väga oluliseks info operatiivne edasiandmine kogu elanikkonnale ning erakorralisi uudistesaateid ja pressikonverentse toimus kohati iga päev. Seoses sellega leidis riik erakorralisi vahendeid, et seda projekti toetada,” selgitab Alumäe. 

ERR-i juhatuse liige Urmas Oru põhjendas möödunud aastal, et rahvusringhäälingu vastutus ja soov on ühendada ühtsesse info- ja aruteluruumi võimalikult palju Eesti inimesi. Ta selgitas, et ERR-is on aasta-aastalt suurendatud nende saadete hulka, mis on varustatud subtiitritega vaegkuuljate tarbeks, ent seda oli võimalik pakkuda üksnes ettesalvestatud saadete või korduste puhul.

“Automaatsubtiitrid on suur hüpe selles, et ka päevakajaline info jõuaks vaegkuuljateni võimalikult operatiivselt. Praegune pingeline rahvusvaheline olukord ja viimased kaks muutlikku aastat kinnitavad seda vajadust veelgi,” ütles Oru.

Sihipärane töö laboris

Alumäe avaldab, et Kiirkirjutaja põhineb suuresti sihipärasel tööl, mida keeletehnoloogia laboris umbes viimased 20 aastat tehtud on. Tehisaru loomisel on toetutud näiteks täisautomaatsele transkribeerimisele, mis on kõigile huvilistele kättesaadav tekstiks.ee veebi kaudu.

Kiirkirjutaja sisaldab lisaks kõnetuvastusele palju teisi tehnoloogilisi komponente. 

  • Kõne/mittekõne detekteerimine (mudel, mis ütleb, kas keegi parasjagu kõneleb või on tegemist näiteks hoopis taustamüraga).
  • Eesti keele detektor (otsustab, kas parasjagu kõneldakse eesti keeles või mõnes muus keeles).
  • Kõnelejavahetuse detekteerija.
  • Kirjavahemärgistaja. 

Suurema osa nende komponentidega olid TalTechi teadlased Alumäe sõnul juba varem kokku puutunud, aga pisut keeruline oli need töökindlalt toimima saada reaalajarežiimis. 

Arvatust keerulisemaks osutus ka näiteks eesti keele detektori arendus. Seda komponenti on vaja selleks, et eestikeelseid subtiitreid ei genereeritaks võõrkeelsele kõnele. Alumäe sõnul selgus, et detektor töötab üldiselt väga hästi n-ö tavalise kõne puhul, aga eksib tihti aktsendiga kõne puhul, mida näiteks uudistesaadetes esineb suhteliselt tihti. 

Nii juhtuski näiteks, et eesti spordireporteri ingliskeelsed küsimused klassifitseeriti tihti eestikeelseks kõneks ja vene aktsendiga eestikeelne kõne mitte-eestikeelseks kõneks. 

“Õnneks oli meie laboris just äsja valmis saanud eesti keele aktsendikorpus, mille abil saime vastavaid mudeleid paremaks tuunida,” avaldab Alumäe, kuidas probleemile lahendus leiti. 

Kulude kokkuhoiu tõttu tuli vältida varikõnelejat

Alumäe viitab, et Euroopas on kõnetuvastusel põhinevaid subtitreerimissüsteeme tegelikult juba pikalt tarvitatud, kuid tavaliselt kasutatakse neis nn varikõnelejat ehk treenitud  spetsialisti, kes kõik eetris kõlava oma sõnadega uuesti ette loeb ja vajadusel laused ka pisut ümber formuleerib. 

See teeb kõnetuvastussüsteemi ülesande lihtsamaks, kuna nii saab vältida taustamüra ja väga spontaanset kõnet, mis on tavaliselt kõnetuvastusvigade allikaks. 

Kiirkirjutaja projekti juures aga sooviti kulude kokkuhoiu eesmärgil varikõneleja vajadust vältida, isegi kui see tekitab teatud olukordades vigu subtiitrites. Ka vaegkuuljad, kes said projekti juures sõna sekka öelda, rõhutasid Alumäe kinnitusel, et parem vigased subtiitrid, kui üldse mitte midagi.

Teine põhiline erinevus olemasolevatest süsteemidest on see, et Kiirkirjutaja põhineb ainult vabal tarkvaral ning on kõigile tasuta kasutamiseks. 

Ülitähtis teenus

Alumäe ütleb, et hiljuti tehti kvalitatiivne uuring vaegkuuljatega, mis näitas, et sellele sihtgrupile on Kiirkirjutaja genereeritud subtiitrid ülioluline teenus, mida kasutatakse igapäevaselt. 

Vaegkuuljad rõhutasid, et tänu subtiitritele saavad nad näiteks koos perega televiisorit vaadata, ilma et teleka heli peaks teisi häirivalt valjuks keerama – see  võimalus aitab neil endid paremini ühiskonna osana tunda. 

“Ka paljud mitte-vaegkuujad kasutavad Kiirkirjutaja subtiitreid, näiteks kui taustal esineb majapidamismüra või teiste inimeste kõne,” toob Alumäe välja veel ühe subtiitrite kasutussuuna.

Praegu kasutatakse Kiirkirjutajat ETV-s enamusele eestikeelsetele otsesaadetele subtiitrite loomiseks, samuti Riigikogu Youtube’i ülekannetes. Kiirkirjutaja integreerimisega tegeleb ka Kanal 2, ning selle vastu on huvi tundnud mitmed ettevõtted, kus tegeletakse pressikonverentside või teiste online-ülekannete tootmisega.

Küsimusele, kas Kiirkirjutaja on valmis või on see nagu Tallinna linn ja ei saa kunagi valmis, vastab Alumäe, et Kiirkirjutaja on aktiivses edasiarenduses. 

“Praegu tegeleme uue kõnetuvastusmudeli integreerimisega, mis vähendab vigu umbes ühe kolmandiku võrra ning lisaks parandab hüppeliselt kirjavahemärgistamise kvaliteeti ja sellega ka subtiitrite loetavust,” avaldab ta.

Kiirkirjutaja kohta saad lugeda ka Geeniuse varasemast artiklist siit.

Populaarsed lood mujal Geeniuses

Kord nädalas

Ärigeeniuse uudised sinu postkastis

Ärigeeniuse uudiskiri toob sinuni valiku nädala olulisematest äriteemadest, põnevad persoonilood ja ekspertide soovitused.