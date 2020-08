Jokainen ääniohjausta käyttänyt tietää, että kone tottuu käyttäjänsä ääneen. Kuitenkin esimerkiksi videoilla ja kokouksissa äänessä on monta ihmistä yhtä aikaa.

Juho Leskinen

Käännöskone saattaa tulevaisuudessa esimerkiksi kääntää videoilla kuultavaa ääntä katsojan omalle kielelle.

Jokainen konekääntämistä kokeillut tietää, että kone suoltaa välillä aivan, mitä sattuu. Esimerkiksi maailman käytetyin käännin, Google-kääntäjä, on kääntänyt milloin Venäjää Mordoriksi, milloin pizzalaatikoihin tarkoitetut joulutervehdykset hyvän juhannuksen toivotukseksi.

Mihin konekääntimiä tarvitaan, kun kerran niistä ei vuosikymmenten jälkeenkään ole saatu toimivia?

Post doc -tutkija Maarit Koponen Helsingin yliopistosta huomauttaa, että vaikka Suomessa konekääntäminen saattaa vaikuttaa jopa hieman turhalta, mutta monissa muissa maissa kääntimet ovat olleet arkipäivää jo pitkään.

Esimerkiksi Espanjassa espanjan ja katalaanin välillä konekääntimiä käytetään paljon, sillä kielet ovat riittävän läheisiä sukukieliä ja käännösten laatu sen vuoksi hyvä.

"Euroopan suurista kielistä esimerkiksi englannin ja espanjan välillä konekäännökset onnistuvat myös varsin hyvin, koska aineistoa on suuria määriä. Englannin ja saksan välillä kääntäminen on koneelle jo huomattavasti hankalampaa, sillä kielten sanajärjestykset ovat erilaiset", Koponen kertoo.

Koposen nykyinen työ Aalto-yliopiston koordinoimassa EU-rahoitteisessa MeMAD-hankkeessa (Methods for Managing Audiovisual Data) keskittyy audiovisuaalisesta aineistosta tehtyjen konekäännösten laadunarviointiin.

Audiovisuaalista aineistoa, kuten erilaisia videoita, on maailma pullollaan. Kuvitellaan arkinen tilanne: Jos haluaa etsiä vaikkapa YouTubesta videon uistimien valmistuksesta, hakemiseen tarvitaan tekstiä. Jotta oikea video löytyy, jonkun on täytynyt lisätä siihen meta- eli kuvailutiedot.

Kuvitellaan seuraavaksi, että uistinvideon alussa on tylsää höpinää, jota katsoja ei jaksa katsoa. Hänen täytyy kuitenkin kelata videota eteenpäin ja kuunnella aina välillä, jotta kiinnostava kohta löytyy.

Yksi MeMAD-hankkeen tavoite on selvittää, miten videoiden kuvailutiedot ja kuvaukset voisi automatisoida. Tästä olisi apua esimerkiksi videoiden arkistoinnissa, jotta videot löytyisivät helpommin.

Myös näkövammaisille tai kenelle tahansa videon katsojalle olisi hyötyä, jos videolla kuuluvat puheet ja muut äänet olisivat helposti saatavilla myös kirjallisessa muodossa. Tällöin esimerkiksi se uistinvideon kiinnostavin kohta löytyisi ilman, että koko video pitää katsoa.

Viedäänpä ajatus vielä pidemmälle. Jos kiinnostava uistinvideo olisi vaikka islannin kielellä, voisiko kone kääntää videon sisällön suoraan suomeksi?

Puheen konekääntäminen on Koposen mukaan tämän hetken kuuma aihe. Kun puhutaan kääntämisestä, tähän asti se on valtaosin tarkoittanut tekstin kääntämistä tekstiksi. Poikkeuksena ovat esimerkiksi vieraskielisten elokuvien ja muiden audiovisuaalisten materiaalien tekstitykset, joissa puhe käännetään tekstimuodossa eri kielelle.

Käytännössä puheen konekääntäminen on helpommin sanottu kuin tehty. Jokainen, joka on käyttänyt esimerkiksi älypuhelimen ääniohjausta, tietää, että puhelin tottuu omistajansa ääneen, minkä vuoksi myös puheentunnistuksen laatu paranee. Audiovisuaalisessa materiaalissa ongelmana on usean äänen vuorottelu ja päällekkäisyys.

Jotta puheen konekääntämistä voi edes yrittää, pohjaksi tarvitaan äänitiedostoja, josta on olemassa litteroitu teksti. Tällöin kone oppii, mikä akustinen käyrä vastaa mitäkin merkkijonoa.

"Ongelmat kertautuvat nopeasti, jos jo puheentunnistusvaiheessa on virhe. Jos kone on tunnistanut jonkin sanan väärin, se myös kääntää kyseisen sanan väärin", Koponen huomauttaa.

Konekääntämisen tulevaisuutta mietittäessä täytyy ensin katsoa taaksepäin. Konekäännökset olivat hyvin alkeellisia vielä parikymmentä vuotta sitten, mutta nykyään konekäännöksistä saa jo apua moneen arkiseen pulmaan.

Tulevaisuudessa todellisuutta voi hyvinkin olla esimerkiksi koneellinen simultaanitulkkaus. Simultaanitulkkauksella tarkoitetaan puheen tulkkaamista toiselle kielelle reaaliajassa. Esimerkiksi EU-parlamentissa tulkataan 24:ää kieltä.

Koponen kertoo, että koneellinen simultaanitulkkaus on toistaiseksi sillä tasolla, että hän voi sanoa kuulleensa siitä. Tilanne saattaa kuitenkin pian olla eri.

"Perusturistille siitä voi olla iloa melko piankin, mutta esimerkiksi siellä EU-parlamentin neuvotteluissa en uskaltaisi niihin laitteisiin turvautua", hän naurahtaa.