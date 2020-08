Ihmiset & kulttuuri

Tiedätkö, miten Google-kääntäjä toimii ja miksi se kääntää välillä hassusti – tutkija avaa konekäännösten historiaa 70 vuoden ajalta: "Konekäännösten kanssa pitää aina muistaa olla epäluuloinen" Ihmiset & kulttuuri Tuovi Mäkipere Konekäännösten maailmassa sääntöpohjaiset kääntimet jyräsivät puoli vuosisataa, mutta parissa vuosikymmenessä on siirrytty tilastollisten kääntimistä neuroverkkoihin ja massiiviseen monikieliseen kääntämiseen.

Kari Salonen, kuvakaappaus: Google, kuvankäsittely: Jarkko Sirkiä

Ruotsin "var så god", eli "ole hyvä" kääntyy Google-kääntäjässä suomeksi tervetulotoivotukseksi. Siinä ei olisi järkeä, ellei käännöksessä olisi mukana englantia. "Var så god on englanniksi you´re welcome, mikä taas on sana sanalta suomeksi käännettynä 'olet tervetullut'", huomauttaa tutkija Maarit Koponen.

Mikä yhdistää ruotsinläksyjen parissa kamppailevaa teiniä, Latviassa matkailevaa turistia ja ulkomaisesta verkkokaupasta tavaraa tilaavaa kuluttajaa? Kaikki saattavat tarvita apua maailman tunnetuimmalta kääntimeltä, Google-kääntäjältä. Googlen tarjoama ilmainen käännin on monelle tuttu, mutta miten konekääntäminen tapahtuu? "Jahas, kuinka kaukaa aloitan vastaamisen?" naurahtaa post doc -tutkija Maarit Koponen Helsingin yliopistosta. Konekäännökset ovat kehittyneet aikana melkoisesti 1950-luvulta tähän päivään. Aivan ensimmäiset käännöskoneet eli kääntimet olivat sääntöpohjaisia ja pohjautuivat kaksikieliseen sanakirjaan. Sanakirjan pohjalta kääntimelle opetettiin erilaisia sääntöjä, jotta kone osasi kääntää esimerkiksi englannin sanan "play" tilanteesta riippuen joko pelata-, soittaa- tai näytellä-verbiksi tai näytelmä-substantiiviksi. Yksi sääntö olisi voinut olla, että jos play-sanaa seuraa esimerkiksi sana "piano", kyse on soittamisesta. Sääntöpohjaiset kääntimet jäivät taka-alalle 2000-luvun alussa, sillä ne vaativat paljon käsityötä ja olivat jäykkiä. 1990-luvun lopulta noin vuoteen 2015 asti vallalla olivat tilastolliset kääntimet. Niissä kone etsi valtavista käännetyistä tekstimassoista käännöksen, joka on kulloinkin tilastollisesti todennäköisin. "Kun käännintä koulutetaan, siihen syötetään suurin piirtein kaikkea mahdollista käännettyä tekstiä kaunokirjallisuudesta käyttöohjeisiin ja Raamattuun. Enemmän on enemmän", Koponen kertoo. Tilastolliset kääntimet käsittelevät vain kahden välilyönnin välissä olevia merkkijonoja, eli esimerkiksi kaikki hevonen-sanan sijamuodot ovat tilastolliselle kääntimelle eri sanoja. Käännin ei ymmärrä, että "hevosella" liittyy sanaan "hevonen". Koska tilastollinen käännin perustuu nimensä mukaisesti tilastollisiin todennäköisyyksiin, vain yleisimmät sija- ja taivutusmuodot päätyivät käännöksiin. Oikea sana saattoi siis olla väärässä muodossa. Tällä hetkellä melkein kaikki konekäännökset perustuvat neuroverkkoihin. Vielä 2010-luvun alkupuoliskolla neuroverkot olivat alkuvaiheessaan, mutta nyt ne ovat jo vallitseva menetelmä. Esimerkiksi Google-kääntäjä alkoi hyödyntää neuroverkkoja vuonna 2016. Kuten tilastollisissakin kääntimissä, myös neuroverkkoihin perustuvan kääntimen perusta ovat valtavat tekstimassat. Tekstit kuitenkin kohdennetaan virkkeen tasolla, ei sanatasolla. Neuroverkko ei siis käsittele tekstiä pelkkinä välilyöntien välisinä merkkijonoina. Algoritmit laskevat vektoreita siitä, mitä muita sanoja on sanan ympärillä. Neuroverkoista on apua erityisesti morfologisesti rikkaiden kielten, kuten suomen, kanssa. Suomen kielen sijamuodot aiheuttavat sen, että valtaosa sanoista voi esiintyä useissa eri muodoissa. Neuroverkko ei sinänsä ymmärrä sijamuotoja, kuten että "hevosella" on hevonen-sanan yksikön adessiivi. Se kuitenkin oppii pilkkomaan sanoja ja oppii, että esimerkiksi -lla-loppuiset sanat esiintyvät tietyssä ympäristössä. Palataan vielä alkuun ja siihen, miksi nimenomaan Google-kääntäjää käytetään niin monessa tilanteessa. Koponen huomauttaa, että Google-kääntäjää voi käyttää kuka tahansa ja missä tahansa. Esimerkiksi hotelliarvosteluja tai verkkokaupan toimitusehtoja pystyy usein ainakin jonkin verran tulkitsemaan Google-kääntäjän avustuksella. "Toki konekäännösten kanssa pitää aina muistaa olla epäluuloinen." Google-kääntäjä tuli mukaan konekäännösten maailman vasta tilastollisen kääntämisen vaiheessa, eli sillä ei missään vaiheessa ollut sääntöpohjaista käännintä. "Googlella on todennäköisesti suurimmat aineistot kaikilta mahdollisilta aloilta, mikä tekee Google-kääntäjästä tavallisen ihmisen näkökulmasta yhden parhaista käännöskoneista. Jos käännöksiä tarvitaan jonkin erikoisalan tarpeisiin, silloin parempi ratkaisu on pienempi ja erikoistuneempi käännin, joita on esimerkiksi käännöstoimistoilla ja eri organisaatioilla", Koponen huomauttaa. Konekäännösten evoluutio ei todellakaan ole tullut päätökseensä. Esimerkiksi Google-kääntäjän uusin kehityskulku liittyy niin kutsuttuun massiiviseen monikieliseen kääntämiseen, Koponen kertoo. Tähän asti Google-kääntäjä on kääntänyt lähtökielestä kohdekieleen, mutta kaikissa kielipareissa ei ole riittävästi aineistoa käännösten pohjaksi. Massiivinen monikielinen kääntäminen tarkoittaa, että kaikki kielet laitetaan ikään kuin samaan pataan. Koneen opetusvaiheessa kone oppii asioita monista kielistä ja yhdistää niitä käännösvaiheessa. Jos esimerkiksi haluaa kääntää suomesta koltansaameksi, kieliparilla ei ole paljoakaan aineistoa, mutta massiivisen monikielisen kääntämisen avulla kone yhdistelee oppimaansa muistakin kielistä, vaikkapa ruotsista, norjasta tai englannista. Koska Google-kääntäjä hämmentää kieliä nykyään samassa padassa, välillä tuttuunkin sanontaan voi sekoittua useita kieliä. Esimerkiksi haastatteluhetkellä Google-kääntäjä kääntää ruotsin var så god -ilmauksen suomeksi "olet tervetullut", vaikka oikea käännös olisi "ole hyvä". "Ei siinä olisi järkeä, ellei käännöksessä olisi mukana myös englantia. Var så god on englanniksi you´re welcome, mikä taas on sana sanalta suomeksi käännettynä 'olet tervetullut'. Mutta eivät kaikki suomen ja ruotsin väliset käännökset sentään englannin kautta liiku", Koponen kertoo. Hän muistuttaa, että konekäännösmaailmassa on vain kymmenkunta oikeasti isoa kieltä. Englannin, espanjan, kiinan, ranskan ja muutaman muun kielen jälkeen nähdäänkin jo radikaali pudotus konekääntämiseen tarvittavan aineiston määrässä. "Suomi ei kuulu hyvin resursoituihin kieliin, mutta suomen tilanne ei ole yhtä huono kuin vaikka saamen tai monien afrikkalaisten kielten. Tutkimuksen kentällä isot kielet jyräävät edelleen, mutta viime vuosina on alettu kiinnostua myös pienemmistä kielistä", Koponen tiivistää. Aiheet Google-kääntäjä Maarit Koponen konekäännös