Tiedätkö, miten Google-kääntäjä toimii ja miksi se kääntää välillä hassusti – tutkija avaa konekäännösten historiaa 70 vuoden ajalta: "Konekäännösten kanssa pitää aina muistaa olla epäluuloinen" - Lukemisto

Tiedätkö, miten Google-kääntäjä toimii ja miksi se kääntää välillä hassusti – tutkija avaa konekäännösten historiaa 70 vuoden ajalta: "Konekäännösten kanssa pitää aina muistaa olla epäluuloinen"
Konekäännösten maailmassa sääntöpohjaiset kääntimet jyräsivät puoli vuosisataa, mutta parissa vuosikymmenessä on siirrytty tilastollisten kääntimistä neuroverkkoihin ja massiiviseen monikieliseen kääntämiseen.
Ruotsin "var så god", eli "ole hyvä" kääntyy Google-kääntäjässä suomeksi tervetulotoivotukseksi. Siinä ei olisi järkeä, ellei käännöksessä olisi mukana englantia. "Var så god on englanniksi you´re welcome, mikä taas on sana sanalta suomeksi käännettynä 'olet tervetullut'", huomauttaa tutkija Maarit Koponen. Kuva: Kari Salonen, kuvakaappaus: Google, kuvankäsittely: Jarkko Sirkiä
Lukemisto
1.8.202012:00
Tuovi Mäkipere
Mikä yhdistää ruotsinläksyjen parissa kamppailevaa teiniä, Latviassa matkailevaa turistia ja ulkomaisesta verkkokaupasta tavaraa tilaavaa kuluttajaa? Kaikki saattavat tarvita apua maailman tunnetuimmalta kääntimeltä, Google-kääntäjältä.
Googlen tarjoama ilmainen käännin on monelle tuttu, mutta miten konekääntäminen tapahtuu?
"Jahas, kuinka kaukaa aloitan vastaamisen?" naurahtaa post doc -tutkija Maarit Koponen Helsingin yliopistosta.
Konekäännökset ovat kehittyneet aikana melkoisesti 1950-luvulta tähän päivään. Aivan ensimmäiset käännöskoneet eli kääntimet olivat sääntöpohjaisia ja pohjautuivat kaksikieliseen sanakirjaan.
Sanakirjan pohjalta kääntimelle opetettiin erilaisia sääntöjä, jotta kone osasi kääntää esimerkiksi englannin sanan "play" tilanteesta riippuen joko pelata-, soittaa- tai näytellä-verbiksi tai näytelmä-substantiiviksi. Yksi sääntö olisi voinut olla, että jos play-sanaa seuraa esimerkiksi sana "piano", kyse on soittamisesta.
Sääntöpohjaiset kääntimet jäivät taka-alalle 2000-luvun alussa, sillä ne vaativat paljon käsityötä ja olivat jäykkiä.
1990-luvun lopulta noin vuoteen 2015 asti vallalla olivat tilastolliset kääntimet. Niissä kone etsi valtavista käännetyistä tekstimassoista käännöksen, joka on kulloinkin tilastollisesti todennäköisin.
"Kun käännintä koulutetaan, siihen syötetään suurin piirtein kaikkea mahdollista käännettyä tekstiä kaunokirjallisuudesta käyttöohjeisiin ja Raamattuun. Enemmän on enemmän", Koponen kertoo.
Tilastolliset kääntimet käsittelevät vain kahden välilyönnin välissä olevia merkkijonoja, eli esimerkiksi kaikki hevonen-sanan sijamuodot ovat tilastolliselle kääntimelle eri sanoja. Käännin ei ymmärrä, että "hevosella" liittyy sanaan "hevonen".
Koska tilastollinen käännin perustuu nimensä mukaisesti tilastollisiin todennäköisyyksiin, vain yleisimmät sija- ja taivutusmuodot päätyivät käännöksiin. Oikea sana saattoi siis olla väärässä muodossa.
Tällä hetkellä melkein kaikki konekäännökset perustuvat neuroverkkoihin. Vielä 2010-luvun alkupuoliskolla neuroverkot olivat alkuvaiheessaan, mutta nyt ne ovat jo vallitseva menetelmä. Esimerkiksi Google-kääntäjä alkoi hyödyntää neuroverkkoja vuonna 2016.
Kuten tilastollisissakin kääntimissä, myös neuroverkkoihin perustuvan kääntimen perusta ovat valtavat tekstimassat. Tekstit kuitenkin kohdennetaan virkkeen tasolla, ei sanatasolla. Neuroverkko ei siis käsittele tekstiä pelkkinä välilyöntien välisinä merkkijonoina. Algoritmit laskevat vektoreita siitä, mitä muita sanoja on sanan ympärillä.
Neuroverkoista on apua erityisesti morfologisesti rikkaiden kielten, kuten suomen, kanssa. Suomen kielen sijamuodot aiheuttavat sen, että valtaosa sanoista voi esiintyä useissa eri muodoissa.
Neuroverkko ei sinänsä ymmärrä sijamuotoja, kuten että "hevosella" on hevonen-sanan yksikön adessiivi. Se kuitenkin oppii pilkkomaan sanoja ja oppii, että esimerkiksi -lla-loppuiset sanat esiintyvät tietyssä ympäristössä.
Palataan vielä alkuun ja siihen, miksi nimenomaan Google-kääntäjää käytetään niin monessa tilanteessa.
Koponen huomauttaa, että Google-kääntäjää voi käyttää kuka tahansa ja missä tahansa. Esimerkiksi hotelliarvosteluja tai verkkokaupan toimitusehtoja pystyy usein ainakin jonkin verran tulkitsemaan Google-kääntäjän avustuksella.
"Toki konekäännösten kanssa pitää aina muistaa olla epäluuloinen."
Google-kääntäjä tuli mukaan konekäännösten maailman vasta tilastollisen kääntämisen vaiheessa, eli sillä ei missään vaiheessa ollut sääntöpohjaista käännintä.
"Googlella on todennäköisesti suurimmat aineistot kaikilta mahdollisilta aloilta, mikä tekee Google-kääntäjästä tavallisen ihmisen näkökulmasta yhden parhaista käännöskoneista. Jos käännöksiä tarvitaan jonkin erikoisalan tarpeisiin, silloin parempi ratkaisu on pienempi ja erikoistuneempi käännin, joita on esimerkiksi käännöstoimistoilla ja eri organisaatioilla", Koponen huomauttaa.
Konekäännösten evoluutio ei todellakaan ole tullut päätökseensä.
Esimerkiksi Google-kääntäjän uusin kehityskulku liittyy niin kutsuttuun massiiviseen monikieliseen kääntämiseen, Koponen kertoo. Tähän asti Google-kääntäjä on kääntänyt lähtökielestä kohdekieleen, mutta kaikissa kielipareissa ei ole riittävästi aineistoa käännösten pohjaksi.
Massiivinen monikielinen kääntäminen tarkoittaa, että kaikki kielet laitetaan ikään kuin samaan pataan. Koneen opetusvaiheessa kone oppii asioita monista kielistä ja yhdistää niitä käännösvaiheessa.
Jos esimerkiksi haluaa kääntää suomesta koltansaameksi, kieliparilla ei ole paljoakaan aineistoa, mutta massiivisen monikielisen kääntämisen avulla kone yhdistelee oppimaansa muistakin kielistä, vaikkapa ruotsista, norjasta tai englannista.
Koska Google-kääntäjä hämmentää kieliä nykyään samassa padassa, välillä tuttuunkin sanontaan voi sekoittua useita kieliä. Esimerkiksi haastatteluhetkellä Google-kääntäjä kääntää ruotsin var så god -ilmauksen suomeksi "olet tervetullut", vaikka oikea käännös olisi "ole hyvä".
"Ei siinä olisi järkeä, ellei käännöksessä olisi mukana myös englantia. Var så god on englanniksi you´re welcome, mikä taas on sana sanalta suomeksi käännettynä 'olet tervetullut'. Mutta eivät kaikki suomen ja ruotsin väliset käännökset sentään englannin kautta liiku", Koponen kertoo.
Hän muistuttaa, että konekäännösmaailmassa on vain kymmenkunta oikeasti isoa kieltä. Englannin, espanjan, kiinan, ranskan ja muutaman muun kielen jälkeen nähdäänkin jo radikaali pudotus konekääntämiseen tarvittavan aineiston määrässä.
"Suomi ei kuulu hyvin resursoituihin kieliin, mutta suomen tilanne ei ole yhtä huono kuin vaikka saamen tai monien afrikkalaisten kielten. Tutkimuksen kentällä isot kielet jyräävät edelleen, mutta viime vuosina on alettu kiinnostua myös pienemmistä kielistä", Koponen tiivistää.
Artikkelin aiheet
Google-kääntäjä
Maarit Koponen
konekäännös
Mainos: Digita
Yritykset hukkaavat miljoonia – ratkaisu löytyy jo Lapin tuntureilta
Osaston luetuimmat
MAINOS: Suomen parhaat
Mainos: Merimetalli Ky
Koti | Riukuaita kuuluu suomalaiseen maisemaan – helppo asentaa itse

Tiedätkö, miten Google-kääntäjä toimii ja miksi se kääntää välillä hassusti – tutkija avaa konekäännösten historiaa 70 vuoden ajalta: "Konekäännösten kanssa pitää aina muistaa olla epäluuloinen"

Yritykset hukkaavat miljoonia – ratkaisu löytyy jo Lapin tuntureilta

Kinkun paisto-ohje: Näillä vinkeillä onnistut varmasti, vaikka kinkun sulattaminenkin olisi unohtunut

Hyvinvointi | ”Maatalousyhteiskunnassa ADHD-piirteistä saattoi olla hyötyä” – nykymeno kuormittaa nepsyjä

Lemmikit | Koirien rokotussuositukset muuttuivat jälleen: Katso tästä päivitetty rokotusohjelma

Yle uutiset | Etelä-Savo on Suomen toiseksi suosituin joulumaa Lapin jälkeen

Yle uutiset | Hautapaikkojen hinnat Joensuussa nousevat roimasti

Musiikki | Bowie pelasti Hectorin ‒ "voi myös tehdä toisin kuin vain rääkyä kovaa”

Ruoka | Tiesitkö: kananmunan tuoreuden voi tarkistaa vesilasilla ja raakuuden pyörittämällä

Koti | Riukuaita kuuluu suomalaiseen maisemaan – helppo asentaa itse

Kinkun paisto-ohje: Näillä vinkeillä onnistut varmasti, vaikka kinkun sulattaminenkin olisi unohtunut

Hyvinvointi | ”Maatalousyhteiskunnassa ADHD-piirteistä saattoi olla hyötyä” – nykymeno kuormittaa nepsyjä

Lemmikit | Koirien rokotussuositukset muuttuivat jälleen: Katso tästä päivitetty rokotusohjelma

Yle uutiset | Etelä-Savo on Suomen toiseksi suosituin joulumaa Lapin jälkeen

Yle uutiset | Hautapaikkojen hinnat Joensuussa nousevat roimasti

Musiikki | Bowie pelasti Hectorin ‒ "voi myös tehdä toisin kuin vain rääkyä kovaa”

Ruoka | Tiesitkö: kananmunan tuoreuden voi tarkistaa vesilasilla ja raakuuden pyörittämällä

Yle uutiset | Hautapaikkojen hinnat Joensuussa nousevat roimasti

Yle uutiset | Etelä-Savo on Suomen toiseksi suosituin joulumaa Lapin jälkeen

Yle uutiset | Kuoma irtisanoo 12 henkilöä – säästö noin miljoona euroa vuodessa

Yle uutiset | Hakkuutähteet pääsivät Teuvalla hyvään käyttöön – katso, kuinka valot syttyivät joulukuusipuistossa

Yle uutiset | Moni suomalainen on perimässä sijoitusvarallisuutta, mutta ei tiedä sitä – rahasta ei puhuta, koska se on tabu

Yle uutiset | Kainuun hyvinvointalue ja kirkko yhteistyöhön – kirkon edustajia nimetään hyvinvointialueen työryhmiin

Yle uutiset | Asuntoilmoitukset keräävät yhä enemmän kuraa somessa – Sysmässä kartanon remontti synnytti somekuohun

Tiedätkö, miten Google-kääntäjä toimii ja miksi se kääntää välillä hassusti – tutkija avaa konekäännösten historiaa 70 vuoden ajalta: "Konekäännösten kanssa pitää aina muistaa olla epäluuloinen"

Yritykset hukkaavat miljoonia – ratkaisu löytyy jo Lapin tuntureilta

Kinkun paisto-ohje: Näillä vinkeillä onnistut varmasti, vaikka kinkun sulattaminenkin olisi unohtunut

Hyvinvointi | ”Maatalousyhteiskunnassa ADHD-piirteistä saattoi olla hyötyä” – nykymeno kuormittaa nepsyjä

Lemmikit | Koirien rokotussuositukset muuttuivat jälleen: Katso tästä päivitetty rokotusohjelma

Yle uutiset | Etelä-Savo on Suomen toiseksi suosituin joulumaa Lapin jälkeen

Yle uutiset | Hautapaikkojen hinnat Joensuussa nousevat roimasti

Musiikki | Bowie pelasti Hectorin ‒ "voi myös tehdä toisin kuin vain rääkyä kovaa”

Ruoka | Tiesitkö: kananmunan tuoreuden voi tarkistaa vesilasilla ja raakuuden pyörittämällä

Koti | Riukuaita kuuluu suomalaiseen maisemaan – helppo asentaa itse

Kinkun paisto-ohje: Näillä vinkeillä onnistut varmasti, vaikka kinkun sulattaminenkin olisi unohtunut

Hyvinvointi | ”Maatalousyhteiskunnassa ADHD-piirteistä saattoi olla hyötyä” – nykymeno kuormittaa nepsyjä

Lemmikit | Koirien rokotussuositukset muuttuivat jälleen: Katso tästä päivitetty rokotusohjelma

Yle uutiset | Etelä-Savo on Suomen toiseksi suosituin joulumaa Lapin jälkeen

Yle uutiset | Hautapaikkojen hinnat Joensuussa nousevat roimasti

Musiikki | Bowie pelasti Hectorin ‒ "voi myös tehdä toisin kuin vain rääkyä kovaa”

Ruoka | Tiesitkö: kananmunan tuoreuden voi tarkistaa vesilasilla ja raakuuden pyörittämällä

Yle uutiset | Hautapaikkojen hinnat Joensuussa nousevat roimasti

Yle uutiset | Etelä-Savo on Suomen toiseksi suosituin joulumaa Lapin jälkeen

Yle uutiset | Kuoma irtisanoo 12 henkilöä – säästö noin miljoona euroa vuodessa

Yle uutiset | Hakkuutähteet pääsivät Teuvalla hyvään käyttöön – katso, kuinka valot syttyivät joulukuusipuistossa

Yle uutiset | Moni suomalainen on perimässä sijoitus­varallisuutta, mutta ei tiedä sitä – rahasta ei puhuta, koska se on tabu

Yle uutiset | Kainuun hyvinvointalue ja kirkko yhteistyöhön – kirkon edustajia nimetään hyvin­vointi­alueen työryhmiin

Yle uutiset | Asunto­ilmoitukset keräävät yhä enemmän kuraa somessa – Sysmässä kartanon remontti synnytti somekuohun

Yle uutiset | Moni suomalainen on perimässä sijoitusvarallisuutta, mutta ei tiedä sitä – rahasta ei puhuta, koska se on tabu

Yle uutiset | Kainuun hyvinvointalue ja kirkko yhteistyöhön – kirkon edustajia nimetään hyvinvointialueen työryhmiin

Yle uutiset | Asuntoilmoitukset keräävät yhä enemmän kuraa somessa – Sysmässä kartanon remontti synnytti somekuohun