Keskustelu:Konekääntäminen

Wikipediasta
Siirry navigaatioon Siirry hakuun

Historia[muokkaa wikitekstiä]

Konekääntämisen historia alkaa aika laillakin ennen 1950-lukua, riippuen hieman katsantokannasta. Mikäli lähtökohtana pidetään ensimmäisiä tarkoitukseen kehitettyjä kojeita olisi tällöin ensimmäinen vuosi varmaankin 1933, jolloin patentointiin kaksi erillistä laitetta tehtävään. Mikäli taasen lähtökohta on puhtaan teoreettinen olisi ajoitus tehtävä universaalikielioppien aikaan jonnekin Euroopan myöhäiskeskiaikaan. Jos taas ajoitus tehdään tehtävän mahdollistavien koneiden mukaan, niin tuolloin ajoitus sijoittuisi 1600- ja 1700-lukujen taitteeseen ja ensimmäisiin mekaanisiin laskukoneisiin. Englanninkielinen versio taitaa tarjota myös Leibnizin kieliformulointeja ensimmäisinä lähtökohtina, jolloin lähtökohdaksi mielletään varmaankin logiikan ja kielen yhdistäminen.

Ainoa mahdollisuus mieltää historialliseksi alkupisteeksi 1950-luku olisi konekääntämisen saattaminen populaariin tietoisuuteen Georgetownin kokeen myötä vuonna 1954. Muutoinhan tutkimusta oli tehty jo 1940-luvun puolella, alkujaan sodan aikana ja myöhemmin tutkimuslaitoksissa Euroopassa ja Yhdysvalloissa. Warren Weaverin muistio konekääntämisestä on vuodelta 1949 ja siinä hän kertoo käyneensä keskusteluja koneiden kyvystä kääntää jo vuodesta 1947 saakka eri tahojen kanssa, joista yhtenä hän mainitsee Richensin ja Boothin tekemät kokeet Englannissa. Samalla Weaver myös postuloi konekääntämisen siirtosääntö (tai mahdollisesti välikielimallin, miten sen sitten tulkitseekin) paradigman pohtiessaan tapaa, jolla kääntäminen voitaisiin toteuttaa. Tällä Weaver liittää konekääntämisen alkuaikojen pohdinnan tiiviisti Zellig Harrisin ja myöhemmin Noam Chomskyn luomaan generatiiviseen kielioppiin, jonka vaikutus näkyy selkeästi eritoten ALPAC-raportissa, jossa nimenomaisesti kielen mallintamiseen toivotaan lisää resursseja, jotta kyettäisiin löytämään kieliä yhdistävä universaali syvärakenne. --78.27.78.126 27. marraskuuta 2009 kello 15.32 (EET)[vastaa]

Laatu[muokkaa wikitekstiä]

Ehkä olisi paikallaan mainita myös tavoista tutkia konekäännösten laatua. Itse asiassa laadusta ei kuitenkaan kerro paljoakaan se, että ongelmia on. Kuitenkin monet parhaista nykyisistä konekäännöksistä ovat ajoittain äärimmäisen hyviä, ongelmaksi vain muodostuu, etteivät kaikki käännetyt lauseet yllä tälle tasolle. Erilaisten käännös- ja kielimallien avulla konekääntämisen laatua voidaan parantaa melko paljon, mutta tällöin malli pitää luoda erikseen jokaisen kieliparin kohdalla uudestaan (ns. siirtosääntöihin pohjaava malli). Toisaalta viime aikoina myös suoraan kääntämiseen nojaavat mallit ovat saaneet lisää suosiota (esim. Papineni et al. 1997 kirjoittivat Direct Translation Model -mallista, jota Ittycheriah ja Roukos 2007 muokkasivat edelleen Direct Translation Model 2 -malliksi). Näillä malleilla myös käännösten laatu on saatu verrattain korkeaksi ilman erillistä siirtomoduulia, jolloin kääntimet ovat helpommin siirrettävissä toisiin kielipareihin.

Saksan ja englannin välillä tutkimusta on tehty melko paljon jo aivan kääntämisen alkuajoista saakka (ks. esim. Oswald 1952) ja samalla monet nykyisin käytössä olevat maksulliset konekäännösohjelmat kykenevätkin kääntämään varsin hyvin näiden kahden kielen välillä. Esimerkiksi käyttämällä tekstielementtien tunnistusta (Parts of Speech tagging, POS) voidaan osittain ratkaista saksan sanajärjestyksen tuottamia ongelmia. Myös edellä luetellut kielimallit korjaavat käännösmallin ongelmia. Näin vaikkapa Vilar et al. 2006 toteavatkin, että esimerkiksi espanja-englanti käännöksessä (Openlab 2006 -korpus) vain 28% käännösvirheistä johtui sanaston ongelmista, ja niistäkin vain puolet olivat suoranaisia ongelmia liittyen sanamerkityseen ja lopuissa tapauksissa ongelma on väärän, vaikkakin oikeaa merkitsevän sanan valitseminen. Siten nykyisten tilastollisten konekäännösohjelmien perusongelma ei niinkään liity sanastoon vaan aivan muualle.

Mitä taasen tulee sijamuotoihin niin Kimmo Koskenniemi kirjoitti tähän osittaisen ratkaisun jo väitöskirjassaan vuonna 1983, joten esimerkiksi Googlen kääntäjän kohtaama ongelma ei suoranaisesti liity siihen, etteikö ongelmaan olisi ratkaisua vaan siitä, etteivät kaikki käännösohjelmat ole rakentaneet malliaan tukemaan tällaista siirtoa. Esimerkiksi monet suomalaisten yritysten toteuttamat konekäännösohjelmat eivät kohtaa vastaavassa määrin ongelmia sijapäätteiden kanssa kuin puhtaaseen korpusvertailuun perustuva Googlen kääntäjä. Siksi sijamuotojen ongelmat liittyvätkin ehkä yleisemmin ongelmaan, joka on seurausta valitun "käännösikkunan" laajuudesta. Mikäli käännöskone tarkistaa kolme edellistä ja kolme seuraavaa sanaa jokaisen käännettävän sanan ympäriltä voivat esimerkiksi englannin verbirektiot jäädä tämän alan ulkopuolelle tai mahdollisesti kielessä vain kerran sijapäätteellä ilmaistava tekemisen kohde tms. Toinen ongelma on myös miten monen sanan yhdessä katsotaan muodostavan yksi tarkasteltava yksikkö: mikäli kolme peräkkäistä sanaa on suurin mahdollinen yksikkö voivat monet lauseenjäsenien väliset suhteet jäädä selvittämättä. Ongelma tämän laajentamisessa on kuitenkin tietokoneiden kyky laskea järjellisessä ajassa käännösvastine. --78.27.78.126 27. marraskuuta 2009 kello 15.32 (EET)[vastaa]

Ongelmia[muokkaa wikitekstiä]

Mainittu "he" ja "she" ongelma on itseasiassa ratkaistavissa vaikkapa erilaisilla erisnimen tunnistavilla ohjelmilla. Tällaista nimentunnistamisohjelmistoa käyttää vaikkapa NewsExplorer-nettisivusto, joka pyrkii tunnistamaan eri nimivariantit ja liittämään näin samaa henkilöä koskevat erikieliset tekstit yhteen. Mikäli tällainen erisnimien tunnistusohjelma (Named Entity Recognition, NER) liitetään osaksi konekäännösohjelmaa voidaan samaan tietoon liittää myös sukupuoli. Enemmänkin ongelmia voitaneen olettaa syntyvän vaikkapa ranskasta tai saksasta käännettäessä kun jokaisella sanalla on oma sanasukunsa. Näin esimerkiksi pronominaalinen viittaus ranskassa sanalla "elle" voi aivan yhtä hyvin viitata autoon kuin ihmiseen, jolloin koneen tulee muistaa edellisten lauseiden subjektit, jotta ne kykenevät päättelemään oikean käännöksen esimerkiksi juuri suomeksi.

Homonymian osalta tilastollinen konekääntäminen kykenee ratkaisemaan suuren osan ongelmista puhtaasti todennäköisyyksiin pohjaten; mikäli tietyt sanat esiintyvät useasti peräkkäin on todennäköistä, että ne esiintyvät peräkkäin myös kulloinkin käännettävässä tekstissä. Kielen kääntäminen voidaan näin nähdä eräänlaisena pelinä, jossa pyritään löytämään kulloisenkin lauseen tasapainovakio. Koska kieli itsessään on probabilistista myös käännöksen tulee perustua tähän -- aivan samalla tavalla kuin monimerkityksisen sanan voi tulkita monella tavoin ihmisen toimesta voidaan se tulkita myös koneen toimesta. Tämä ei suoranaisesti ole ongelma vaan luonnollisen kielen ominaisuus. --78.27.78.126 27. marraskuuta 2009 kello 15.32 (EET)[vastaa]

Muuta[muokkaa wikitekstiä]

Kaipaisi ehkä tarkennusta mitä tarkoitetetaan "kielikuntien sisällä helppoa", jolla viitattaneen morfologisten piirteiden verrattain helppoon kääntämiseen. Semanttiset ongelmat ovat aivan yhtä vaikeita on kyseessä mitkä tahansa kaksi kieltä sillä monesti kielissä on esimerkiksi erilainen tapa johtaa sanoja, jolloin uudissanojen tunnistamiseen tarvitaan erillinen ohjelmamoduli, joka määrittää säännön (esim. italia-ranska välillä ks. oheinen artikkeli). Myös taustakorpuksen luonti on aika pitkälti yhtä hankalaa riippumatta kielten läheisyydestä, mikäli käytettynä metodina on tällainen korpusvertailu. Ylipäätään voisi olla paikallaan kuvata nykyisin vallalla olevia metodeja, jotka löytyvät vaikka Google-kääntäjän "lisätietoja kääntäjästä" linkin takaa, mutta joista lisätietoja voi hakea lukemattomista artikkeleista esimerkiksi Machine Translation Archiven sivuilta.

--78.27.78.126 11. heinäkuuta 2009 kello 12.32 (EEST)[vastaa]

Säätiedotukset[muokkaa wikitekstiä]

Kääntäjien keskuudessa on yleisesti tunnettu toisasia, että toistaiseksi säätiedotukset ovat ainoa alue, jossa konekääntäminen on "täydellistä". Jos säätiedotuksessa on "aurinkoista" tai "pilvistä", niin niille on olemassa yksiselitteiset vastineet muissa kielissä. Päinvastoin kuin "tavallisessa" tekstissä, säätiedotukset koostuvat yksittäisistä sanoista, jotka tässä yhteydessä voi kääntää automaattisesti kielestä toiseen.--Nedergard 5. huhtikuuta 2010 kello 11.35 (EEST)[vastaa]

Lähteen mukaan nyt yleistät: ”Nykyisten kaupallisten sovellusten kyky tuottaa sellaisenaan julkaisukelpoista tekstiä on erittäin huono – Kanadassa pitkään käytössä ollut, säätiedotuksia englannin ja ranskan välillä kääntävä ohjelma on lähes ainoa, jonka tuotokset voidaan julkaista ilman oikolukua.” ML:n poistot ovat siinä mielessä oikeutettuja, että lähteessä ei puhuta kaikista säätiedotuksista. – EtäKärppä13 5. huhtikuuta 2010 kello 11.51 (EEST)[vastaa]
Olet oikeassa.--Nedergard 5. huhtikuuta 2010 kello 12.20 (EEST)[vastaa]
Koko kappale ei muutenkaan vastaan lainkaan lähdettään. Lähteestäkin ilmenee, että konekääntäminen on paljon monimutkaisempaa kuin että "mitä isompi tietokanta, sen parempi tulos". --ML 5. huhtikuuta 2010 kello 11.55 (EEST)[vastaa]
Olet oikeassa. Ei vastaa lähdettä, mutta asiateksteissä suuri käännösmuisti auttaa. Juuri tähän Google Translate perustuu - suunnattomaan tietokantaan, jonka on nykytietokoneilla on mahdollista (Huom! se ei silti tee siitä "hyvää" käännösohjelmaa.--Nedergard 5. huhtikuuta 2010 kello 12.20 (EEST)[vastaa]
Ilmeisesti näitä ohjelmia tuntematta sotket nyt kaksi välinettä: käännösmuistiohjelmat ja automaattiset käännöskoneet. Kanadassa on ilmeisesti tehty ohjelma tiettyyn tarkoitukseen, mutta artikkelista ei selviä tarkemmin, missä se ohjelma on käytössä ja kenen käyttöön tuotos on tarkoitettu. Poistaisin artikkelista viittauksen siihen. Jokainen meistä on törmännyt käyttöohjeissa automaattisten konekäännösten tuotoksiin, ja parhaita esimerkkejä laadusta ovat juuri ne: käyttökelvottomia. --Abc10 5. huhtikuuta 2010 kello 12.25 (EEST)[vastaa]
En sekoittanut eri ohjelmia. Kun puhuin säätiedotusten kääntämisestä, tarkoitin juuri niiden koneellista kääntämistä (jotka nekin käyttävät joko käännösmuistia tai sääntöihin perustuvaa kääntämistä) en käännösmuistiohjelmia, jotka aina vaativat ihmisen käyttäjäksi. Ja esimerkkini toimivasta konekäännöksestä on yksi harvoja tapauksia, jossa konekääntäminen ihan oikeasti toimii.--Nedergard 5. huhtikuuta 2010 kello 12.56 (EEST)[vastaa]
Käytit kuitenkin ilmaisua "Kääntäjien keskuudessa on yleisesti tunnettu toisasia". Jos kyse on yhdestä Kanadassa käytössä olevasta ohjelmasta, jossa käännetään säätiedotuksia englannista ranskaan et vice versa, se pitäisi artikkelissa esittää selvästi. Mekaanisissa luettelomaisissa teksteissä tietyissä kielissä tällainen käännösmuistia hyödyntävä ohjelma voi toimia, sillä varsinkin englanti on tältä kannalta varsin mukava kieli. Yleistäväksi esimerkiksi tästä yksittäistapauksesta ei kuitenkaan ole. --Abc10 5. huhtikuuta 2010 kello 13.04 (EEST)[vastaa]
Kääntäjien keskuudessa tuollaista yleistä tuntemusta ei esiinny. Englannin ja ranskan välinen säätiedotuskäännös saattaa olla lukukelpoista tekstiä, mutta pitää muistaa suomen erikoislaatuinen rakenne ja myös sanasto indoeurooppalaisiin kieliin verrattuna. Siksi yleistysten lisääminen on vaarallista ja saa lukijan kuvittelemaan, että konekäännöksillä tosiaan saataisiin aikaan järkevää tekstiä. --Abc10 5. huhtikuuta 2010 kello 11.59 (EEST)[vastaa]
1. "Kääntäjien keskuudessa on yleisesti tunnettu toisasia" on tällä keskustelusivulla esitetty peruste - ei artikkelissa - ja sen perusteella myös kirjoitin artikkelissa esittämäni väitteen. Kääntämistä opiskelleena tiedän mistä puhun - säätiedotusten kääntäminen oli paraatiesimerkki siitä, mihin kone parhaimmillaan pystyy.
2. Olet oikeassa, minun olisi pitänyt mainita, että ko. esimerkki koskee vain Kanadaa ja englantia ja ja ranskaa, koska en pysty esittämään muita lähteitä, että vastaavanlaisia ohjelmia olisi käytössä muiden kielten välillä.
PS. En ymmärrä kommenttia englannin "mukavuudesta"? Sehän on mitä hankalin kaikki ja kaikki riippuu lauseyhteydestä ja sanajärjestyksestä, koska sanoja ei taivuteta (jos haluat keskustella tästä aiheesta enemmän, aloitathan keskustelun keskustelusivullani - tämä kun ei varsinaisesti liity tähän artikkeliin).--Nedergard 5. huhtikuuta 2010 kello 13.32 (EEST)[vastaa]
Siinä olet oikeassa, että englanti on pahimmillaan/ parhaimmillaan varsin monimutkainen kieli. Tällä helppoudella tarkoitin rajallisen aihepiirin simple english -tasoa, jota säätiedotuksen (ja siitähän tässä oli kyse) kääntäminen on. Vielä sellainen yksityiskohta, että suomen sana 'kone' tuo ainakin minulle mieleen teknisen laitteen kuten tietokoneen. Siinä mielessä konekäännös on harhaanjohtava, sillä ohjelmahan siellä takana on aina. Konekäännös olisi pikemminkin koneellinen tai mekaaninen käännös, jossa sana Aa vastaa sanaa Ba, ja niitä peräkkäin latoen syntyy käännös. En lähde kovin hienovireiselle tasolle tässä keskustelussa. Aiheesta on käyty pitkiä ja syvällisiä keskusteluja, joten en usko että Wikipedian keskusteluissa tulee siitä asiasta sen valmiimpaa. Kirjoitetaan vain lähteiden mukaan ja täsmentäen, mistä asiasta lähteessä on kysymys. Hyvää jatkoa opinnoillesi! --Abc10 5. huhtikuuta 2010 kello 14.15 (EEST)[vastaa]
Kiitos, mutta opintojen päättymisestä on jo kulunut erinäisiä vuosia. Terminä "konekäännös" on vakiintunut (vaikka sen tekisikin tietokoneohjelma, ilmeisesti vastakohtana "ihmiskääntämiseen"). (Lähteetön) fakta on, että kaikki ns. konekäännökset/automaattiset käännökset perustuvat joko sana=sana tai lause=lause -vastaavuuteen. En nyt äkkiä löytänyt päteviä lähteitä artikkelin uudelleenkirjoittamiseen... (mutta tuo tekoäly-viite oli pakko poistaa, vaikka tästä nyt kehkeytyikin yllättävän vilkas keskustelu). Pitää katsoa, josko tästä saisi pätevän ja lähteistetyn artikkelin.--Nedergard 5. huhtikuuta 2010 kello 15.41 (EEST)[vastaa]
Lisäyksenä vielä, että Alapuron mainitsema tietokoneavusteinen kääntäminen, erityisesti käännösmuistit, ovat kääntäjien jokapäiväisiä työkaluja, erityisesti asiatekstiä käännettäessä. Kirjallisuuden kääntämisessä niidenkin hyöty on jokseenkin vähäinen. --Abc10 5. huhtikuuta 2010 kello 12.02 (EEST)[vastaa]

Halusin vain korvata virheellisen (ja lähteettömän) tekoälyväittämän asiallisemmella (vaikkakin lähteettömällä) tiedolla. Kärjistän nyt, mutta tarkoittaako virheellisen tiedon korjaus sitä, että uusi oikea tieto on vedenpitävästi todistettava?--Nedergard 5. huhtikuuta 2010 kello 12.26 (EEST)[vastaa]

Saattaa olla että osa tähän keskusteluun osallistujista puhuu keskenään erilaisista säätiedotuksista. Suomen määrämuotoinen merisää (ajoittain lumisadetta, enimmäkseen hyvä näkyvyys) kääntynee ohjelmalla varsin hyvin, kun taas kuvailevampi teksti jossa on vaihtelevia rakenteita ei ole yhtä helppo (Maan keskisessä osassa satelee ajoittin lunta, mutta näkyvyys pysynee järviseutuja lukuunottamatta pääosin hyvänä). ( Kanadalaisten ohjelmaa on esitelty täällä. --Tappinen 5. huhtikuuta 2010 kello 12.38 (EEST)[vastaa]