Wikipedia:Kielimallit

Wikipediasta
(Ohjattu sivulta Wikipedia:LLM)
Siirry navigaatioon Siirry hakuun
"Kielimallit ovat luotettavuudeltaan, ymmärtämiseltään ja aihealueiltaan rajallisia, minkä vuoksi ne tarvitsevat ihmisvalvontaa."
—Michael Osborne, Koneoppimisen professori Insinööritieteiden laitoksella, Oxfordin yliopisto, 25.1.2023[1]

Kielimallit ovat luonnollisen kielen käsittelyyn tarkoitettuja tietokoneohjelmia, jotka käyttävät keinotekoisia neuroverkkoja tekstin tuottamiseen. Merkittäviä malleja ovat GPT-3, GPT-4, LaMDA (Bard), BLOOM ja LLaMA. Kielimallit mahdollistavat monenlaisia sovelluksia, kuten tekoälychatbotit ja tekoälyhakukoneet. Niitä käytetään yhä useampiin ominaisuuksiin yleisissä sovelluksissa, kuten tekstinkäsittelyohjelmissa ja taulukkolaskentaohjelmissa. Tässä käytännössä termit ”kielimalli” ja ”kielimallituotos” viittaavat kaikkiin tällaisiin ohjelmiin ja sovelluksiin sekä niiden tuotoksiin.

Kielimallit ovat oikein käytettynä hyödyllisiä apuvälineitä, mutta muokkaajien on oltava myös perillä niihin liittyvistä rajoituksista. Kielimalleilla tuotettu sisältö on usein suoranaista sepitystä, johon liittyy fiktiivisiä viittauksia, jotka ovat huijausten tunnusmerkkejä. Se on rutiininomaisesti tarkistamatonta, ja se koostuu koneen tuottamasta vastineesta uudelle tutkimukselle. Se voi olla myös puolueellista, herjata eläviä ihmisiä ja rikkoa tekijänoikeuksia. Muokkaajat, jotka eivät ole täysin tietoisia näistä riskeistä, eivät saa muokata näitä välineitä käyttäen. Kielimalleja ei saa käyttää tehtäviin, joihin muokkaajalla ei ole huomattavaa perehtyneisyyttä. Niiden tuotokset on tarkastettava huolellisesti kaikkien sovellettavien käytäntöjen noudattamiseksi. Muokkaaja on täysin vastuussa kaikista muokkauksistaan, myös niistä, jotka on tehty kielimallien avulla.

  1. Älä julkaise Wikipediaan kielimallien luomaa alkuperäissisältöä tai viitteitä. Vaikka tällainen sisältö olisi voimakkaasti muokattu, etsi muita vaihtoehtoja, jotka eivät käytä koneen luomaa sisältöä.
  2. Kielimallit ovat apuohjelmia, jotka antavat neuvoja kirjoittamiseen. Ne voivat esittää vaihtoehtoisia sanoja, muokata kappaleita tai tarkistaa tekstin tasoa. Kielimallien neuvot eivät ole aina totta tai luotavia. Sinun pitää itse arvioida ja valita, noudatatko niitä vai et.
  3. Voit käyttää kielimalleja tekstinkorjaukseen, tiivistämiseen ja uudelleenmuotoiluun, mutta huomioi, että ne eivät välttämättä havaitse kielioppivirheitä oikein tai säilytä oleellista tietoa. Käytä huolellisuutta ja muokkaa vastausta riittävästi. Voit myös pyytää kielimallia korjaamaan puutteitaan, kuten puuttuvaa tietoa yhteenvedossa tai epäensyklopedistista, esim. mainosteemaista sävyä.
  4. Sinun tulee varmistaa, että kielimallien käyttö ei aiheuta häiriötä Wikipediassa.
  5. Kielimallien luomat teokset eivät ole luotettavia lähteitä. Älä hyödynnä lähteitä, jotka eivät ole luotettavia ja tarkastettuja. Varmista, että artikkeleissa esiintyy ainoastaan totuudenmukaisia tietoja.
  6. Wikipediaa ei käytetä koelaboratoriona kielimalleille. Wikipedian käyttäminen kokeiluihin tai testauksiin on kiellettyä.

Riskit ja asiaankuuluvat käytännöt[muokkaa wikitekstiä]

Tekijänoikeusrikkomukset[muokkaa wikitekstiä]

Asiaankuuluva käytäntö: Wikipedia:Tekijänoikeudet
Vihje: Jos haluat tuoda tekstiä, jonka olet löytänyt muualta tai jonka olet kirjoittanut yhdessä muiden kanssa (myös kielimallien kanssa), voit tehdä sen vain, jos se on saatavilla ehdoilla, jotka ovat yhteensopivia CC BY-SA-lisenssin kanssa.

Kielimalli voi tuottaa tekijänoikeuksia loukkaavaa materiaalia.[a] Tuotettuun tekstiin voi voi sisältyä sanatarkkaa ei-vapaata sisältöä tai se voi olla johdannaisteos. Lisäksi kielimallien käyttäminen tekijänoikeudella suojatun sisällön (kuten uutisartikkelit) tiivistämiseen voi johtaa liian lähelle alkuperäistä meneviä uudelleenmuotoiluja. Tekijänoikeusasema kielimalleilla, jotka on koulutettu tekijänoikeudella suojatulla materiaalilla, ei ole vielä täysin ymmärretty. Niiden tuotanto ei välttämättä ole yhteensopiva CC BY-SA-lisenssin ja Wikipedian tekstissä käytetyn GNU-lisenssin kanssa.

Alkuperäistutkimus ja ”hallusinaatiot”[muokkaa wikitekstiä]

Asiaankuuluva käytäntö: Wikipedia:Ei uutta tutkimusta
Vinkki: Wikipedia-artikkelit eivät saa sisältää alkuperäistutkimusta – eli tosiseikkoja, väitteitä ja ideoita, joille ei ole olemassa luotettavia, julkaistuja lähteitä. Tämä koskee myös julkaistun materiaalin analysointia tai synteesiä, joka johtaa tai vihjaa lähteissä esittämättömiin johtopäätöksiin. Osoittaaksesi että alkuperäistutkimusta ei ole käytetty, sinun on voitava viitata luotettaviin, julkaistuihin lähteisiin. Lähteiden on liityttävä suoraan aiheeseen ja niiden on tuettava esitettyjä väitteitä.

Vaikka kielimallit saattavat antaa tarkkoja vastauksia joihinkin kysymyksiin, ne saattavat myös tuottaa vinoutuneita tai virheellisiä vastauksia, joskus hienovaraisesti, joskus ei niin hienovaraisesti. Esimerkiksi jos pyydetään kirjoittamaan artikkeli lasinsirujen syönnin eduista, kielimalli saattaa joskus tehdä niin. Tämä voi olla vaarallista, siksi kielimalleja Wikipedia-sisällön kirjoittamisessa apunaan käyttävien muokkaajien tulee olla erityisen tarkkoina välttääkseen tällaisten kielimallien tuottamien alkuperäistutkimusten lisäämistä tietosanakirjaan.

Kielimallit ovat kaavan täydentämisen ohjelmia: ne tuottavat tekstiä valitsemalla todennäköisimmät sanat edellisten perään. Ne oppivat nämä kaavat koulutusaineistostaan, joka sisältää monenlaista sisältöä internetistä ja muualta, kuten kaunokirjallisuutta, salaliittoteorioita, propagandaa jne. Tämän vuoksi kielimallit voivat sepittää asioita, joita pidetään myös alkuperäistutkimuksena ja hallusinaatioina.

Kielimallilta kysyminen harvinaisista aiheista, monimutkaisista kysymyksistä tai tehtävistä, joihin ne eivät sovellu (eli tehtävistä, jotka vaativat laajaa tietämystä tai analyysiä), tekee näiden virheiden esiintymisestä paljon todennäköisempiä.

Ja koska kielimallit vastaavat itsevarmasti, tämä tekee niiden virheistä helposti hyväksyttäviä tosiasioina tai uskottavina mielipiteinä.

Lähteetön tai tarkistamaton sisältö[muokkaa wikitekstiä]

Asiaankuuluva käytäntö: Wikipedia:Tarkistettavuus
Vinkki: Lukijoiden tulee pystyä tarkistamaan, että kaikki Wikipedian artikkeleissa oleva tieto ei ole vain sepitettyä. Tämä tarkoittaa, että kaiken materiaalin on oltava jäljitettävissä luotettaviin, julkaistuihin lähteisiin. Lisäksi lainaukset ja kaikki materiaali, joka voidaan kyseenalaistaa tai joka todennäköisesti voidaan kyseenalaistaa, on tuettava tekstissä olevilla viittauksilla.

Kielimallit eivät noudata Wikipedian käytäntöjä tarkistettavuudesta ja luotettavista lähteistä. Kielimallit jättävät joskus viittaukset kokonaan pois tai viittaavat lähteisiin, jotka eivät täytä Wikipedian luotettavuusstandardeja (mukaan lukien Wikipediaan viittaaminen lähteenä). Joissakin tapauksissa ne jopa hallusinoivat olemattomia viitteitä sepittämällä otsikoita, tekijöitä ja URL-osoitteita.

Kielimalleilla hallusinoitu sisältö, kuten edellä selitettiin, rikkoo myös tarkistettavuuden käytäntöä, koska sitä ei voida todentaa, koska se on sepitettyä: viitteitä ei ole löydettävissä.

Algoritminen vinouma ja puolueellinen näkökulma[muokkaa wikitekstiä]

Asiaankuuluva käytäntö: Wikipedia:Neutraali näkökulma
Vinkki: Artikkeleiden ei tule ottaa kantaa, vaan niiden tulee selittää eri näkökulmat, reilusti ja ilman muokkaajaan liittyvää vinoumaa. Tämä koskee sekä sitä, mitä sanot, että sitä, miten sen sanot.

Kielimallit voivat tuottaa sisältöä, joka on näennäisesti neutraalia sävyltään, mutta ei välttämättä sisällöltään. Tämä huoli korostuu erityisesti eläviä henkilöitä koskevissa elämäkerroissa.

Vapaaehtoistyön menetys[muokkaa wikitekstiä]

Asiaankuuluva käytäntö: Wikipedia:Botit

Wikipedia nojaa vapaaehtoistyöhön uuden sisällön tarkistamisessa. Keskeistä tässä työssä ja sen ylläpidossa on, että ihmismuokkaajat ovat käyttäneet aikaa ja nähneet vaivaa sisällön luomiseen. Sallimalla suuria määriä tekoälyn tuottamaa sisältöä heikennettäisiin tätä seikkaa ja sen positiivisia vaikutuksia vapaaehtoistyön saamiseksi. Osa tekoälyjen luomista mainosartikkeleista on vaatinut monen tunnin työpanostusta vapaaehtoisilta niiden siivoamiseksi. Tämä voi kuormittaa ja lannistaa vapaaehtoisia.

Erityisosaamista vaaditaan[muokkaa wikitekstiä]

Kielimallit ovat avustavia työkaluja, eivätkä ne voi korvata inhimillistä harkintaa. Tarkka harkinta on tarpeen, jotta voidaan määrittää, sopivatko tällaiset työkalut annettuun tarkoitukseen. Kielimalleja käyttävien muokkaajien odotetaan perehtyvän tietyn kielimallin sisäänrakennettuihin rajoituksiin ja silloin muokkaajat voivat kielimallitietämyksellään kiertää niiden rajoitukset. Lisäksi heidän muokkaustensa on oltava sopusoinnussa asiaankuuluvien ohjeiden ja käytäntöjen kanssa. Tätä varten muokkaajien ennen kielimallin käyttöä olisi hankittava huomattavaa kokemusta samasta tai edistyneemmästä tehtävästä ilman kielimallin apua.[b] Kokemusta vaaditaan paitsi Wikipedian toimintatavoista myös kielimallien oikeasta käytöstä. Tämä koskee esimerkiksi sitä, miten muotoillaan muotoilla hyviä käskyjä.

Jotkut muokkaajat ovat päteviä tekemään omatoimisia muokkauksia mutta tekevät toistuvasti epäasianmukaisia kielimalliavusteisia muokkauksia, vaikka he yrittäisivät vilpittömästi osallistua. Tällaisia muokkaajia pidetään tässä mielessä epäpätevinä. He saattavat olla tietämättömiä riskeistä ja luontaisista rajoituksista tai olla tietoisia niistä, mutta eivät pääse niiden yläpuolelle varmistaakseen käytäntöjen noudattamisen. Tällaisessa tapauksessa muokkaaja voi olla estetty käyttämästä tällaisia (eli rajoitettu vain tekemään muokkauksia ilman kielimalleja). Tämä on tietyn tyyppinen rajoitettu kielto. Vaihtoehtoisesti tai lisäksi he voivat olla osittain estettyjä: tietyltä nimiavaruudelta tai nimiavaruuksilta.

Artikkelien kirjoittaminen[muokkaa wikitekstiä]

Kielimalleja voidaan käyttää olemassa olevan tekstin tarkistamiseen tai laajentamiseen sekä ideoiden luomiseen uusille tai jo olemassa oleville artikkeleille. Artikkelin jokaisen muutoksen on noudatettava kaikkia sovellettavia sääntöjä ja ohjeita. Tämä tarkoittaa, että sinun on tutustuttava asiaankuuluviin lähteisiin kyseisen sisällön osalta ja sitten arvioitava huolellisesti tuotetun tekstin tarkistettavuus. Tähän kuuluu myös puolueettomuus, alkuperäistutkimuksen puuttuminen sekä tekijänoikeuksien ja kaikkien muiden sovellettavien käytäntöjen ja ohjeiden noudattaminen. Tekijänoikeuksien noudattaminen sisältää kaikkien lähteiden tekijänoikeuslisenssien kunnioittamisen. Neutraalin näkökulman varmistamiseksi et saa antaa kohtuutonta painoarvoa epäolennaisille yksityiskohdille tai vähemmistönäkökulmille. Sinun on varmistettava, että viitatut lähteet ovat tosiperäisiä, luotettavia, asiaankuuluvia ja sopivia lähteitä sekä tarkistettava tekstin ja lähteen yhteys.

Artikkelien luonnostelu ennen julkaisua[muokkaa wikitekstiä]

Kielimalliavusteisen sisällön lisääminen olemassa olevaan artikkeliin voi tehdä artikkelista merkittävästi erilaisemman ja joskus sekavan. Siksi on hyvä idea tallentaa artikkeli luonnokseksi ennen kielimallituotannon lisäämistä. Näin voit verrata kielimallin tuottamaa sisältöä alkuperäiseen ja tehdä tarvittavat muokkaukset ja parannukset ennen artikkeliin julkaisemista.

Epäilyttävän kielimallisisällön käsittely[muokkaa wikitekstiä]

Kaikki epäillyt kielimallien tuottamat tulosteet tulee käydä läpi tarkkuuden varmistamiseksi, ja niitä oletetaan väärennetyiksi, kunnes toisin todistetaan. Kielimallit voivat väärentää lähteitä, kuten kirjoja, lehtiartikkeleita ja verkkolinkkejä, joten varmista ensin, että viitatut teokset todella ovat olemassa. Kaikki faktatiedot on sitten tarkistettava toimitetuista lähteistä. Kiistanalainen tai vahvistamaton kielimallista peräisin oleva sisältö tulee poistaa. Jos yllä kuvatunlainen poisto johtaisi koko artikkelin tai luonnoksen sisällön poistamiseen, se voi muuttua poistoehdokkaaksi.[c] Jos koko sivu näyttää olevan faktuaalisesti virheellinen tai perustuu väärennettyihin lähteisiin, pikapoisto Y3 (Vandalismi) voi olla sopiva.

Huomautukset[muokkaa wikitekstiä]

  1. Tämä pätee myös tapauksiin, joissa tekoälymalli on lainkäyttöalueella, jossa pelkästään tekoälyllä luodut teokset eivät ole tekijänoikeudellisesti suojattuja.
  2. Esimerkiksi henkilön, joka on taitava vandalismin käsittelyssä mutta tekee vain vähän artikkelityötä, ei luultavasti tulisi aloittaa artikkelien luomista kielimallien avulla. Sen sijaan hänen olisi ensin hankittava todellista kokemusta artikkelien luomisesta ilman kielimallin apua. Sama logiikka pätee myös muihin alueisiin, kuten moduulien ja mallineiden luomiseen.
  3. Jos artikkelin otsikko viittaa aiheeseen, joka voi olla hyödyllinen, artikkelin tiivistäminen tai ohjaaminen muualle voi olla järkevää. Samoin uusista aiheista tehdyt luonnokset voivat olla hyödyllisiä, vaikka ne olisivatkin vain lyhyitä määritelmiä. Tällaisten luonnosten tekijöille tulee antaa tarvittavat ilmoitukset tai varoitukset. Kun epäiltyä kielimallilla luotua sisältöä käsitellään, suositellaan voimakkaasti sitä, että ne muokkaajat, jotka ovat joko osallistuneet sisällön luomiseen, eivät yrittäisi vastustaa sisällön poistoa kumoamalla sitä ilman ennakkokeskustelua. Kun harkitaan poistamista, muokkaajien tulee olla tietoisia tekijänoikeus- ja muiden tärkeiden kysymysten vaikutuksista.
  1. Smith, Adam: What is ChatGPT? And will it steal our jobs? Context. 25.1.2023. Thomson Reuters Foundation. Arkistoitu 15.3.2023. Viitattu 24.8.2023. (englanniksi)