Malliromahdus

Wikipediasta
(Ohjattu sivulta Keinoälyn romahdus)
Siirry navigaatioon Siirry hakuun
Ouroboros-lohikäärmeen tapaan kielimallit ruokitaan niiden itsensä tuottamalla aineistolla.

Malliromahdus (engl. model collapse), joka tunnetaan myös nimellä tekoälyn romahdus (eng. AI collapse), tarkoittaa synteettisellä datalla koulutetun generatiivisen tekoälymallin tuotoksen asteittaista rappeutumista. Käytännössä tämä tarkoittaa sitä, että uudet kielimallit koulutetaan netissä olevalla aineistoilla, johon sisältyy myös aikaisempien kielimalliversioiden tuotokset.[1][2][3][4][5]

Tämän prosessin toistaminen mallisukupolvesta toiseen muodostaa niin sanotun autofaagisen (itseään kuluttavan) silmukan[6].

Teoreettiset ja empiiriset analyysit ovat osoittaneet, että ilman riittävästi tuoretta todellista dataa jokaisessa autofaagisen silmukan sukupolvessa, tulevaisuuden generatiiviset mallit ovat tuomittuja menettämään asteittain laadun (tarkkuuden) tai monimuotoisuuden (haun kattavuus, tunnistamistarkkuus eli kyky tunnistaa erilaisia tapauksia koulutusdatasta)[6]. Siksi mallin romahtamista on kutsuttu myös nimellä autofagia-häiriöksi (engl. Model Autophagy Disorder, MAD), joka on analoginen hullun lehmän taudin kanssa[6].

Kuvassa verrataan kahta tekoälymallien koulutusstrategiaa: datan korvaamista (vasen) ja datan kertymistä (oikea). Datan korvaamisessa uusi data syrjäyttää vanhan, mikä nostaa testitappiota (test loss) ja heikentää mallin suorituskykyä. Datan kertymisessä vanhaa dataa täydennetään uudella, mikä pitää testitappion vakiona ja ylläpitää suorituskykyä.

Vuonna 2024 julkaistu tutkimus haastoi käsityksen, että tekoälymallit menettävät tehokkuutensa, kun niitä koulutetaan jatkuvasti niiden omilla tuotoksilla[7]. Tutkimuksen mukaan mallien suorituskyky voi säilyä, kunhan käytettävä koulutusdata kertyy ajan myötä eikä vanhaa dataa korvata uudella[7]. Tämä osoittaa, että mallit voivat säilyttää ja jopa parantaa suorituskykyään, kun niille tarjotaan jatkuvasti uutta ja monipuolista dataa[7].

Vaikutus kielimalleihin[muokkaa | muokkaa wikitekstiä]

Vuoden 2024 tutkimuksessa näytettiin, että kielimallien kouluttaminen aiempien mallien tuottamalla synteettisellä datalla heikentää niiden kykyä tuottaa monimuotoista tekstiä[8]. Koulutusdata, joka koostuu pääosin vanhasta, mallien itse tuottamasta aineistosta, johtaa kielen leksikaalisen, syntaktisen ja semanttisen monimuotoisuuden vähenemiseen[8]. Erityisesti luovuutta vaativissa tehtävissä, kuten tarinankerronnassa tai runouden luomisessa, tämä monimuotoisuuden puute voi merkittävästi rajoittaa mallien tuotosten laatua ja omaperäisyyttä[8].

Katso myös[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. Hallamaa, Teemu: Tekoälyn tuottaman sisällön pelätään saastuttavan internetin – tutkijat ennustavat synteettisen sisällön horjuttavan tulevia kielimalleja Yle Uutiset. 4.7.2023. Arkistoitu 10.3.2024. Viitattu 10.3.2024.
  2. Mok, Aaron: A disturbing AI phenomenon could completely upend the internet as we know it Business Insider. 29.8.2023. Arkistoitu 29.8.2023. Viitattu 10.3.2024. (englanniksi)
  3. Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Gal, Yarin; Papernot, Nicolas; Anderson, Ross: The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv, 31.5.2023. arXiv:2305.17493. doi:10.48550/arXiv.2305.17493. (englanniksi)
  4. Ozsevim, Ilkhan: Research finds ChatGPT & Bard headed for 'Model Collapse' AI Magazine. 20.6.2023. BizClik Media. Arkistoitu 10.3.2024. Viitattu 10.3.2024. (englanniksi)
  5. Dohmatob, Elvis & Feng, Yunzhen & Kempe, Julia: Model Collapse Demystified: The Case of Regression. arXiv, 12.2.2024. arXiv:2402.07712. doi:10.48550/arXiv.2402.07712. (englanniksi)
  6. a b c Alemohammad, Sina; Casco-Rodriguez, Josue; Luzi, Lorenzo; Humayun, Ahmed Imtiaz; Babaei, Hossein; LeJeune, Daniel; Siahkoohi, Ali; Baraniuk, Richard G.: Self-Consuming Generative Models Go MAD. (arkistoitu 19.4.2024) Self-Consuming Generative Models Go MAD, 16.3.2024. The Twelfth International Conference on Learning Representations. Artikkelin verkkoversio (PDF). Viitattu 19.4.2024. (englanniksi)
  7. a b c Gerstgrasser, Matthias; Schaeffer, Rylan; Dey, Apratim; Rafailov, Rafael; Sleight, Henry; Hughes, John; Korbak, Tomasz; Agrawal, Rajashree; Pai, Dhruv; Gromov, Andrey; Roberts, Daniel A.; Yang, Diyi; Donoho, David L.; Koyejo, Sanmi: Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data. arXiv, 1.4.2024. arXiv:2404.01413. Artikkelin verkkoversio. Viitattu 4.5.2024. (englanniksi)
  8. a b c Guo, Yanzhu; Shang, Guokan; Vazirgiannis, Michalis; Clavel, Chloé: The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text. arXiv, 16.4.2024. doi:10.48550/arXiv.2311.09807. Artikkelin verkkoversio. Viitattu 8.5.2024. (englanniksi)
Tämä ohjelmistoon liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.