GPT (lyhenne sanoista Generative pre-trained transformer) on OpenAI:n kehittämä kielimallien perhe, jotka on koulutettu suurilla tekstikorpuksilla siten, että ne voivat luoda ihmismäistä tekstiä. Mallit on kehitetty käyttäen transformer-arkkitehtuuria. Niitä voidaan hienosäätää erilaisiin luonnollisen kielenkäsittelyn tehtäviin, kuten tekstin luomiseen, käännöksiin ja tekstinluokitteluun. Nimen "pre-training"-osio (suom. esikoulutus) viittaa mallien kehityksen alussa tapahtuvaan koulutusprosessiin suurella tekstikorpuksella, jossa malli oppii ennustamaan seuraavan sanan tekstikatkelmassa. Tämä antaa vankan pohjan mallille toimia hyvin erilaisten tehtävien parissa, joissa on rajalliset määrät tehtäväkohtaista dataa.
OpenAI julkaisi 11. kesäkuuta 2018 raportin "Improving Language Understanding by Generative Pre-Training", jossa he esittelivät GPT:n.[1] Tuolloin parhaiten suoriutuvat neuroverkkoja käyttävät luonnolliset kielenkäsittelymallit nojasivat enimmäkseen ohjattuun oppimiseen suurista määristä manuaalisesti merkittyä dataa. Tämä riippuvuus ohjattuun oppimiseen rajoitti niiden käyttöä huonosti annotoiduissa tietojoukoissa, ja teki erittäin suurten mallien kouluttamisen kalliiksi ja aikaa vieväksi.[1][2] Monet kielet, kuten swahili tai haitinkreoli, ovat vaikeita kääntää ja tulkita tällaisten mallien avulla johtuen saatavilla olevan tekstin puutteesta korpuksen rakentamiseen.[2] Sen sijaan GPT:n puolivalvottu lähestymistapa sisälsi kaksi vaihetta: valvomattoman generatiivisen esikoulutusvaiheen, jossa kielen mallinnustavoitetta käytettiin alkuparametrien asettamiseen, ja valvotun erottelevan hienosäätövaiheen, jossa näitä parametreja mukautettiin kohdetehtävään.[1]
570 Gt selkeää tekstiä, 0,4 biljoonaa tokenia. Enimmäkseen CommonCrawl, WebText, englanninkielinen Wikipedia ja kaksi kirjakokoelmaa (Kirjat1 ja Kirjat2).