Vahvistusoppiminen

Wikipedia
Loikkaa: valikkoon, hakuun

Vahvistusoppiminen on koneoppimisen ongelmanratkaisutekniikka, jossa agentti tutkii ympäristöä, jonka tilan se havaitsee, ja toimii sen mukaisesti. Ympäristö antaa toiminnan mukaan palautteen, joka voi olla positiivista tai negatiivista. Algoritmi pyrkii löytämään ongelmaan ratkaisun, joka tuottaa eniten positiivista palautetta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi.

Vahvistusoppiminen eroaa ohjatusta oppimisesta siten, että oikeita syöte-tulos-pareja ei tarvita, eikä heikkoja ratkaisuja varsinaisesti korjata. Tavoitteena voi olla elinikäinen oppiminen, johon kuuluu tasapainottelu tutkimattomien polkujen kartoittamisen ja tunnettujen reittien käyttämisen välillä.

Vahvistusoppimisen perusmalliin kuuluvat:

  1. tilajoukko S
  2. toimintojoukko A ja
  3. palkkioiden joukko, jossa r \in \Bbb{R}.

Kullakin hetkellä t agentti havaitsee tilan st \in S ja mahdollisten toimintojen joukon A(st). Agentti valitsee toiminnon a\inA(st) ja saa ympäristöltä uuden tilan st+1 sekä palkkion rt+1. Vuorovaikutuksen perusteella agentti muodostaa menettelytavan π:S\rightarrowA, joka maksimoi summan R=r0+r1+...+rn Markovin päätösprosesseille joilla on lopputila, tai summan Rtγtrt prosesseille, joilla ei ole lopputilaa.

Katso myös[muokkaa | muokkaa wikitekstiä]

Tämä tieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.