Poisson-regressio

Wikipediasta
Siirry navigaatioon Siirry hakuun

Poisson-regressio on yleistettyjen lineaaristen mallien erikoistapaus. Poisson-regressiota käytetään lukumääräaineistojen mallintamiseen. Kuten yleensäkin yleistettyjen lineaaristen mallien kohdalla, tässäkin tapauksessa oletetaan havaintojen riippumattomuus. (Pitkittäisaineistojen kohdalla riippuvuus huomioidaan käyttämällä marginaalimalleja, yleistettyjä lineaarisia sekamalleja tai transitiomalleja.)

Yleistettyjen lineaaristen mallien toinen oletus riippumattomuuden lisäksi on, että Yi:den jakauma kuuluu eksponentiaaliseen perheeseen. Yleistettyjen lineaaristen mallien tapauksessa jakauma kuuluu eksponentiaalisen perheeseen, jos jakauma voidaan kirjoittaa muodossa

,jossa Ф on skaalaparametri, θ on kanooninen lokaatio ja a() , b() ovat jakaumaspesifejä funktioita.

Poisson-jakauma voidaan kirjoittaa muodossa

Nyt

.

Viimeisintä voidaan käyttää poisson-jakauman odotusarvon ja varianssin määrittämiseen. (Odotusarvo sekä varianssi ovat µi.) Poisson-jakauma siis kuuluu eksponentiaaliseen perheeseen.

Systemaattiseksi osaksi yleistetyissä lineaarisissa malleissa sanotaan osaa

.

Linkkifunktio linkittää systemaattisen osan vasteen odotusarvoon

.

Poisson-regressiossa linkkifunktio on gi) = log(µi). Tämän vuoksi estimoitua regressio-kerrointa βi voidaan tulkita poisson-regressiossa seuraavasti. (Olettaen, että interaktioita ei ole.) Verrattaessa kahta yksilöä, jotka poikkeavat vain tarkasteltavan muuttujan suhteen yhdellä yksiköllä, odotettu vasteen lukumäärä muuttuu exp(βi)-kertaiseksi.

Poisson-regressio ja altistus[muokkaa | muokkaa wikitekstiä]

Monesti ollaan kiinnostuneita tapahtumien intensiteetistä, esimerkiksi liikennekuolemista miljoonaa asukasta kohden. Tällaisissa tapauksissa kirjoitetaan µi = miλi. λi on intensiteetti ja mi on altistuneiden tai altistuksen määrä useimmiten tiettynä aikana (esim. kuukaudessa) tai tietyssä paikassa (esim. Suomessa). Yleistetyissä lineaarisissa malleissa altistuksen logaritmista käytetään nimitystä offset. Intensiteetin logaritmi riippuu lineaarisesti prediktoreista

Jos intensiteettiä ei tarvitse huomioida, niin offset prediktori log(mi) asetetaan nollaksi eli mi ykköseksi.

Uskottavuusfunktio ja estimointi[muokkaa | muokkaa wikitekstiä]

Kun käytetään edellisiä merkintöjä (μi = miλi) ja merkitään β1xi1 + ... + βpxip = xiβ, niin uskottavuus voidaan kirjoittaa muodossa

Suurimman uskottavuuden estimaatit saadaan, kun maksimoidaan uskottavuusfunktion logaritmi. Ratkaisu löytyy asettamalla osittaisderivaatat nolliksi. Kun oletetaan, että selittäjien matriisi X, ykkössarakkeella täydennettynä, on täysiasteinen, niin pätee, että mikäli uskottavuusyhtälöllä logL(β)/∂β = 0 on äärellinen ratkaisu, niin se on yksikäsitteinen suurimman uskottavuuden estimaatti.

Uskottavuusyhtälöt ovat

Uskottavuusyhtälöt ratkaistaan numeerisesti IWLS-menetelmällä. Samaa menetelmää käytetään myös logistisen regression tapauksessa. Jos β(0) on alkuarvo, niin seuraava arvo on β(1) = β(0) + δ(1), missä

Suurilla otoksilla pätee likimäärin tulos

,

missä W(β) on kuten W^((0)), mutta β^((0)):n paikalla on (tuntematon) oikea arvo β. Kovarianssimatriisi on Fisherin informaatiomatriisin käänteismatriisi. Fisherin informaatiomatriisi lasketaan derivoimalla uskottavuusfunktio kahdesti ja vaihtamalla etumerkki

Keskivirheet saadaan kun käyetetään matriisia

Devianssi[muokkaa | muokkaa wikitekstiä]

Devianssin avulla voidaan verrata tiettyä poisson-regressiomallia kyllästettyyn l. saturoituun malliin. Eli siis devianssin avulla voidaan sovittaa sopiva malli. Tässä tapauksessa kyllästetty malli on sellainen, että intensiteetit λ_i saavat arvonsa riippumatta selittäjien arvoista. On osoitettu, että λ_i:n suurimman uskottavuuden estimaatti on

Kyllästetyn mallin ja Poisson-regressiomallin uskottavuudet ovat

Merkitään

Devianssiksi D saadaan tällöin (viimeinen yhtäsuuruus pätee, kun mallissa on vakio)

Devianssi noudattaa likimäärin χ^2(n-p-1)-jakaumaa. Approksimaatio voi olla huono, jos odotetut frekvenssit ovat pieniä. Devianssia voidaan käyttää yhteensopivuustestinä hypoteeseille

Vastahypoteesina on, että odotusarvot µi ovat mielivaltaisia.

Kun oletetaan, että tietty p:n selittäjän poisson-regressiomalli on oikea malli, voidaan testata kertoimien osajoukkoon liittyvää nollahypoteesia

Vastahypoteesina on, että ainakin jokin βj on erisuurta kuin nolla, j = q+1, ... , p. Testi konstruoidaan maksimoimalla sekä p:n selittäjän (oletettu oikea) malli että suppeampi q:n selittäjän malli, joita merkitään Lp ja Lq. Kun H0 on tosi

likimäärin. Dp ja Dq ovat laajemman ja suppeamman mallin devianssit.

Tätä sanotaan myös uskottavuusosamäärän testiksi. Toisin sanoen uskottavuusosamäärän testiä voi kuvata niin, että sillä vertaillaan sisäkkäisiä malleja.

AIC ja BIC[muokkaa | muokkaa wikitekstiä]

Kun uskottavuusosamäärän testillä vertaillaan sisäkkäisiä malleja, niin AIC:n (Akaiken informaatiokriteerin) ja BIC:n (Bayesilaisen informaatiokriteerin) avulla voidaan vertailla muita kilpailevia malleja. Jos mallin valinta tehtäisiin vain informaatiokriteerin perusteella, niin valittaisiin se malli, jolla on pienin AIC (tai BIC).

Jäännökset[muokkaa | muokkaa wikitekstiä]

Jäännösten avulla voidaan tutkia, onko Poisson-malli oikea ja tarvitseeko selittäjille tehdä muunnoksia. Jäännöskuvioissa ei pitäisi näkyä mitään selkeää kuviota (esim. hevosenkenkää), jotta malli olisi jokseenkin kunnossa. Kun malli on sovitettu ja saatu : , niin voidaan laskea standardoidut jäännökset

Mikäli Poisson-malli on oikea, niin jäännösten pitäisi olla likimäärin riippumattomia, ja niiden odotusarvon pitäisi olla 0 ja keskihajonnan 1. Mallin sopivuutta voidaan testata laskemalla neliösumma , jota verrataan -jakaumaan. Jäännökset kannattaa piirtää sovitteen ja prediktoreiden suhteen.

Lähteet[muokkaa | muokkaa wikitekstiä]