Poisson-regressio

Poisson-regressio on yleistettyjen lineaaristen mallien erikoistapaus. Poisson-regressiota käytetään lukumääräaineistojen mallintamiseen. Kuten yleensäkin yleistettyjen lineaaristen mallien kohdalla, tässäkin tapauksessa oletetaan havaintojen riippumattomuus. (Pitkittäisaineistojen kohdalla riippuvuus huomioidaan käyttämällä marginaalimalleja, yleistettyjä lineaarisia sekamalleja tai transitiomalleja.)

Yleistettyjen lineaaristen mallien toinen oletus riippumattomuuden lisäksi on, että Y_i:den jakauma kuuluu eksponentiaaliseen perheeseen. Yleistettyjen lineaaristen mallien tapauksessa jakauma kuuluu eksponentiaalisen perheeseen, jos jakauma voidaan kirjoittaa muodossa

f_{Y}(y_{i};\theta _{i},\phi )=\exp {\left({\frac {y_{i}\theta _{i}-a(\theta _{i})}{\phi }}+b(y_{i},\phi )\right)}\,\!

,jossa Ф on skaalaparametri, θ on kanooninen lokaatio ja a() , b() ovat jakaumaspesifejä funktioita.

Poisson-jakauma voidaan kirjoittaa muodossa

f_{Y}(y_{i};\mu _{i})={\frac {\exp {(\mu _{i})}\mu _{i}^{y_{i}}}{y_{i}!}}=\exp((y_{i})log(\mu _{i})-\exp(log(\mu _{i}))-log(y_{i}!))\,\!

Nyt

\theta _{i}=log(\mu _{i}),\phi =1,a(\theta _{i})=\exp(\theta _{i})\,\!

.

Viimeisintä voidaan käyttää poisson-jakauman odotusarvon ja varianssin määrittämiseen. (Odotusarvo sekä varianssi ovat µ_i.) Poisson-jakauma siis kuuluu eksponentiaaliseen perheeseen.

Systemaattiseksi osaksi yleistetyissä lineaarisissa malleissa sanotaan osaa

{\boldsymbol {\eta _{i}}}=\beta _{1}x_{i1}+...+\beta _{p}x_{ip}\,\!

.

Linkkifunktio linkittää systemaattisen osan vasteen odotusarvoon

\operatorname {g} ({\boldsymbol {\mu _{i}}})={\boldsymbol {\eta _{i}}}=\beta _{1}x_{i1}+...+\beta _{p}x_{ip}\,\!

.

Poisson-regressiossa linkkifunktio on g(µ_i) = log(µ_i). Tämän vuoksi estimoitua regressio-kerrointa β_i voidaan tulkita poisson-regressiossa seuraavasti. (Olettaen, että interaktioita ei ole.) Verrattaessa kahta yksilöä, jotka poikkeavat vain tarkasteltavan muuttujan suhteen yhdellä yksiköllä, odotettu vasteen lukumäärä muuttuu exp(β_i)-kertaiseksi.

Poisson-regressio ja altistus

Monesti ollaan kiinnostuneita tapahtumien intensiteetistä, esimerkiksi liikennekuolemista miljoonaa asukasta kohden. Tällaisissa tapauksissa kirjoitetaan µ_i = m_iλ_i. λ_i on intensiteetti ja m_i on altistuneiden tai altistuksen määrä useimmiten tiettynä aikana (esim. kuukaudessa) tai tietyssä paikassa (esim. Suomessa). Yleistetyissä lineaarisissa malleissa altistuksen logaritmista käytetään nimitystä offset. Intensiteetin logaritmi riippuu lineaarisesti prediktoreista

\log(\mu _{i})=\log(\lambda _{i})+\log(m_{i})=\beta _{1}x_{i1}+...+\beta _{p}x_{ip}+\log(m_{i})\,\!

Jos intensiteettiä ei tarvitse huomioida, niin offset prediktori log(m_i) asetetaan nollaksi eli m_i ykköseksi.

Uskottavuusfunktio ja estimointi

Kun käytetään edellisiä merkintöjä (μ_i = m_iλ_i) ja merkitään β₁x_i1 + ... + β_px_ip = x_iβ, niin uskottavuus voidaan kirjoittaa muodossa

L(\beta )=\prod _{i=1}^{n}{\frac {m_{i}\exp {({\boldsymbol {x_{i}^{'}\beta }})^{y_{i}}}}{y_{i}!}}\exp(-m_{i}\exp({\boldsymbol {x_{i}^{'}\beta }}))

L(\beta )=\exp(\sum _{i=1}^{n}y_{i}{\boldsymbol {x_{i}^{'}\beta }}-m_{i}\exp({\boldsymbol {x_{i}^{'}\beta }})+y_{i}\log(m_{i})-\log(y_{i}!))

Suurimman uskottavuuden estimaatit saadaan, kun maksimoidaan uskottavuusfunktion logaritmi. Ratkaisu löytyy asettamalla osittaisderivaatat nolliksi. Kun oletetaan, että selittäjien matriisi X, ykkössarakkeella täydennettynä, on täysiasteinen, niin pätee, että mikäli uskottavuusyhtälöllä ∂logL(β)/∂β = 0 on äärellinen ratkaisu, niin se on yksikäsitteinen suurimman uskottavuuden estimaatti.

Uskottavuusyhtälöt ovat

\sum _{i=1}^{n}y_{i}{\boldsymbol {x_{i}}}=\sum _{i=1}^{n}m_{i}\exp({\boldsymbol {x_{i}^{'}\beta }}){\boldsymbol {x_{i}}}

Uskottavuusyhtälöt ratkaistaan numeerisesti IWLS-menetelmällä. Samaa menetelmää käytetään myös logistisen regression tapauksessa. Jos β(0) on alkuarvo, niin seuraava arvo on β(1) = β(0) + δ(1), missä

{\boldsymbol {\delta ^{(1)}}}=({\boldsymbol {X}}^{'}{\boldsymbol {W}}^{(0)}{\boldsymbol {X}})^{-1}{\boldsymbol {X}}^{'}{\boldsymbol {W}}^{(0)}{\boldsymbol {U}}^{(0)}

{\boldsymbol {W^{(0)}}}=diag[m_{1}\exp({\boldsymbol {x}}_{1}^{'}{\boldsymbol {\beta }}^{(0)}),...,m_{n}\exp({\boldsymbol {x}}_{n}^{'}{\boldsymbol {\beta }}^{(0)})]

{\boldsymbol {U^{(0)}}}=({\frac {y_{1}-m_{1}\exp({\boldsymbol {x_{1}^{'}\beta ^{(0)})}}}{m_{1}\exp({\boldsymbol {x_{1}^{'}\beta ^{(0)})}}}},\ldots ,{\frac {y_{n}-m_{n}\exp({\boldsymbol {x_{n}^{'}\beta ^{(0)})}}}{m_{n}\exp({\boldsymbol {x_{n}^{'}\beta ^{(0)})}}}})

Suurilla otoksilla pätee likimäärin tulos

{\boldsymbol {\beta }}~N({\boldsymbol {\beta }},({\boldsymbol {X^{'}}}{\boldsymbol {W(\beta )}}{\boldsymbol {X}})^{-1})

,

missä W(β) on kuten W^((0)), mutta β^((0)):n paikalla on (tuntematon) oikea arvo β. Kovarianssimatriisi on Fisherin informaatiomatriisin käänteismatriisi. Fisherin informaatiomatriisi lasketaan derivoimalla uskottavuusfunktio kahdesti ja vaihtamalla etumerkki

{\boldsymbol {I(\beta )}}=-{\frac {d^{2}\log(L)}{d^{2}{\boldsymbol {\beta }}d^{2}{\boldsymbol {\beta ^{'}}}}}={\boldsymbol {X^{'}}}{\boldsymbol {W(\beta )}}{\boldsymbol {X}}

Keskivirheet saadaan kun käyetetään matriisia

{\widehat {\boldsymbol {W}}}={\boldsymbol {W({\widehat {\beta }})}}

Devianssi

Devianssin avulla voidaan verrata tiettyä poisson-regressiomallia kyllästettyyn l. saturoituun malliin. Eli siis devianssin avulla voidaan sovittaa sopiva malli. Tässä tapauksessa kyllästetty malli on sellainen, että intensiteetit λ_i saavat arvonsa riippumatta selittäjien arvoista. On osoitettu, että λ_i:n suurimman uskottavuuden estimaatti on

{\widehat {y}}_{i}={\frac {y_{i}}{m_{i}}},i=1,\ldots ,n

Kyllästetyn mallin ja Poisson-regressiomallin uskottavuudet ovat

{\widehat {L}}_{sat}=\prod _{i=1}^{n}{\frac {(m_{i}{\widehat {y}}_{i})^{y_{i}}}{y_{i}!}}\exp(-m_{i}{\widehat {y}}_{i})

{\widehat {L}}=\prod _{i=1}^{n}{\frac {m_{i}\exp {({\boldsymbol {x_{i}^{'}{\widehat {\beta }}}})^{y_{i}}}}{y_{i}!}}\exp(-m_{i}\exp({\boldsymbol {x_{i}^{'}{\widehat {\beta }}}}))

Merkitään

{\widehat {\lambda }}_{i}=\exp({\boldsymbol {x_{i}^{'}{\widehat {\beta }}}})

Devianssiksi D saadaan tällöin (viimeinen yhtäsuuruus pätee, kun mallissa on vakio)

D=2\log({\frac {{\widehat {L}}_{sat}}{\widehat {L}}})=2\sum _{i=1}^{n}y_{i}\log({\frac {y_{i}}{m_{i}{\widehat {\theta }}_{i}}})

Devianssi noudattaa likimäärin χ^2(n-p-1)-jakaumaa. Approksimaatio voi olla huono, jos odotetut frekvenssit ovat pieniä. Devianssia voidaan käyttää yhteensopivuustestinä hypoteeseille

H_{0}:\log(\mu _{i})=\log(m_{i})+{\boldsymbol {x_{i}^{'}\beta }},i=1,\ldots ,n

Vastahypoteesina on, että odotusarvot µ_i ovat mielivaltaisia.

Kun oletetaan, että tietty p:n selittäjän poisson-regressiomalli on oikea malli, voidaan testata kertoimien osajoukkoon liittyvää nollahypoteesia

H_{0}:\beta _{q+1}=\ldots =\beta _{p}=0

Vastahypoteesina on, että ainakin jokin β_j on erisuurta kuin nolla, j = q+1, ... , p. Testi konstruoidaan maksimoimalla sekä p:n selittäjän (oletettu oikea) malli että suppeampi q:n selittäjän malli, joita merkitään L_p ja L_q. Kun H₀ on tosi

2\log({\frac {{\widehat {L}}_{p}}{{\widehat {L}}_{q}}})=D_{q}-D_{p}~\chi ^{2}(p-q)

likimäärin. D_p ja D_q ovat laajemman ja suppeamman mallin devianssit.

Tätä sanotaan myös uskottavuusosamäärän testiksi. Toisin sanoen uskottavuusosamäärän testiä voi kuvata niin, että sillä vertaillaan sisäkkäisiä malleja.

AIC ja BIC

Kun uskottavuusosamäärän testillä vertaillaan sisäkkäisiä malleja, niin AIC:n (Akaiken informaatiokriteerin) ja BIC:n (Bayesilaisen informaatiokriteerin) avulla voidaan vertailla muita kilpailevia malleja. Jos mallin valinta tehtäisiin vain informaatiokriteerin perusteella, niin valittaisiin se malli, jolla on pienin AIC (tai BIC).

Jäännökset

Jäännösten avulla voidaan tutkia, onko Poisson-malli oikea ja tarvitseeko selittäjille tehdä muunnoksia. Jäännöskuvioissa ei pitäisi näkyä mitään selkeää kuviota (esim. hevosenkenkää), jotta malli olisi jokseenkin kunnossa. Kun malli on sovitettu ja saatu : $\log({\widehat {\mu }}_{i})={\boldsymbol {x_{i}^{'}{\widehat {\beta }}}}$ , niin voidaan laskea standardoidut jäännökset

r_{i}={\frac {y_{i}-m_{i}\exp {({\widehat {\mu _{i}}})}}{\sqrt {m_{i}\exp {({\widehat {\mu _{i}}})}}}}

Mikäli Poisson-malli on oikea, niin jäännösten pitäisi olla likimäärin riippumattomia, ja niiden odotusarvon pitäisi olla 0 ja keskihajonnan 1. Mallin sopivuutta voidaan testata laskemalla neliösumma $Q=\sum _{i=1}^{n}r_{i}^{2}$ , jota verrataan $\chi ^{2}(n-p-1)$ -jakaumaan. Jäännökset kannattaa piirtää sovitteen ja prediktoreiden suhteen.

Lähteet

McCullagh, P.; Nelder, J.: Generalized Linear Models. Chapman and Hall, 1989. ISBN 0-412-31760-5.
Karvanen, Juha: Generalized Linear Models, http://wiki.helsinki.fi/download/attachments/35917349/lectures.pdf?version=1 (Arkistoitu – Internet Archive)
Heikkinen, Juha: Yleistetyt lineaariset mallit, http://www.rni.helsinki.fi/~jmh/glm05/ (Arkistoitu – Internet Archive)
Nyblom, Jukka: Yleistetyt lineaariset mallit, http://users.jyu.fi/~junyblom/JTMprujub.pdf

Poisson-regressio