Yleistetty lineaarinen malli

Wikipedia
Loikkaa: valikkoon, hakuun

Yleistetyt lineaariset mallit (engl. Generalized linear models) on laaja tilastotieteen malliluokka, jonka avulla voidaan mallintaa erityyppisiä ja eri jakaumia noudattavia vastemuuttujia. Lineaarinen malli on yksi yleistetyn lineaarisen mallin erikoistapaus, eikä se sovi käytettäväksi kaikissa tilanteissa sen oletuksista johtuen. Esimerkiksi positiivisien vasteiden, lukumäärävasteiden ja binomisten vasteiden mallinnukseen yleistetty lineaarinen malli sopii lineaarista mallia paremmin. Myös epälineaariset yhteydet muuttuja muunnostenkin jälkeen saattavat koitua lineaarisen mallin ongelmaksi, koska vakiovarianssioletus ei aina ole voimassa. Yleistettyjen lineaaristen mallien muita tunnettuja erikoistapauksia ovat logistinen malli ja Poisson-regressio.

Yleistetyt lineaariset mallit ovat siis klassisten lineaaristen mallien perheen sellainen laajennus, josta löytyy sopiva malli kaikkiin edellä olleisiin lineaarisen mallin kannalta ongelmallisiin esimerkkitilanteisiin. Yleistetyn lineaarisen mallin systemaattinen osa on edelleen lineaarinen, mutta se ei ole välttämättä suoraan Yi:n odotusarvo, vaan mahdollisesti joku sen tunnettu muunnos.

\operatorname{g}(\boldsymbol{\mu_i}) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} = \boldsymbol{\eta_i}

Kaavassa g() on jokin linkkifunktio, joka määrittää vastemuuttujan suhteen lineaariseen malliin. Linkkifunktiolle ei ole muita rajoitteita kuin, että se on monotoninen ja derivoituva. Linkkifunktioita ovat mm. g(µi) = log(µi) ja g(µi) = 1/µi.

Periaatteessa yleistetyt lineaariset mallit ovat läheistä sukua muunnettujen vasteiden lineaariselle mallille. Erona on se, että muunnos tehdään yleistetyissä lineaarisissa malleissa odotusarvolle eikä vastemuuttujalle. Etuna yleistettyjen lineaaristen mallien käytössä muunnettujen lineaaristen mallien sijaan on se, että varianssifunktion ei tarvitse olla vakio ja yleisesti yleistetyt lineaariset mallit tuottavat luotettavampia tuloksia.

Yleistettyjen lineaaristen mallien teoriaa[muokkaa | muokkaa wikitekstiä]

Mallin oletukset[muokkaa | muokkaa wikitekstiä]

Yleistetyllä lineaarisella mallilla on kolme perusoletusta:

  1. Vastemuuttujan Yi, i = 1,…,n jakaumat kuuluvat samaan eksponenttiperheeseen. Tämä toteutuu, kun satunnaismuuttujien Yi tiheysfunktiot voidaan kirjoittaa muodossa:
 f_Y(y_i; \theta_i, \phi) = \exp{\left(\frac{a_i(y_i\theta_i-b(\theta_i))}
                                                {\phi} + 
                                           c(y_i,\phi(1/a_i) \right)} \,\! , jossa ai on paino, Ф on tunnettu tai tuntematon hajontaparametri, θ on tuntematon parametri ja b() ja c() ovat tunnettuja funktioita.
  1. Yi:t ovat keskenään riippumattomia.
  2. On olemassa reaaliarvoinen monotoninen ja derivoituva linkkifunktio g, joka kuvaa vastemuuttujien odotusarvot µi selittävien muuttujien arvojen lineaariseksi ennusteeksi ηi:
\operatorname{g}(\boldsymbol{\mu_i}) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} = \boldsymbol{\eta_i}

Linkkifunktion valinta[muokkaa | muokkaa wikitekstiä]

Linkkifunktion valintaan vaikuttaa vastemuuttujan tyyppi ja jakauma. Linkkifunktio valitaan siis aineistoon sopivaksi. Sellaista linkkifunktiota, jolle pätee ηi = g(µi) = θi, kutsutaan kanoniseksi linkkifunktioksi ja sen käyttö helpottaa laskemista. Tämä on kätevää, jos kanoninen linkkifunktio sopii aineistoon riittävän hyvin, mutta linkkifunktion kanonisuus ei ole perustelu sen sopivuudelle. Normaalijakaumaan lineaarisella mallilla kanoninen linkkifunktio on identtinen eli gi) = µi. Binomijakauman kanoninen linkkifunktio on logistinen g(µi) = log[µi/(1- µi)].

Logaritminen uskottavuus, pistemääräfunktio ja estimointi[muokkaa | muokkaa wikitekstiä]

Eksponenttiperheen logaritminen uskottavuusfunktio tunnetulla hajontaparametrilla Ф voidaan kirjoittaa muodossa:

 l(\theta_1,...,\theta_n; \phi,a_i,y_i) = \sum_{i=1}^n{\left(\frac{a_i(y_i\theta_i-b(\theta_i))}
                                                {\phi} + 
                                           c(y_i,\phi(1/a_i) \right)}. \,\!

Pistemääräfunktio on osittaisderivaatta logaritmisesta uskottavuusfunktiosta. Suurimman uskottavuuden estimaatti saadaan ratkaisemalla pistemääräfunktio, kun se asetetaan nollaksi. Uskottavuusyhtälöt ovat ßj:n suhteen epälineaarisia, jos linkkifunktio on epälineaarinen. ßj:n estimoimiseen tarvitaan siten iteratiivinen menetelmä, joista yksinkertaisin on Newton-Raphson –menetelmä.

Devianssi[muokkaa | muokkaa wikitekstiä]

Yleistetyn lineaarisen mallin devianssi on:

 D(y; \widehat{\mu})= 2\phi(l(y;y)-l(\widehat{\mu};y)).

jossa l(.;y) on odotusarvovektorin µ ja hajontaparametrin Ф logaritminen uskottavuusfunktio ja l(y, Ф;y) on saturoidun, eli täydellisesti aineistoon sopivan mallin, uskottavuus. Skaalattu devianssi saadaan jakamalla devianssi hajontaparametrilla Ф. Devianssilla on tärkeä rooli mallin sopivuuden tarkastelussa (kts. mallintaminen).

Kvasiuskottavuus[muokkaa | muokkaa wikitekstiä]

Yleistettyjen lineaaristen mallien yksi perusoletus (1) on vastemuuttujan jakauman kuuluminen eksponenttiperheeseen. Usein on kuitenkin niin, ettei vastemuuttujan jakaumaa tunneta. Tämä ei kuitenkaan nouse ongelmaksi, sillä estimointi voidaan tehdä myös jakaumasta johdetun varianssifunktion avulla. Ensimmäinen oletus eksponenttiperheestä voidaan siten korvata oletuksella:

 Var(Y_i) = \frac{\phi V(\mu_i)}{a_i}.

Nyt ei kuitenkaan ole olemassa uskottavuusfunktiota, joten esimerkiksi devianssi täytyy määrittää kvasiuskottavuusfunktion avulla. Kvasiuskottavuusfunktio toimii kuten tunnetun jakauman uskottavuusfunktio ja esimerkiksi sen avulla voidaan laskea suurimman uskottavuuden estimaatteja.

 Q(\beta;y)= (1 / \phi) \sum_{i=1}^n \int_y^\mu {\left(\frac{a(y_i-t)} {V(t)} \right)dt}. \,\!

Mallintaminen ja mallin sopivuuden tarkastelu[muokkaa | muokkaa wikitekstiä]

Mallintamisen prosessi alkaa jo tutkimusasetelman muodostamisesta ja otoksen poimimisesta. Suunnittelu on erityisen tärkeä vaihe, koska se määrää pitkälti sen, millainen ja kuinka hyvä malli aineiston pohjalta voidaan muodostaa. Aineiston keruun jälkeen valitaan mallityyppi, estimoidaan se ja tarkastellaan vielä mallin sopivuutta. Lopuksi tehdään johtopäätökset ja kirjoitetaan aiheesta raportti.

Lähtökohtaisesti on tärkeää, että malliin on valittu vastemuuttujan tyypille sopiva linkkifunktio. Huolellisenkin mallin valinnan jälkeen voi kuitenkin käydä niin, että malli istuu huonosti aineistoon. Mallin sopivuutta aineistoon voidaan tutkia erilaisilla kriteereillä. Erityisesti kannattaa kiinnittää huomiota, mallin jäännösten vaihteluun, ylihajontaan, poikkeaviin ja puuttuviin havaintoihin sekä selittäjien kykyyn selittää vastemuuttujan vaihtelua. Jos mukana on useampia kilpailevia malleja, kannattaa lisäksi vertailla näiden mallien niin sanottuja informaatiokriteereitä (AIC ja BIC).

Jäännökset[muokkaa | muokkaa wikitekstiä]

Yleistetyillä lineaarisilla malleilla niin sanottujen raakojen residuaalien (yi-µi) jakauma on usein vino ja ne riippuvat odotusarvosta µ. Tämän vuoksi jäännöksistä tarvitaan myös yleistetty versio, joka voidaan tehdä monin eri tavoin. Yksinkertaisin korjaus voidaan tehdä jakamalla raakaresiduaalit neliöjuuressa olevan odotusarvon varianssifunktion ja painon suhteella. Näitä jäännöksiä kutsutaan Pearsonin jäännöksiksi.

 r_{P,i} = \frac{y_i-\widehat{\mu_i}}{\sqrt {V(\widehat{\mu_i})/a_i}}.

Muita muunnosresiduaali vaihtoehtoja ovat devianssijäännökset ja Anscomben jäännökset. Kummatkin antavat likimain samanlaiset jäännökset, mutta devianssijäännökset ovat laskennallisesti helpompia.

Ylihajonta[muokkaa | muokkaa wikitekstiä]

Devianssi on luonnollinen mittari mallin sopivuuden tarkastelulle. Kun malli sopii täydellisesti aineistoon, sen devianssi on nolla. Eli mitä pienempi on devianssi, sitä paremmin malli toimii aineistoissa. Kun hajontaparametri Ф on tunnettu (binomi- ja Poisson-mallit), voidaan skaalatun devianssin avulla tutkia onko Ф:n arvo aineistossa oikea. Ylihajonnalla tarkoitetaan sitä, että aineistosta estimoitu hajontaparametri on suurempi kuin oletettu. Binomi- ja Poisson-malleille reilusti vapausasteita (n-p) suuremmat devianssiarvot viittaavat ylihajontaan.

Uskottavuusosamäärän testi[muokkaa | muokkaa wikitekstiä]

Devianssia käytetään apuna myös mallin selittäjien merkitsevyyden tarkastelussa uskottavuusosamäärän testin muodossa. Uskottavuusosamäärän testillä testataan nollahypoteesia  H_0 = \beta_{k1} = \beta_{k2} =...= \beta_{k(p-q)} = 0. Jos nollahypoteesi kyetään hylkäämään, niin voidaan päätellä selittäjien olevan tilastollisesti merkitsevä vastemuuttujan vaihtelun selittämisessä. Testisuure saadaan laskemalla:

 {\frac{D(y;\widehat{\beta_0})-D(y;\widehat{\beta})} {\widehat{\phi}(p-q)} } \,\!

Jos hajontaparametri Ф on tunnettu, testisuure noudattaa χ²-jakaumaa parametrein (p-q). Jos hajontaparametri on estimoitava, noudattaa testisuure F-jakaumaa parametrein p-q, n-p.

Poikkeavat ja puuttuvat havainnot[muokkaa | muokkaa wikitekstiä]

Poikkeavat ja puuttuvat havainnot saattavat vaikuttaa huomattavasti mallin sopivuuteen. Poikkeavat havainnot voivat huonontaa mallin sopivuutta kahdella tavalla; ne ”vääntävät” mallin sovitetta ja vaikuttavat regressiokertoimiin tai niiden jäännökset ovat selkeästi muita suurempia. Poikkeavia havaintoja voidaan tutkia muun muassa Cookin mitan tai vipuvoiman avulla.

Puuttuvat tiedot ovat ongelma, jos niitä on paljon ja etenkin, jos kadon ja vastemuuttujan Y välillä on yhteys (MNAR). Puuttuvien tietojen käsittelemättä jättäminen on hyväksyttävää, jos kato on satunnaista ja sitä on vain vähän. Muussa tapauksessa puuttuvat havainnot kannattaa joko asianmukaisesti imputoida tai mallintaa aineisto erikseen puuttuvien ja havaittujen havaintojen kesken.

AIC ja BIC[muokkaa | muokkaa wikitekstiä]

Akaiken informaatiokriteerin (AIC) ja Bayesilaisen informaatiokriteerin (BIC) avulla voidaan vartailla kilpailevia malleja. Mallia, jolla on pienin AIC (tai BIC), pidetään parhaana.

Mallin soveltaminen eri tilanteissa[muokkaa | muokkaa wikitekstiä]

Vastemuuttujan jakauma mallia varten ja mallin linkkifunktio pitää valita aina aineistoon sopivaksi. Koska yleistetyt lineaariset mallit ovat laaja malliperhe, eri tilanteisiin sopivat erilaisen mallit jakaumineen ja linkkifunktioineen.

Binomivasteet[muokkaa | muokkaa wikitekstiä]

Kun vastusvaihtoehtoja on kaksi (0 tai 1), vastemuuttujana on positiivisten vasteiden (1) osuus kaikista:  Y_i = K_i / m_i . Ki noudattaa binomijakaumaa Bin(mi, лi), jos positiivisen vasteen todennäköisyys лi on kiinteä kussakin kovariaattiluokassa mi. Binomijakaumalle ylihajonta on hyvin yleistä, joka johtuu esimerkiksi ryvästymisestä. Binomivasteen tapauksessa usein käytettyjä linkkifunktioita ovat:

  • Logistinen:  g(\mu_i) = log(\frac{\mu_i}{1-\mu_i}).
  • Probit-funktio:  \operatorname{g}(\mu_i) = \phi^{-1}(\mu_i). missä Ф on normeeratun normaalijakauman kertymäfunktio.
  • Komplementaarinen log-log –funktio:  \operatorname{g}(\mu_i) = log(-log(1-\mu_i)).

Yleistetty lineaarinen malli binomisen vasteen tapauksessa on sama kuin logistinen regressiomalli, jos linkkifunktioksi valitaan logistinen linkkifunktio. Logistinen linkkifunktio on myös binomijakauman kanoninen linkki.

Lukumäärävasteet[muokkaa | muokkaa wikitekstiä]

Kun vastemuuttuja Yi on lukumäärä, joille ei ole määritettävissä ylärajaa, puhutaan lukumäärävasteesta. Tyypillisesti Yi on joltain alueelta ja ajanjaksolta havaittujen tapausten määrä. Jos kyseiset tapaukset voidaan olettaa toisistaan riippumattomiksi ja niiden intensiteetti λ vakioksi, noudattaa lukumäärävaste Poisson-jakaumaa. Sopiva linkkifunktio on log.

 log(\mu_i) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j}

Kuten binomijakauman tapauksessakin, ylihajonta on Poisson-jakaumassa yleistä.

Lukumäärävasteisiin liittyy keskeisesti käsite offset. Offset on hyödyllinen silloin, kun havaintojen aikaikkuna vaihtelee. Tämä aikaikkunan vaihtelu voidaan huomioida mallissa offsetin avulla. Kun linkkifunktio on logistinen, offset saadaan malliin mukaan:

 log(\mu_i) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} + log(t_i)

, jossa Ti on aikaikkuna.

Luokitteluaineistot[muokkaa | muokkaa wikitekstiä]

Luokitteluasteikollisia vastemuuttujia voidaan käsitellä binomivasteiden yleistyksenä, missä vasteena on luokka. Järjestysasteikolliset muuttujat poikkeavat luokitteluasteikollisista siten, että luokkien välillä on selkeä, luonnollinen järjestys. Kuhunkin kovariaattiluokkaan i liittyy Q-ulotteinen vastevektori Yi = [Ki1/mi, K_i2/mi,…,KiQ/mi].

Multinominaalijakauma on yleistys binomijakaumasta. Eli kun kategorioita on enemmän kuin kaksi kyseessä on multinominaalijakauma. Jakauma on muotoa:

\frac{m_i!}{k_{i1}! k_{i2}!...k_{iQ}!} \pi_{i1}^{k_{i1}} \pi_{i2}^{k_{i2}}... \pi_{iQ}^{k_{iQ}}.

Multinominaalijakauma ei sellaisenaan kuulu eksponenttiperheeseen, mutta se voidaan määrittää Poisson-jakauman kautta. Olkoon K1, K2,…, KQ ovat Poisson-jakautuneita satunnaismuuttujia odotusarvoilla λ1, λ2,…,λQ. Summa m = K1 + K2 +…+ KQ on Poisson-jakaumaa noudattava satunnaismuuttuja odotusarvolla λ = λ1 + λ2 +…+ λQ. Siten ehdollinen jakauma on multinominaalijakauman muotoinen:

 f(k_1,k_2,...,k_Q;m)=(\frac{\lambda_1}{\lambda})^{k_1}(\frac{\lambda_2}{\lambda})^{k_2} ... (\frac{\lambda_Q}{\lambda})^{k_Q} \frac {m!} {k_1!k_2!...k_q!}.

Koska (\frac{\lambda_q}{\lambda})^{k_q} = \pi_q kyseessä on multinominaalijakauma.

On hyvä huomata, että mallista on jätettävä yksi luokka pois analyysia varten. Tämä poisjätetty luokka toimii ns. vertailuluokkana. Sopiva linkkifunktio lukumäärävasteille on logistinen linkki.

Positiiviset vasteet[muokkaa | muokkaa wikitekstiä]

Kun vastemuuttuja on jatkuva, joka voi saada vain positiivisia arvoja, puhutaan positiivisesta vasteesta. Ei-negatiivinen vaste voi saada myös nollahavaintoja. Usein positiivisen ja ei-negatiivisen vasteen jakauma on vino, johon on reagoitava. Malleissa, joissa on positiivinen vastemuuttuja, oletetaan variaatiokertoimen C.V olevan vakio.

Positiiviselle vasteelle on erilaisia mahdollisia jakaumia. Yksi vaihtoehto on Gamma-jakauma, jolla C.V on vakio. Gamma-jakaumalle mahdollisia linkkifunktioita ovat:

  • Käänteinen linkki:  g(\mu_i) = \frac{1}{\mu_i}.
  • Log-linkki:  \operatorname{g}(\mu_i) = log(\mu_i).

Käänteinen linkkifunktio on Gamma-jakuman kanoninen linkkifunktio. Tällä linkillä on tarpeen rajoittaa regressiokerrointa ß, ettei sovitteet ole negatiivisia. Log-linkkifunktion kohalla regressiokerrointa ß ei tarvitse rajoittaa.

Gamma-jakautuneelle vastemuuttujalle on mahdollista käyttää myös log-normaalijakaumaa. Käytännössä vastemuuttujasta otetaan logaritmi ja oletetaan tämän muunnoksen noudattavan normaalijakaumaa. Myös käänteinen Gaussianin jakauma, Weibullin jakauma ja Pareto-jakauma ovat mahdollisia vaihtoehtoja positiiviselle vasteelle.

Esimerkki mallin soveltamisesta R:ssä[muokkaa | muokkaa wikitekstiä]

R-ohjelmistolla voidaan helposti estimoida erilaisia yleistettyjä lineaarisia malleja. Mallissa pitää määritellä vastemuuttuja ja selittävät muuttujat, eksponenttiperheen muoto, linkkifunktio ja käytetty aineisto. Jos linkkifunktio jätetään ilmoittamatta, ohjelmisto käyttää automaattisesti kanonista linkkiä.

Esimerkki mallin estimoimisesta:

 glm(y~x1+x2, family=poisson(link=”log”), data = aineisto)

Lisätietoa yleistetyn lineaarisen mallin sovittamiseen R:ssä saa komennolla:

 ?’glm’

Lähteet[muokkaa | muokkaa wikitekstiä]