Lineaarinen regressioanalyysi
Lineaarinen regressioanalyysi on tilastollinen analyysimenetelmä, jossa aineiston perusteella estimoidaan tarkasteltavan vastemuuttujan lineaarista riippuvuutta selittävistä muuttujista. Menetelmää sovelletaan lähes kaikilla tieteenaloilla, joilla tehdään empiiristä tutkimusta. Lineaarinen regressiomalli kuuluu yleistettyjen lineaaristen mallien perheeseen.
Seuraavassa on esimerkki lineaarisesta regressianalyysista, jossa estimoidaan yhtälön
- y = α + βx,
tuntemattomat parametrit α,β kun on havaittu selitettävän muuttujan yi ja selittävän muuttujan xi havainnot i = 1,..,n. Kirjoitetaan:
yi = α + βxi + εi,
missä εi on mallin jäännösvirhe eli residuaali. Kun mallin parametrit estimoidaan pienimmän neliösumman menetelmällä, valitaan estimaatit siten, että residuaalien neliöiden summa minimoidaan.
Yleensä lineaarisessa regressioanalyysissa tehdään Gauss-Markov -oletukset:
- Virhetermit
ovat satunnaisia ja niiden odotusarvo on 0. - Virhetermit ovat korreloimattomia (toisinaan tehdään vahvempi riippumattomuusoletus).
- Virhetermit ovat homoskedastisia eli niiden varianssi on vakio.
Gauss-Markov -teoreeman mukaan pienimmän neliösumman estimaattori on oletuksien vallitessa tehokkain harhaton lineaarinen estimaattori.
[muokkaa] Parametrien estimointi
Kirjoittamalla malli yi = α + βxi + εi lineaarisena yhtälösysteeminä, voidaan malli esittää matriisimuodossa, jolloin X aineistomatriisi, Y vastevektori ja δ parametrivektori. Matriisien i. rivi sisältää aineiston rivit xi ja yi Tällöin malli voidaan kirjoittaa:
,
joka on matriiseina:
Nyt yhtälö voidaan kertoa vasemmalta transponenttimatriisilla
:
Olettaen, että matriisi
on olemassa, voidaan yhtälö kertoa sillä vasemmalta puolelta:
Ratkaisemalla yhtälö deltan suhteen saadaan:
Estimaatti deltalle saadaan merkitsemällä residuaalitermi nollaksi:
Tätä sivua ei ole
ovat satunnaisia ja niiden odotusarvo on 0.
,



