Lineaarinen regressioanalyysi

Wikipedia
Loikkaa: valikkoon, hakuun
Esimerkki lineaarisesta regressioanalyysista 50 datapisteelle.

Lineaarinen regressioanalyysi on tilastollinen analyysimenetelmä, jossa aineiston perusteella estimoidaan tarkasteltavan vastemuuttujan lineaarista riippuvuutta selittävistä muuttujista. Menetelmää sovelletaan lähes kaikilla tieteenaloilla, joilla tehdään empiiristä tutkimusta. Lineaarinen regressiomalli kuuluu yleistettyjen lineaaristen mallien perheeseen.

Seuraavassa on esimerkki lineaarisesta regressianalyysista, jossa estimoidaan yhtälön

y = α + βx,

tuntemattomat parametrit α,β kun on havaittu selitettävän muuttujan yi ja selittävän muuttujan xi havainnot i = 1,..,n. Kirjoitetaan:

yi = α + βxi + εi,

missä εi on mallin jäännösvirhe eli residuaali. Kun mallin parametrit estimoidaan pienimmän neliösumman menetelmällä, valitaan estimaatit siten, että residuaalien neliöiden summa minimoidaan.

Yleensä lineaarisessa regressioanalyysissa tehdään Gauss-Markov -oletukset:

  • Virhetermit \varepsilon_i ovat satunnaisia ja niiden odotusarvo on 0.
  • Virhetermit ovat korreloimattomia (toisinaan tehdään vahvempi riippumattomuusoletus).
  • Virhetermit ovat homoskedastisia eli niiden varianssi on vakio.

Gauss-Markov -teoreeman mukaan pienimmän neliösumman estimaattori on oletuksien vallitessa tehokkain harhaton lineaarinen estimaattori.

[muokkaa] Parametrien estimointi

Kirjoittamalla malli yi = α + βxi + εi lineaarisena yhtälösysteeminä, voidaan malli esittää matriisimuodossa, jolloin X aineistomatriisi, Y vastevektori ja δ parametrivektori. Matriisien i. rivi sisältää aineiston rivit xi ja yi Tällöin malli voidaan kirjoittaa:

 \begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{bmatrix}= \begin{bmatrix} 1 & x_1\\ 1 & x_2\\ \vdots & \vdots\\ 1 & x_n \end{bmatrix} \begin{bmatrix} \alpha \\ \beta \end{bmatrix} + \begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n \end{bmatrix} ,

joka on matriiseina:

Y = X \delta + \varepsilon \,

Nyt yhtälö voidaan kertoa vasemmalta transponenttimatriisilla X^\operatorname{T} \,:

X^\operatorname{T}Y = X^\operatorname{T}X \delta + X^\operatorname{T}\varepsilon \,

Olettaen, että matriisi (X^\operatorname{T}X)^{-1} on olemassa, voidaan yhtälö kertoa sillä vasemmalta puolelta:

(X^\operatorname{T}X)^{-1}X^\operatorname{T}Y = (X^\operatorname{T}X)^{-1}X^\operatorname{T}X \delta + (X^\operatorname{T}X)^{-1}X^\operatorname{T}\varepsilon = \delta + (X^\operatorname{T}X)^{-1}X^\operatorname{T}\varepsilon\,

Ratkaisemalla yhtälö deltan suhteen saadaan:

\delta = (X^\operatorname{T}X)^{-1}X^\operatorname{T}Y + (X^\operatorname{T}X)^{-1}X^\operatorname{T}\varepsilon\,

Estimaatti deltalle saadaan merkitsemällä residuaalitermi nollaksi:

\widehat{\delta}=(X^\operatorname{T}X)^{-1}X^\operatorname{T}Y\,

[muokkaa] Aiheesta muualla

Henkilökohtaiset työkalut
Nimiavaruudet
Muuttujat
Toiminnot
Valikko
Osallistuminen
Tulosta tai vie
Työkalut
Muilla kielillä