Korrelaatio

Wikipedia
Loikkaa: valikkoon, hakuun
Pearsonin korrelaatiokerroin mittaa lineaarista riippuvuutta: neljä tapausta, joissa korrelaatio on 0,81

Korrelaatio on todennäköisyyslaskennassa ja tilastotieteessä käytetty käsite, joka kuvaa kahden muuttujan välistä riippuvuutta. Korrelaatiokerroin tarkoittaa aineistosta laskettua havaintojen välistä korrelaatiota. Tarkkaan ottaen se on numeerinen mitta satunnaismuuttujien väliselle lineaariselle riippuvuudelle. Riippumattomien muuttujien välillä ei ole korrelaatiota.

Korrelaatiokerroin saadaan standardoimalla muuttujien kovarianssi välille [-1,1]. Standardointi tehdään jakamalla kovarianssi muuttujien keskihajontojen tulolla.

Korrelaatiokerroin ei siis riipu käytetyistä yksiköistä. Mitä enemmän korrelaatiokerroin poikkeaa nollasta, sitä voimakkaampaa muuttujien välinen riippuvuus on. Arvo 1 tarkoittaa, että muuttujien välillä on täydellinen lineaarinen riippuvuus (-1 tarkoittaa täydellistä negatiivista lineaarista riippuvuutta), ts. toisen muuttujan voi laskea tarkasti lineaarisesti toisen arvosta.

Korrelaatio voidaan laskea usealla eri tavalla muuttujien mitta-asteikosta ja käyttötarkoituksesta riippuen. Tavallisesti korrelaatiolla tarkoitetaan Pearsonin korrelaatiokerrointa. Nimestä huolimatta sen esitti ensimmäisenä Francis Galton. Jos tarkasteltavat muuttujat on mitattu vain järjestysasteikolla, niin silloin korrelaation mittaamiseen soveltuu paremmin jokin ei-parametrinen korrelaatiokerroin.

Sanalla korrelaatiokerroin (joskus vain korrelaatio) tarkoitetaan yleensä Pearsonin korrelaatiokerrointa.

Riippuvuus voi olla vahva, vaikka korrelaatio olisi nolla[muokkaa | muokkaa wikitekstiä]

Useita (xy)-parien pistejoukkoja sekä kunkin joukon x- ja y-koordinaattien korrelaatiokerroin. Korrelaatio heijastaa lineaarisen riippuvuuden suuntaa ja kohinaisuutta (hajontaa), kuten ylärivi kuvaa, muttei kulmakerrointa, kuten keskirivi kuvaa, eikä mitään epälineaarista riippuvuutta, kuten alarivi kuvaa. Huomaa, että keskimmäisen kuvaajan kulmakerroin on nolla mutta korrelaatiokerrointa ("0/0") ei voi laskea.

Korrelaatio mittaa ainoastaan lineaarista riippuvuutta, siis kertoo siitä, jos ensimmäisen muuttujan (x) suuret arvot ovat pieniä arvoja enemmän yhteydessä toisen muuttujan (y) suuriin arvoihin (tai päinvastoin pieniin arvoihin). Se on sitä lähempänä lukua 1 tai -1, mitä lähempänä kuvaaja on jotain suoraa y=a+bx (kuten oheisen kuvan ensimmäisellä rivillä; b:n etumerkki määrää korrelaatin etumerkin).

Jos riippuvuus on ei-lineaarinen, esimerkiksi suuret ja pienet x:n arvot liittyvät suuriin y:n arvoihin mutta keskisuuret x:n arvot pieniin (esimerkiksi käyrä y=x2 välillä [-10,+10]), korrelaatio voi olla nolla vaikka riippuvuus olisi täydellinen niin, että x:n arvosta voitaisiin täydellisesti päätellä y:n arvo.

Oheisen kuvan alimman rivin pistejoukoissa selvästi muuttujien y ja x arvojen välillä on yhteys, riippuvuus, vaikka riippuvuus ei olekaan lineaarinen, suuret x:n arvot eivät ole suuriin y:n arvoihin yhteydessä sen useammin kuin pienetkään. Silti tieto x:n arvosta auttaa niissäkin veikkaamaan y:n arvoa.

Korrelaatio ei todista syy-seuraussuhdetta[muokkaa | muokkaa wikitekstiä]

Korrelaatio voi olla pienestä otoksesta johtuva sattuma. Voi myös olla, että y on x:n syy tai päinvastoin, tai sitten jokin kolmas asia voi olla molempien syy, esimerkiksi jäätelönsyönti ja hukkumiset ovat kumpikin runsaampia kesällä mutta eivät silti ole toistensa syitä vaan kuumuus on molempien syy. Siis korrelaatio ei implikoi kausaliteettia. Usein se on kuitenkin hyvä vihje mahdollisesta syy-seuraussuhteesta.

Pearsonin korrelaatiokerroin[muokkaa | muokkaa wikitekstiä]

Matemaattinen määritelmä[muokkaa | muokkaa wikitekstiä]

Satunnaismuuttujien X ja Y välinen korrelaatio \rho_{X,Y} on määritelty:


\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y},

missä \mu_X ja \mu_Y ovat muuttujien odotusarvot sekä \sigma_X ja \sigma_Y ovat muuttujien keskihajonnat.

Koska \mu_X = E(X) ja \sigma_X^2 = E(X^2)-[E(X)]^2, voidaan yhtälö kirjoittaa myös:

\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}

Korrelaatio on määritelty vain, jos molemmat keskivirheet ovat äärellisiä ja nollasta poikkeavia. Cauchyn–Schwarzin epäyhtälön perusteella korrelaation itseisarvo ei voi ylittää yhtä. Riippumattomien muuttujien korrelaatio on 0, mutta päinvastainen ei ole välttämättä totta. Esimerkiksi kun X on tasajakautunut välillä (-1,1) ja Y=X^2, on niiden välinen korrelaatio 0, vaikka ne riippuvat toisistaan. Normaalijakautuneiden satunnaismuuttujien tapauksessa korreloimattomuus tosin johtaa riippumattomuuteen.

Etenkin kun X ja Y ovat normaalijakautuneita, Pearsonin korrelaatiokerroin on paras korrelaation estimaatti.

Otoskorrelaatio[muokkaa | muokkaa wikitekstiä]

Kun käytettävissä on koko selitettävä aineisto (esimerkiksi tutkitaan suomalaisten painon riippuvuutta pituudesta ja tiedot on saatu kaikista suomalaisista), Pearsonin korrelaatiokerroin lasketaan yllä esitetyllä tavalla. Mikäli käytettävissä on vain otos aineistosta, tulee yllä esitettyjen kaavojen sijasta laskea otoskorrelaatio seuraavasti:


r_{xy}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y},

missä \bar{x} ja \bar{y} ovat otoskeskiarvoja (\overline{x} = \sum_{i = 1}^{n} \frac{x_{i}}{n}) sekä s_x ja s_y ovat otoshajontoja (s_x = \sqrt{\sum_{i = 1}^{n} \frac{(x_{i}-\overline{x})^{2}}{n-1}}), joten


r_{xy}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{(\sum_{i = 1}^{n} (x_{i}-\overline{x})^{2})\cdot(\sum_{i = 1}^{n} (y_{i}-\overline{y})^{2}) }}\, .

Tällöin näet otoksesta lasketut keskiarvot \bar{x} ja \bar{y} ovat yleensä lähempänä otosta kuin todellinen keskiarvo, mutta vastaavasti jakajakin on pienempi (n-1) kuin koko aineiston kohdalla käytetyssä kaavassa (n), mikä korjaa ongelman keskimäärin optimaalisesti, siis r_{xy} on paras koko aineiston \rho_{xy}:n estimaatti, joka pelkän otoksen avulla voidaan tuottaa (kun taas normaali kaava aliarvioisi sitä, miten pitkälti x:n vaihtelut selittävät y:n vaihteluita). Samaan tapaan otoskeskivirheen (otoskeskihajonnan) kaavassa on termi n-1, joka alemmassa, aukikirjoitetummassa otoskorrelaatiokertoimen kaavassa on sievennetty pois.

Ei-parametriset korrelaatiokertoimet[muokkaa | muokkaa wikitekstiä]

Pearsonin korrelaatiokerroin on parametrinen tunnusluku ja vähemmän hyödyllinen, jos taustalla oleva normaalisuusoletus ei päde. Ei-parametriset korrelaatiokertoimet ovat tällöin parempia korrelaation laskemiseen. Ne ovat vähemmän tehokkaita normaalisuusoletuksen vallitessa mutta antavat epäselvissä tapauksissa luotettavampia tuloksia.

Seuraavat menetelmät perustuvat lukujen järjestykseen, joten niitä voi käyttää myös silloin, kun muuttujat on mitattu järjestysasteikolla:

Katso myös[muokkaa | muokkaa wikitekstiä]