Korrelaatio
| Tähän artikkeliin tai osioon ei ole merkitty lähteitä. Voit auttaa Wikipediaa lisäämällä artikkelille asianmukaisia lähteitä. |
Korrelaatio on todennäköisyyslaskennassa ja tilastotieteessä käytetty käsite, joka kuvaa kahden muuttujan välistä riippuvuutta. Korrelaatiokerroin tarkoittaa aineistosta laskettua havaintojen välistä korrelaatiota. Tarkkaan ottaen se on numeerinen mitta satunnaismuuttujien väliselle lineaariselle riippuvuudelle. Riippumattomien muuttujien välillä ei ole korrelaatiota.
Korrelaatiokerroin saadaan standardoimalla muuttujien kovarianssi välille [-1,1]. Standardointi tehdään jakamalla kovarianssi muuttujien keskihajontojen tulolla.
Korrelaatiokerroin ei siis riipu käytetyistä yksiköistä. Mitä enemmän korrelaatiokerroin poikkeaa nollasta, sitä voimakkaampaa muuttujien välinen riippuvuus on. Arvo 1 tarkoittaa, että muuttujien välillä on täydellinen lineaarinen riippuvuus (-1 tarkoittaa täydellistä negatiivista lineaarista riippuvuutta), ts. toisen muuttujan voi laskea tarkasti lineaarisesti toisen arvosta.
Korrelaatio voidaan laskea usealla eri tavalla muuttujien mitta-asteikosta ja käyttötarkoituksesta riippuen. Tavallisesti korrelaatiolla tarkoitetaan Pearsonin korrelaatiokerrointa. Nimestä huolimatta sen esitti ensimmäisenä Francis Galton. Jos tarkasteltavat muuttujat on mitattu vain järjestysasteikolla, niin silloin korrelaation mittaamiseen soveltuu paremmin jokin ei-parametrinen korrelaatiokerroin.
Sanalla korrelaatiokerroin (joskus vain korrelaatio) tarkoitetaan yleensä Pearsonin korrelaatiokerrointa.
Sisällysluettelo |
Riippuvuus voi olla vahva, vaikka korrelaatio olisi nolla [muokkaa]
Korrelaatio mittaa ainoastaan lineaarista riippuvuutta, siis kertoo siitä, jos ensimmäisen muuttujan (x) suuret arvot ovat pieniä arvoja enemmän yhteydessä toisen muuttujan (y) suuriin arvoihin (tai päinvastoin pieniin arvoihin). Se on sitä lähempänä lukua 1 tai -1, mitä lähempänä kuvaaja on jotain suoraa y=a+bx (kuten oheisen kuvan ensimmäisellä rivillä; b:n etumerkki määrää korrelaatin etumerkin).
Jos riippuvuus on ei-lineaarinen, esimerkiksi suuret ja pienet x:n arvot liittyvät suuriin y:n arvoihin mutta keskisuuret x:n arvot pieniin (esimerkiksi käyrä y=x2 välillä [-10,+10]), korrelaatio voi olla nolla vaikka riippuvuus olisi täydellinen niin, että x:n arvosta voitaisiin täydellisesti päätellä y:n arvo.
Oheisen kuvan alimman rivin pistejoukoissa selvästi muuttujien y ja x arvojen välillä on yhteys, riippuvuus, vaikka riippuvuus ei olekaan lineaarinen, suuret x:n arvot eivät ole suuriin y:n arvoihin yhteydessä sen useammin kuin pienetkään. Silti tieto x:n arvosta auttaa niissäkin veikkaamaan y:n arvoa.
Korrelaatio ei todista syy-seuraussuhdetta [muokkaa]
Korrelaatio voi olla pienestä otoksesta johtuva sattuma. Voi myös olla, että y on x:n syy tai päinvastoin, tai sitten jokin kolmas asia voi olla molempien syy, esimerkiksi jäätelönsyönti ja hukkumiset ovat kumpikin runsaampia kesällä mutta eivät silti ole toistensa syitä vaan kuumuus on molempien syy. Siis korrelaatio ei implikoi kausaliteettia. Usein se on kuitenkin hyvä vihje mahdollisesta syy-seuraussuhteesta.
Pearsonin korrelaatiokerroin [muokkaa]
Matemaattinen määritelmä [muokkaa]
Satunnaismuuttujien
ja
välinen korrelaatio
on määritelty:
missä
ja
ovat muuttujien odotusarvot sekä
ja
ovat muuttujien keskihajonnat.
Koska
ja
, voidaan yhtälö kirjoittaa myös:
Korrelaatio on määritelty vain, jos molemmat keskivirheet ovat äärellisiä ja nollasta poikkeavia. Cauchyn–Schwarzin epäyhtälön perusteella korrelaation itseisarvo ei voi ylittää yhtä. Riippumattomien muuttujien korrelaatio on 0, mutta päinvastainen ei ole välttämättä totta. Esimerkiksi kun
on tasajakautunut välillä (-1,1) ja
, on niiden välinen korrelaatio 0, vaikka ne riippuvat toisistaan. Normaalijakautuneiden satunnaismuuttujien tapauksessa korreloimattomuus tosin johtaa riippumattomuuteen.
Etenkin kun
ja
ovat normaalijakautuneita, Pearsonin korrelaatiokerroin on paras korrelaation estimaatti.
Otoskorrelaatio [muokkaa]
Kun käytettävissä on koko selitettävä aineisto (esimerkiksi tutkitaan suomalaisten painon riippuvuutta pituudesta ja tiedot on saatu kaikista suomalaisista), Pearsonin korrelaatiokerroin lasketaan yllä esitetyllä tavalla. Mikäli käytettävissä on vain otos aineistosta, tulee yllä esitettyjen kaavojen sijasta laskea otoskorrelaatio seuraavasti:
missä
ja
ovat otoskeskiarvoja (
) sekä
ja
ovat otoshajontoja (
), joten
Tällöin näet otoksesta lasketut keskiarvot
ja
ovat yleensä lähempänä otosta kuin todellinen keskiarvo, mutta vastaavasti jakajakin on pienempi (n-1) kuin koko aineiston kohdalla käytetyssä kaavassa (n), mikä korjaa ongelman keskimäärin optimaalisesti, siis
on paras koko aineiston
:n estimaatti, joka pelkän otoksen avulla voidaan tuottaa (kun taas normaali kaava aliarvioisi sitä, miten pitkälti x:n vaihtelut selittävät y:n vaihteluita). Samaan tapaan otoskeskivirheen (otoskeskihajonnan) kaavassa on termi
, joka alemmassa, aukikirjoitetummassa otoskorrelaatiokertoimen kaavassa on sievennetty pois.
Ei-parametriset korrelaatiokertoimet [muokkaa]
Pearsonin korrelaatiokerroin on parametrinen tunnusluku ja vähemmän hyödyllinen, jos taustalla oleva normaalisuusoletus ei päde. Ei-parametriset korrelaatiokertoimet ovat tällöin parempia korrelaation laskemiseen. Ne ovat vähemmän tehokkaita normaalisuusoletuksen vallitessa mutta antavat epäselvissä tapauksissa luotettavampia tuloksia.
Seuraavat menetelmät perustuvat lukujen järjestykseen, joten niitä voi käyttää myös silloin, kun muuttujat on mitattu järjestysasteikolla:
- Kendallin järjestyskorrelaatiokerroin (Kendallin tau)
- Spearmanin järjestyskorrelaatiokerroin (Spearmanin rho)
Sivulta puuttuu 


