Varianssi

Wikipedia
Loikkaa: valikkoon, hakuun

Varianssi on todennäköisyyslaskennassa ja tilastotieteessä satunnaismuuttujan hajonnan mitta. Varianssi kuvaa sitä, kuinka kaukana satunnaismuuttujan arvot ovat tyypillisesti sen odotusarvosta. Reaaliarvoisen satunnaismuuttujan varianssi on sen toinen keskimomentti. Varianssin neliöjuurta sanotaan keskihajonnaksi.

Satunnaismuuttujan varianssi[muokkaa | muokkaa wikitekstiä]

Olkoon \mu = \operatorname{E}(X) satunnaismuuttujan X äärellinen odotusarvo ja sen toinen momentti äärellinen, \operatorname{E}(X^2)<\infty. Tällöin satunnaismuuttujan varianssi on

\operatorname{Var}(X) = \operatorname{E}( ( X - \mu ) ^ 2 ).

Varianssi on siis odotusarvo satunnaismuuttujan ja sen odotusarvon poikkeaman neliöstä. Käytännössä tämä tarkoittaa, että ensin tarkastellaan jokaisen havaintopisteen erotusta havaintojen keskiarvosta ja sitten otetaan näiden erotusten neliöiden keskiarvo, jotta negatiiviset ja positiiviset poikkeamat saavat saman painon.

Tyypillisesti varianssia merkitään: \operatorname{Var}(X), \sigma_X^2 tai \sigma^2. Yllä olevaa määritelmää käytetään sekä diskreeteille että jatkuville satunnaismuuttujille.

Varianssin laskukaava typistyy seuraavasti:

\operatorname{Var}(X)= \operatorname{E}(X^2 - 2\,X\,\operatorname{E}(X) + (\operatorname{E}(X))^2)
= \operatorname{E}(X^2) - 2(\operatorname{E}(X))^2 + (\operatorname{E}(X))^2 = \operatorname{E}(X^2) - (\operatorname{E}(X))^2.

Varianssi ei riipu satunnaismuuttujan odotusarvosta vaan ainoastaan havaintojen etäisyydestä keskiarvosta. Näin ollen satunnaismuuttujaa voidaan siirtää vakion a verran ilman että varianssi muuttuu. Toisaalta jos satunnaismuuttuja kerrotaan vakiolla b, se kertoo varianssiin vakion b neliöllä. Näin ollen pätee:

\operatorname{Var}(a+bX)=b^2\operatorname{Var}(X).

Varianssin usein hyödynnetty ominaisuus on se, että kahden riippumattoman satunnaismuuttujan summan varianssi on niiden varianssien summa. Myös heikompi ehto, että satunnaismuuttujat ovat korreloimattomia eli niiden kovarianssi on nolla, on riittävä. Satunnaismuuttujille X ja Y pätee siis:

\operatorname{Var}(aX+bY) =a^2 \operatorname{Var}(X) + b^2 \operatorname{Var}(Y) + 2ab\, \operatorname{Cov}(X, Y).

Populaatio- ja otosvarianssi[muokkaa | muokkaa wikitekstiä]

Varianssi lasketaan äärelliselle populaatiolle (y_1,\dots,y_N) seuraavasti

\sigma^2 = \frac{1}{N} \sum_{i=1}^N
 \left(y_i - \overline{y} \right)^ 2,

missä \overline{y} on populaation keskiarvo. Tätä kutsutaan toisinaan otosvarianssiksi, mutta termin käyttö on vaihtelevaa.

Kun (y_1,\dots,y_N) on otos laajemmasta populaatiosta, \sigma^2 on varianssin tarkentuva mutta harhainen estimaatti. Harhaton estimaatti on

s^2 = \frac{1}{N-1} \sum_{i=1}^N
 \left(y_i - \overline{y} \right)^ 2,

jota yleensä kutsutaan otosvarianssiksi. Suurten otosten tapauksessa ei ole käytännössä merkitystä kumpaa estimaattoria käytetään.