Tilastollisen hypoteesin testaus

Tilastotieteelliseen tutkimukseen kuuluu hypoteesien tekeminen, ja tätä kautta tilastollisen hypoteesin testaus. Tilastollinen hypoteesi on perusjoukkoa koskeva väite, jonka todenperäisyyttä arvioidaan todennäköisyyksien avulla. Tilastollisen testin lähtökohtana on muodostaa nollahypoteesi ja vastahypoteesi. Nollahypoteesi H₀ yleensä vastaa tilannetta että verrattavien perusjoukkojen välillä ei ole mitään eroja ja kaikki havaitut poikkeamat näiden välillä on vain sattumaa. Yleensä nollahypoteesi on muotoa ”ei vaikutusta” tai ”ei eroa”. Nollahypoteesin vastahypoteesi H₁ on H₀:n antiteesi. Yleensä vastahypoteesi on muotoa ”on vaikutusta” tai ”on eroa”. Tutkittavaa ilmiötä mallinnetaan nollahypoteesin mukaisesti ja katsotaan ovatko tämän seuraukset mielekkäitä.^[1]

Yleensä nollahypoteesi halutaan kumota, koska ”ei eroavuutta” ei pidetä kiinnostavana tuloksena. H₀:aa pidetään työhypoteesina, joka valitaan testaamisen lähtökohdaksi teknisen helppoutensa takia. Mikä kuvaa, että verrattavilla perusjoukoilla ei ole mitään eroa ja kaikkien havaintojen oletetaan olevan samasta jakaumasta, mikä on teoreettisesti yksinkertaista. Jos lähtökohta johtaa epäuskottaviin tuloksiin, niin tulee epäilys nollahypoteesin mielekkyydestä ja vastahypoteesi saa tukea.^[1]

Nollahypoteesin uskottavuutta mitataan testin havaitulla merkitsevyystasolla eli p-arvolla. Perinteisesti testeissä on etukäteen asetettu ”riskitaso” α jota pienemmät P-arvot johtavat H₀:n hylkäämiseen. Empiirisessä tutkimuksessa yleensä käytetty raja on 5%. Nollahypoteesin kumoavaa havaintoa kutsutaan tilastollisesti merkitseväksi.^[1]

Hypoteesin valinta[muokkaa | muokkaa wikitekstiä]

Hypoteesit aina viittaavat johonkin populaatioihin tai malleihin, eikä tiettyyn tulokseen, siksi H₀ ja H₁ täytyy aina esittää perusjoukon parametreina.^[2]

H₁ esittää vaikutusta mihin etsitään näyttöä, siksi tämä usein valitaan ensin, H₀ sen sijaan kuvaa, että haluttua vaikutusta ei tapahdu. H₁:n valinta on usein vaikeampi tehtävä, sillä ei ole aina varmaa eroavatko parametrit nollahypoteesin arvosta tiettyyn suuntaan vai molempiin, eli kuuluuko vastahypoteesin olla yksi- vai kaksisuuntainen.^[1] Kuitenkin joidenkin tilastotieteilijöiden mielestä tulisi aina käyttää kaksisuuntaista vaihtoehtoa^[2].

Vastahypoteesi ilmaisee toiveita tai epäilyjä joita viedään aineistoon. Havaittu aineisto ei saa vaikuttaa testattavien hypoteesien tai vastahypoteesien asettamiseen, vaan hypoteesit on kiinnitettävä ennen datan katselua.^[2] Näkyvän poikkeavuuden poimiminen testattavaksi rikkoo riippumattomuusperiaatetta^[1].

Hypoteesit tilastollisessa testissä[muokkaa | muokkaa wikitekstiä]

Tilastollinen testi määrittelee merkitsevyyden aineiston näytön perusteella nollahypoteesia vastaan. Nämä neljä askelta ovat yleiset kaikille merkitsevyystesteille.^[2]

Määritellään nollahypoteesi H₀ ja vastahypoteesi H₁. Testi on luotu määrittelemään aineiston näytön avulla voimakkuus H₀:aa vastaan. H₁ on väite joka hyväksytään, jos näytön perusteella H₀ hylätään.^[2]
Selvitetään aineistoa koskevat oletukset testausta varten, kuten riippumattomuus ja havaintoja kuvaava jakauma. Lasketaan aineistossa toimivan tilastollisen testin testisuure.^[2]
p-arvon saanti aineistolle. Tilastollisen testin p-arvo on todennäköisyys havaita nollahypoteesin mukaisessa tilanteessa vähintään yhtä poikkeava testisuureen arvo kuin mitä aineistosta on laskettu.^[1]
Lopputuloksen esitys. Valitaan merkitsevyyden taso α. Jos p-arvo on pienempää tai yhtäsuurta kuin α, tämä johtaa lopputulokseen, että vastahypoteesi on totta. Jos taas p-arvo on suurempaa kuin α, niin aineisto ei tarjoa riittävää näyttöä nollahypoteesin hylkäämiseen. Lopputulos on yhteenveto siitä mitä testi suureen avulla selvitettiin.^[2]

Nollahypoteesin hylkäykseen voi liittyä kahta virhettä

I tyypin virhe: Tosi nollahypoteesi hylätään.
- Sattumalta saatu hyvin epätodennäköinen otos.
II tyypin virhe: Väärä nollahypoteesi jää hylkäämättä.^[1]

Monitestaus[muokkaa | muokkaa wikitekstiä]

Suurissa aineistoissa voidaan haluta tutkia miljoonia hypoteeseja. Yksi vaihtoehto monitestaukseen on virheellisten löydösten osuus (FDR).

Bayes-tilastotiede[muokkaa | muokkaa wikitekstiä]

Bayes-tilastotieteessä bayes-tekijän käyttö on bayesilainen vaihtoehto frekventistisen (klassisen) tilastotieteen hypoteesin testaukselle. H₀ ja H₁ ovat hypoteesit, joita testataan.

Prioritodennäköisyyksillä määritellään priorivedonlyöntisuhde

${\dfrac {P(H_{0})}{P(H_{1})}}$

Tämä kuvaa kuinka paljon uskotaan hypoteesiin H₀ suhteessa H₁ a priori.

Posterioritodennäköisyyksillä määritellään posteriorivedonlyöntisuhde

${\dfrac {P(H_{0}|y)}{P(H_{1}|y)}}$

Tämä kuvaa kuinka paljon uskotaan hypoteesiin H₀ suhteessa H₁ havainnon y jälkeen.

Bayes-tekijäksi sanotaan suhdetta

$B={\dfrac {P(H_{0}|y)/P(H_{1}|y)}{P(H_{0})/P(H_{1})}}$

B on vedonlyöntisuhde H₀:n puolesta H₁:tä vastaan johtuen datasta y. Kun B>1, niin H₀ saa enemmän tukea, jos taas B<1 niin H₁ saa tukea.^[3]

Lähteet[muokkaa | muokkaa wikitekstiä]

↑ ^a ^b ^c ^d ^e ^f ^g Högmander, H. (2010). "Tilastotieteen peruskurssi 2", 4. painos, s 14-18
↑ ^a ^b ^c ^d ^e ^f ^g Moore, D.S., McCabe, G.P. and Craig, B.A. (2009). "Introduction to the practice of statistics", 6th Edition, Freeman, s 373-381
↑ Penttinen, Antti. "Bayes-tilastotiede", luentomoniste, 2009, Jyväskylän yliopisto, s 103-110

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]

Kuvia tai muita tiedostoja aiheesta Tilastollisen hypoteesin testaus Wikimedia Commonsissa

[Högmander-1] ↑ ^a ^b ^c ^d ^e ^f ^g Högmander, H. (2010). "Tilastotieteen peruskurssi 2", 4. painos, s 14-18

[Moore,_McCabe,_Craig-2] ↑ ^a ^b ^c ^d ^e ^f ^g Moore, D.S., McCabe, G.P. and Craig, B.A. (2009). "Introduction to the practice of statistics", 6th Edition, Freeman, s 373-381

[Penttinen-3] Penttinen, Antti. "Bayes-tilastotiede", luentomoniste, 2009, Jyväskylän yliopisto, s 103-110

[1]

[2]

[3]

Tilastollisen hypoteesin testaus

Sisällys

Hypoteesin valinta[muokkaa | muokkaa wikitekstiä]

Hypoteesit tilastollisessa testissä[muokkaa | muokkaa wikitekstiä]

Monitestaus[muokkaa | muokkaa wikitekstiä]

Bayes-tilastotiede[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]

Navigointivalikko

Tilastollisen hypoteesin testaus

Hypoteesin valinta[muokkaa | muokkaa wikitekstiä]

Hypoteesit tilastollisessa testissä[muokkaa | muokkaa wikitekstiä]

Monitestaus[muokkaa | muokkaa wikitekstiä]

Bayes-tilastotiede[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]

Navigointivalikko

Haku