Tilastotiede
Wikipedia
Tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii tilastollisten aineistojen keräämistä, käsittelyä ja tältä pohjalta tehtävää päättelyä.[1] Sitä sovelletaan monilla tutkimusaloilla, joihin kuuluvat esimerkiksi luonnon-, yhteiskunta- ja humanistiset tieteet. Tilastollisella päättelyllä on tärkeä osuus tieteellisessä hypoteesin testauksessa.
Kun tilastotieteen menetelmiä käytetään aineiston esittämiseen, on kyse lähinnä kuvailevasta tilastotieteestä. Kun kuvailusta siirrytään aineiston tarkasteluun tai mallinnukseen siten, että aineiston epävarmuus ja havaintojen satunnaisuus otetaan huomioon, puhutaan tilastollisesta päättelystä. Näissä molemmissa tapauksissa on kyse soveltavasta tilastotieteestä. Matemaattinen tilastotiede keskittyy puolestaan tarkastelemaan tilastotieteen teoreettista perustaa.
Sisällysluettelo |
[muokkaa] Lähestymistapa
Tilastotieteen soveltaminen tarkasteltavaan tieteelliseen, teolliseen tai yhteiskunnalliseen ongelmaan alkaa populaation määrittelyllä. Kyseessä voi olla jonkin maan väestö tai tehtaan valmistamat tuotteet. Toisaalta voidaan havainnoida aineistoa tuottava prosessi eri ajankohtina, jolloin kyseessä on aikasarja.
Aineistoa on tavallisesti mahdollista kerätä vain populaation osajoukosta, jolloin tutkimuksen kohteena on otos. Otoksesta voidaan kerätä aineistoa joko havainnoiden tai kokeellisessa asetelmassa. Kun aineisto on kerätty, siitä tehtävä analyysi voidaan jakaa kuvailuun ja päättelyyn, jotka tosin liittyvät usein toisiinsa läheisesti:
- Kuvaileva tilastollinen analyysi on aineiston esittämistä joko numeerisesti tai graafisesti. Tyypillisiä tunnuslukuja ovat keskiarvo ja keskihajonta. Histogrammi on taas esimerkki tilastollisesta kuvaajasta.
- Tilastollinen päättely on aineiston mallintamista, satunnaisuuden huomioon ottamista sekä aineistosta saatujen tuloksien yleistämistä populaatioon. Päättelyyn kuuluu muun muassa tilastollinen hypoteesin testaus, parametrien estimointi, korrelaatioiden tarkastelu sekä regressioanalyysi.
Tilastotieteessä on tärkeää tehdä ero kausaliteetin ja korrelaation välillä. Kausaliteetti eli syy-seuraussuhde tarkoittaa tilastollisessa yhteydessä, että yhden muuttujan arvosta seuraa toisen muuttujan arvo. Kahden muuttujan välinen korrelaatio taas tarkoittaa, että niiden arvot vaihtelevat aineistossa yhdessä, mutta kausaliteetin suuntaan ei oteta kantaa. Esimerkiksi tulojen ja eliniän tutkimus voi osoittaa, että rikkaat elävät köyhiä pidempään. Tällöin tulot ja elinikä ovat aineistossa korreloituneita. Tästä ei voida kuitenkaan johtaa kausaalisuhdetta, jonka mukaan varallisuus lisäisi elinikää. Korrelaatio voi syntyä kolmannen havaitsemattoman muuttujan vaikutuksesta, joka saattaisi olla esimerkiksi terveyspalveluiden saatavuus.
Jos tarkasteltava otos on edustava eli kuvaa populaatiota, voidaan tilastollinen päättely laajentaa otoksesta koko populaatioon. Keskeinen ongelma on se, missä määrin otos on edustava. Tilastotieteen menetelmät mahdollistavat satunnaisvaihtelun huomioimisen, joka syntyy otoksen keräämisestä eli otannasta. Toisaalta koesuunnittelun teoria tarkastelee kontrolloitujen kokeiden suorittamista.
[muokkaa] Menetelmiä
Aineisto kerätään kiinnostuksen kohteena olevasta populaatiosta otantamenetelmän avulla. Satunnaisotannassa kullakin populaation jäsenellä on sama todennäköisyys tulla poimituksi. Ennen aineiston käsittelyä on tiedettävä, millä mitta-asteikolla kukin havainto on mitattu. Havaintojen perusteella pyritään tekemään päätelmiä kiinnostuksen kohteena olevan muuttujan jakaumasta .
Frekvenssi kertoo kuinka monta havaintoa on annetussa havaintoluokassa.
[muokkaa] Aineistoa kuvailevia tunnuslukuja
Sijainnin tunnuslukuja eli keskilukuja:
- moodi
- minimi, maksimi
- mediaani
- kvantiilit: kvartiilit, desiilit ja persentiilit
- keskiarvo (aritmeettinen)
- geometrinen keskiarvo
- harmoninen keskiarvo
Vaihtelun tunnuslukuja:
Riippuvuuden tunnuslukuja:
- kovarianssi
- Pearsonin korrelaatiokerroin
- Kendallin järjestyskorrelaatiokerroin
- Spearmanin järjestyskorrelaatiokerroin
[muokkaa] Tilastollisia testejä
Tilastollisilla testeillä testataan tunnusluvuille tai parametreille asetettuja hypoteeseja. Testisuure lasketaan olettaen nollahypoteesin olevan totta. Jos aineiston perusteella laskettu tunnusluku poikkeaa nollahypoteesista ja aineiston vaihtelu on riittävän pientä suhteessa otoksen kokoon, nollahypoteesi voidaan hylätä valitulla merkisevyystasolla. Vaihtoehtoisesti nollahypoteesi jää voimaan. Merkitsevyystaso kuvaa testin todennäköisyyttä hylätä nollahypoteesi virheellisesti. Testin voima on todennäköisyys millä nollahypoteesi hylätän kun vaihtoehtoinen hypoteesi on tosi.
[muokkaa] Mallinnusmenetelmiä
[muokkaa] Otantamenetelmiä
[muokkaa] Tutkimusalueita
- Aikasarja-analyysi
- Bayesilainen tilastotiede
- biometria (biotieteiden sovelluksia)
- Data-analyysi
- Ekonometria (taloustieteen sovelluksia)
- Epidemiologia (terveyteen vaikuttavien tekijöiden tutkimus)
- Otantateoria
- Spatiaalinen tilastotiede
[muokkaa] Ohjelmistoja
Vapaita tilasto-ohjelmistoja:
Kaupallisia tilasto-ohjelmistoja:
[muokkaa] Lähteet
- ↑ Kielitoimiston sanakirja. Kotimaisten kielten tutkimuskeskuksen julkaisuja 132. Internet-versio MOT Kielitoimiston sanakirja 1.0. Helsinki: Kotimaisten kielten tutkimuskeskus ja Kielikone Oy, 2004. ISBN 952-5446-11-5.
[muokkaa] Katso myös
[muokkaa] Kirjallisuutta
- Grönroos, Matti: Johdatus tilastotieteeseen: Kuvailu, mallit ja päättely. Helsinki: Finn Lectura, 2003. ISBN 951-792-148-9.
- Heikkilä, Juha: Tilastotieteen ABC-kirja. 1, Kuvailevaa tilastotiedettä. Helsinki: Yliopistopaino, 1993. ISBN 951-570-184-8.
- Heikkilä, Tarja: Tilastollinen tutkimus. 7. uudistettu painos. Helsinki: Edita, 2008. ISBN 978-951-37-4812-8.
- Holopainen, Martti & Pulkkinen, Pekka: Tilastolliset menetelmät. Kuvitus: Krista Partti. 5. uudistettu painos. Porvoo Helsinki: WSOY Oppimateriaalit, 2008. ISBN 978-951-0-33198-9.
- Valli, Raine: Johdatus tilastolliseen tutkimukseen. Opetus 2000. Jyväskylä: PS-kustannus, 2001. ISBN 952-451-032-4.