Ero sivun ”Bayesiläinen tilastotiede” versioiden välillä

Wikipediasta
Siirry navigaatioon Siirry hakuun
[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
Rivi 7: Rivi 7:
Bayesiläinen tilastotiede on tyypillisesti mallintavaa (engl. ''modelling'', ''inferential''), ei siis deskriptiivistä tilastotiedettä. Se pyrkii erilaisiin havaintoaineistoihin sisältyvän satunnaisvaihtelun selittämiseen ja analysointiin edistyneiden laskennallisten menetelmien avulla.
Bayesiläinen tilastotiede on tyypillisesti mallintavaa (engl. ''modelling'', ''inferential''), ei siis deskriptiivistä tilastotiedettä. Se pyrkii erilaisiin havaintoaineistoihin sisältyvän satunnaisvaihtelun selittämiseen ja analysointiin edistyneiden laskennallisten menetelmien avulla.


Bayesiläisessä tilastotieteen laskujen ratkaisemiseen joudutaan usein käyttämään tietokoneella tehtäviä ns. [[Monte Carlo -simulaatio]]ita. Nykyään on kuitenkin käytettävissä valmisohjelmistoja, joiden avulla simulaatiomenetelmiä voidaan soveltaa monissa tapauksissa ilman, että ne joudutaan ohjelmoimaan joka kerta uudelleen.
Bayesiläisessä tilastotieteessä laskujen ratkaisemiseen joudutaan usein käyttämään tietokoneella tehtäviä ns. [[Monte Carlo -simulaatio]]ita. Nykyään on kuitenkin käytettävissä valmisohjelmistoja, joiden avulla simulaatiomenetelmiä voidaan soveltaa monissa tapauksissa ilman, että ne joudutaan ohjelmoimaan joka kerta uudelleen.


== Peruskäsitteet ==
== Peruskäsitteet ==

Versio 28. tammikuuta 2009 kello 00.23

Bayesiläinen tilastotiede on frekventistisen (l. klassisen) tilastotieteen ohella tilastotieteen toinen suuri paradigma. Bayesiläinen tilastotiede perustuu Bayesin kaavan P(A|B) = P(B|A)P(A) / P(B) soveltamiseen.

Bayesiläiset menetelmät

Bayesiläistä tilastotiedettä, tai bayesiläisiä tilastollisia menetelmiä, käytetään nykyään useimmilla aloilla, joilla tilastotiedettä sovelletaan.

Bayesiläinen tilastotiede on tyypillisesti mallintavaa (engl. modelling, inferential), ei siis deskriptiivistä tilastotiedettä. Se pyrkii erilaisiin havaintoaineistoihin sisältyvän satunnaisvaihtelun selittämiseen ja analysointiin edistyneiden laskennallisten menetelmien avulla.

Bayesiläisessä tilastotieteessä laskujen ratkaisemiseen joudutaan usein käyttämään tietokoneella tehtäviä ns. Monte Carlo -simulaatioita. Nykyään on kuitenkin käytettävissä valmisohjelmistoja, joiden avulla simulaatiomenetelmiä voidaan soveltaa monissa tapauksissa ilman, että ne joudutaan ohjelmoimaan joka kerta uudelleen.

Peruskäsitteet

Bayesin kaavan P(A|B) = P(B|A)P(A) / P(B) tapahtumat A ja B voisivat esimerkiksi olla seuraavia väitelauseita: A = "Suomalaiset miehet ovat pitempiä kuin ruotsalaiset" ja B = "Kun tutkitaan 5 suomalaista ja 5 ruotsalaista, kaikki ruotsalaiset ovat pidempiä". Bayesiläisessä tilastotieteessä voidaan tällöin tehdä laskelmia siitä todennäköisyydestä että A on totta, kun B havaitaan.

Klassisessa tilastotieteessä edellisen esimerkin päättely on kielletty. Tämän paradigman mukaan parametrit (kuten esimerkin populaatiokeskiarvot), ovat kiinteitä lukuja, eikä niille voida määrätä mielekästä todennäköisyystulkintaa.

Bayesiläisessä tilastotieteessä käytetään usein Bayesin kaavasta johdettua kaavaa p(x|y) = p(y|x)p(x) / p(y). Tämä kaava on voimassa tietyt säännöllisyysehdot toteuttavilla satunnaismuuttujilla x ja y. Kaavassa p on geneerinen jakaumasymboli, joka voidaan tulkita esimerkiksi tiheysfunktioksi tai pistetodennäköisyysfunktioksi.

Edellisen kaavan avulla pyritään tekemään tilastollisia päätelmiä ei-havaittavasta muuttujasta x havaittavan muuttujan y perusteella. Ehdollistettua jakaumasymbolia p(y|x) sanotaan x:n posterioriksi. Jakaumasymboli p(y|x) on likelihood (joskus myös otantajakauma, otantamalli), jota käytetään myös klassisen tilastotieteen uskottavuuspäättelyssä. Jakaumasymboli p(x) on puolestaan x:n priori. Tekijä 1/p(y) ei vaikuta x:ää koskevaan tilastolliseen päättelyyn, vaan se on luonteeltaan normitusvakio.

Paradigman edut ja haitat

Käytettäessä ei-havaittavalle muuttujalle ns. laakeaa prioria p(x) ~ 1 (engl. uniform prior, tulkitaan singulaarisesti jatkuvana mittana, joka saa saman arvon kaikilla x), posteriori p(x|y) on vakiokerrointa vaille sama kuin klassisessa tilastotieteessä käytettävä uskottavuusfunktio. Tällöin bayesiläiset menetelmät antavat samoja numeerisia tuloksia, kuin maximum likelihood -päättely, joskin tulosten käsitteellinen tulkinta on erilainen.

Jos käytetään jotakin muuta kuin laakeaa prioria, posteriorin arvot muuttuvat. Tästä syystä priorin valinta saattaa vaikuttaa bayesiläisen tilastollisen päättelyn tuloksiin. Bayesiläiset tilastotieteilijät jakautuvat ns. subjektiivisiin bayesiläisiin, jotka korostavat priorin merkitystä tilastollisen päättelyn hyödyllisenä apuvälineenä, ja objektiivisiin bayesiläisiin, jotka suhtautuvat varauksellisesti prioriin sisältyvään informaatioon.

Jotkut tilastotieteen klassisen paradigman kannattajat ovat esittäneet, että priorin ja posteriorin käsitteet ovat ontologisesti ongelmallisia, tai peräti kokonaan virheellisiä. Toisaalta bayesiläistä paradigmaa on puolustettu informaatio- ja päätösteoreettisilla perusteluilla. Monien kannattajiensa mielestä bayesiläinen paradigma antaa tilastotieteelle teoreettisen perustan, joka on yhtenäisempi ja helpommin omaksuttava, kuin klassisen paradigman antama perusta.