Suurimman uskottavuuden estimointi

Wikipedia
Loikkaa: valikkoon, hakuun

Suurimman uskottavuuden estimointi on tilastotieteellinen menetelmä, jota käytetään tilastollisen mallin parametrien estimointiin. Suurimman uskottavuuden menetelmä maksimoi uskottavuusfunktion mallin parametrien suhteen.

Historia[muokkaa | muokkaa wikitekstiä]

Suurimman uskottavuuden estimointi on alunperin Ronald Fisherin vuosina 1912-1922 esittelemä ja nimeämä menetelmä. Alkuperäistä teoriaa ovat sittemmin paikkailleet niin Fisher, kuin myös Abraham Wald ja Harald Cramér, jotka molemmat tekivät lisärajoituksia teorian oletuksiin.

Suurimman uskottavuuden historian voidaan kuitenkin katsoa alkavan jo paljon aikaisemmin. Joseph-Louis Lagrange päätteli jo vuonna 1769, että halutun keskiarvon todennäköisin arvo on havaintojen aritmeettinen keskiarvo. Myös mm. Jakob Bernoullin (1769, 1778) ja Pierre-Simon Laplacen (1774) voidaan katsoa käyttäneen menetelmää. Carl Friedrich Gauss esitteli vuonna 1809 pienimmän neliösumman menetelmän, jonka tuottamat estimaatit ovat myös suurimman uskottavuuden estimaatteja silloin, kun satunnaisvirheet ovat normaalijakautuneita. Karl Pearson ja L.N.G Filon käsittelivät vuonna 1898 yleisen tason estimointiongelmaa, jossa on joukko moniulotteisia havaintoja, joiden jakauma riippuu tuntemattomista parametreista.[1]

Karl Pearson kritisoi Fisheriä ja suurimman uskottavuuden menetelmää siitä, ettei menetelmä uusi, vaan vain muunnos Gaussin esittämästä menetelmästä. Arthur Bowley vertasi suurimman uskottavuuden menetelmää Francis Ysidro Edgeworthin vuosina 1908-1909 tekemään työhön.[1][2]

Määritelmä[muokkaa | muokkaa wikitekstiä]

Suurimman uskottavuuden menetelmän käyttämiseksi tarvitaan uskottavuusfunktio.

Olkoon

  • \theta on vektori, joka sisältää uskottavuusfunktion parametrit
  • \{x_1,x_2,x_3 \cdots x_n\} on n havainnon otos (data)
  • f_{\theta} on datan todennäköisyysjakauman tiheysfunktio

Uskottavuusfunktio voidaan nyt määritellä seuraavasti

 
 \mathcal{L}(\theta) = f_{\theta}(x_1,\dots,x_n \mid \theta).\,\!

Menetelmä etsii \theta:lle sellaisen estimaatin, joka maksimoi uskottavuusfunktion L(θ) arvon. Suurimman uskottavuuden estimaattori määritellään siis seuraavasti:

\widehat{\theta} = \underset{\theta}{\operatorname{arg\ max}}\ \mathcal{L}(\theta).

Usein oletetaan, että havainnot ovat toisistaan riippumattomia ja samoin jakautuneita. Tällöin voidaan lauseke kirjoittaa muotoon

\mathcal{L}(\theta) = \prod_{i=1}^n f_{\theta}(x_i \mid \theta).

Koska lineaarisen ja logaritmisen funktion ääriarvot löytyvät samoista pisteistä, voidaan sama esittää myös logaritmifunktioiden avulla, jolloin kertolaskun sijaan voidaan käyttää log-uskottavuutta, eli summaa


    \ell(\theta) = \log\mathcal{L}(\theta\,;\,x_1,\ldots,x_n) = \sum_{i=1}^n \log f(x_i|\theta),

Suurimman uskottavuuden menetelmä estimoi θ0:n etsimällä sellaisen θ:n arvon, joka maksimoi uskottavuusfunktion. Tämä estimointimenetelmä määrää θ0:n suurimman uskottavuuden estimaatin


    \{ \hat\theta_\mathrm{mle}\} \subseteq \{ \underset{\theta\in\Theta}{\operatorname{arg\,max}}\ \hat\ell(\theta\,;\,x_1,\ldots,x_n) \}.

mikäli sellainen on olemassa. Suuriman uskottavuuden estimaatti on sama riippumatta siitä, maksimoidaanko uskottavuus- vai log-uskottavuusfunktiota, sillä logaritmi on monotonisesti kasvava funktio.

Ominaisuuksia[muokkaa | muokkaa wikitekstiä]

Suurimman uskottavuuden estimaattoreilla ei ole optimaalisia ominaisuuksia äärellisillä otoksilla. [3] Suurimman uskottavuuden estimointimenetelmä kuitenkin omaa useita haluttuja ominaisuuksia: Otoskoon kasvaessa kohti ääretöntä suurimman uskottavuuden estimaattoreilla on seuraavat ominaisuudet:

  • Tarkentuvuus: suurimman uskottavuuden estimaatit konvergoivat kohti estimoitavaa arvoa
  • Asymptoottinen normaalisuus: otoskoon kasvaessa suurimman uskottavuuden estitmaattien jakauma lähestyy normaalijakaumaa
  • Tehokkuus, eli se saavuttaa Cramér–Rao alarajan otoskoon lähestyessä ääretöntä. Tämä tarkoittaa sitä, ettei millään tarkentuvalla estimaattorilla ole alhaisempaa keskineliövirhettä kuin suurimman uskottavuuden estimaatilla

Esimerkkejä[muokkaa | muokkaa wikitekstiä]

Jatkuva jakauma, jatkuva parametriavaruus[muokkaa | muokkaa wikitekstiä]

Normaalijakaumalla \mathcal{N}(\mu, \sigma^2) on tiheysfunktio

f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\ \sigma\ }
                               \exp{\left(-\frac {(x-\mu)^2}{2\sigma^2} \right)},

jolloin yhteistiheysfunktio n:n kokoiselle otokselle [[Riippumaton ja identtisesti jakautunut |riippumattomia ja identtisesti jakautuneita]] normaalisia satunnaismuuttujia on

f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \prod_{i=1}^{n} f( x_{i}\mid  \mu, \sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( -\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}\right),

eli

f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right),

missä  \bar{x} on otoksen keskiarvo.

Tällä jakaumaperheellä on kaksi parametria θ = (μσ), joten maksimoimme uskottavuuden, \mathcal{L} (\mu,\sigma) = f(x_1,\ldots,x_n \mid \mu, \sigma), molempien parametrien suhteen.

Nyt voidaan laskujen helpottamiseksi käyttää log-uskottavuutta, sillä sen maksimoivat samat parametrien arvot jotka maksimoivat uskottavuuden.


\begin{align}
0 & = \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right) \right) \\[6pt]
& = \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^{n/2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\[6pt]
& = 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2}
\end{align}

josta saadaan ratkaisu \mu:n estimaatiksi

\hat\mu = \bar{x} = \sum^n_{i=1}x_i/n.

Joka on funktion maksimi \mu:lle, sillä se on funktion ainoa käännepiste ja funktion toinen derivaatta on pienempi kuin nolla. Koska \hat\mu:n odotusarvo on annetun jakauman parametrin \mu arvo,

 E \left[ \widehat\mu \right] = \mu, \,

niin suurimman uskottavuuden estimaattori \widehat\mu on harhaton.

Vastaavasti derivoidaan log-uskottavuus σ:n suhteen ja asetetaan tulos nollaksi:


\begin{align}
0 & = \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right) \right) \\[6pt]
& = \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\[6pt]
& = -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3}
\end{align}

jonka ratkaisu on

\widehat\sigma^2 = \sum_{i=1}^n(x_i-\widehat{\mu})^2/n.

ja sijoittamalla \widehat\mu saadaan

\widehat\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^n x_i^2
                          -\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^n x_i x_j.

Nyt odotusarvo voidaan laskea merkitsemällä \delta_i \equiv \mu - x_i, jolloin saadaan estimaatiksi

\widehat\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (\mu - \delta_i)^2 -\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^n (\mu - \delta_i)(\mu - \delta_j).

ja hyödyntämällä tietoa E\left[\delta_i\right] = 0 ja  E[\delta_i^2] = \sigma^2 , saadaan

E \left[ \widehat\sigma^2  \right]= \frac{n-1}{n}\sigma^2.

Tämä tarkoittaa sitä, että \widehat\sigma on harhainen. Mutta \widehat\sigma on kuitenkin tarkentuva.

Formaalisti sanotaan, että \theta=(\mu,\sigma^2) :n suurimman uskottavuuden estimaattori on:

\widehat{\theta} = \left(\widehat{\mu},\widehat{\sigma}^2\right).

Riippuvat muuttujat[muokkaa | muokkaa wikitekstiä]

Moniulotteista normaalijakaumaa noudattavat satunnaismuuttujat X ja Y ovat riippumattomia vain, mikäli niiden yhteistiheysfunktio on niiden tiheysfunktioiden tulo, eli

f(x,y)=f(x)f(y)\,

Olkoon nyt kokoa n oleva vektori satunnaismuuttujia (x_1,\ldots,x_n)\,, jossa jokaisella muuttujalla on keskiarvo (\mu_1, \ldots, \mu_n)\,. merkitään lisäksi kovarianssimatriisi \Sigma:lla.

Tällöin näiden n:n satunnaismuuttujan yhteistiheysfunktio on

f(x_1,\ldots,x_n)=\frac{1}{(2\pi)^{n/2}\sqrt{\text{det}(\Sigma)}} \exp\left( -\frac{1}{2} \left[x_1-\mu_1,\ldots,x_n-\mu_n\right]\Sigma^{-1}     \left[x_1-\mu_1,\ldots,x_n-\mu_n\right]^T \right)

Kahden muuttujan tapauksessa yhteistiheysfunktioksi saadaan

 f(x,y) = \frac{1}{2\pi \sigma_x \sigma_y \sqrt{1-\rho^2}} \exp\left[ -\frac{1}{2(1-\rho^2)} \left(\frac{(x-\mu_x)^2}{\sigma_x^2} - \frac{2\rho(x-\mu_x)(y-\mu_y)}{\sigma_x\sigma_y} + \frac{(y-\mu_y)^2}{\sigma_y^2}\right) \right]

Tällaisissa tapauksissa, joissa yhteistiheysfunktio on olemassa uskottavuusfunktio määritellään, kuten yllä määritelmässä.

Lisätietoa muualla[muokkaa | muokkaa wikitekstiä]

  • In Jae Myung: Tutorial on maximum likelihood estimation. Journal of Mathematical Psychology, 2002. [1]
  • Stock, James H. - Watson, Mark W.: Introduction to Econometrics. Addison Wesley, 2003.

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. a b Stigler, Stephen M. (2007). "The Epic Story of Maximum Likelihood". Statistical Science 22 (4): 598–620. doi:10.1214/07-STS249. 
  2. Aldrich, John (1997). "R. A. Fisher and the making of maximum likelihood 1912–1922". Statistical Science 12 (3): 162–176. doi:10.1214/ss/1030037906. 
  3. Pfanzagl, Johann (1994). Parametric statistical theory, with the assistance of R. Hamböker, Berlin, DE: Walter de Gruyter, 207–208. ISBN 3-11-013863-8.