Ydinestimointi

Ydinestimointi (engl. kernel density estimation) on parametriton tiheysfunktion estimointimenetelmä. Ydinestimointi voidaan käsittää yleistykseksi histogrammista.

Määritelmä[muokkaa | muokkaa wikitekstiä]

Olkoon x₁, x₂, …, x_n Iid otos jakaumasta tuntemattomalla tiheydellä f. Tiheysfunktion f ydinestimaattori on

{\hat {f}}(x)={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big )},

missä funktio K(.) on ydinfunktio (tai ydin) ja h > 0 on tasoitusparametri, jota voidaan kutsua myös ytimen leveydeksi.

Ydinfunktio[muokkaa | muokkaa wikitekstiä]

Ydinfunktiolta vaaditaan

\int _{-\infty }^{\infty }K(x)\,dx=1

.

Usein ydin on symmetrinen ja positiivinen.Ydinfunktioksi K(x) voidaan siis valita tiheysfunktio, esimerkiksi gaussinen ydin on standardoidun normaalijakauman tiheysfunktio. Ytimen ominaisuudet, kuten jatkuvuus ja derivoituvuus periytyvät ydinestimaattorille.

Ytimen leveys[muokkaa | muokkaa wikitekstiä]

Ytimen leveys h kontrolloi tiheysfunktion ydinestimaattorin sileyttä ja vaikuttaa siten oleellisesti tasoituksen asteeseen. Ytimen leveys on merkittävämpi tekijä kuin ytimen muoto. Ytimen leveyden valinnassa voidaan käyttää apuna ristiinvalidointia tai maksimaalisen tasoituksen periaatetta.

Eri ytimiä[muokkaa | muokkaa wikitekstiä]

Ydin	$K(x)$
Laatikko	${\tfrac {1}{2}},{\text{kun }}\|x\|<1$
Gauss	${\frac {1}{\sqrt[{}]{2\pi }}}e^{\frac {-x^{2}}{2}}$
Epanechikov	${\tfrac {3}{4}}(1-x^{2}),{\text{kun }}\|x\|<1$
Kolmio	$1-\|x\|,{\text{kun }}\|x\|<1$

Taustaa[muokkaa | muokkaa wikitekstiä]

Histogrammi on mahdollisesti tunnetuin parametriton tiheysfunktion estimointimenetelmä. Sen toteuttamiseksi jaetaan muuttujan arvoalue luokkiin. Merkitään

n = havaintojen määrä,
a = niiden havaintojen lukumäärä luokassa, johon x kuuluu,
h = luokkavälin pituus.

Nyt havaintojen $\scriptstyle x_{1},x_{2},...,x_{n}$ histogrammi-estimaattori voidaan kirjoittaa muodossa

{\hat {f}}(x)={\frac {a}{n\cdot h}}

.

Selvästi nähdään, että mitä suurempi luokkavälin pituus valitaan, sitä sileämpi estimaatti saadaan. Myös luokkavälien sijainti vaikuttaa estimaattiin. Menetelmä on yksinkertainen ja tehokas. Ongelmana on kuitenkin se, että histogrammi on epäjatkuva luokkavälien reunoilla. Menetelmä ei myöskään ole tarkentuva, jos jako pidetään kiinteänä.

Histogrammin idea voidaan yleistää naiiviksi estimaattoriksi

{\hat {f_{n}}}(x;h)={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big )},

missä x on luokkakeskipiste ja painofunktio K saa arvon 1/2, kun $\scriptstyle -1\leq x<1$ ja muulloin arvon 0. Erona histogrammiin, naiivi estimaattori ei riipu luokkavälien jakamiseen käytettyjen pisteiden sijainnista, vaan ainoastaan siloitusparametrista h. Kun yleistetään naiivi estimaattori joustavammaksi menetelmäksi korvaamalla painofunktio w ydinfunktiolla K, saadaan ydinestimaattori.

Esimerkki ydinestimoinnin soveltamisesta R:ssä[muokkaa | muokkaa wikitekstiä]

R-ohjelmistolla ydinestimoinnin voi suorittaa funktiolla density. Tässä x kuvaa aineistoa, bw (bandwidth) ytimen leveyttä ja kernel ydintä. Oletuksena R käyttää gaussista ydintä.

Esimerkki tiheysfunktion estimoimisesta:

 density(x, bw=1, kernel=”gaussian”)

Lisätietoa ydinestimointiin R:ssä saa komennolla:

 ?density

Lähteet[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]

Kuvia tai muita tiedostoja aiheesta Ydinestimointi Wikimedia Commonsissa

B. W. Silverman. Density Estimation for Statistics and Data Analysis. Chapman and Hall, New York, 1986. ISBN 0 412 24620 1. (englanniksi)
http://ethesis.helsinki.fi/julkaisut/mat/matem/pg/koivunen/tiheysfu.pdf (Arkistoitu – Internet Archive)
http://stat.ethz.ch/R-manual/R-devel/library/stats/html/density.html (englanniksi)

Ydinestimointi

Sisällys

Määritelmä[muokkaa | muokkaa wikitekstiä]

Ydinfunktio[muokkaa | muokkaa wikitekstiä]

Ytimen leveys[muokkaa | muokkaa wikitekstiä]

Eri ytimiä[muokkaa | muokkaa wikitekstiä]

Taustaa[muokkaa | muokkaa wikitekstiä]

Esimerkki ydinestimoinnin soveltamisesta R:ssä[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]

Navigointivalikko

Ydinestimointi

Määritelmä[muokkaa | muokkaa wikitekstiä]

Ydinfunktio[muokkaa | muokkaa wikitekstiä]

Ytimen leveys[muokkaa | muokkaa wikitekstiä]

Eri ytimiä[muokkaa | muokkaa wikitekstiä]

Taustaa[muokkaa | muokkaa wikitekstiä]

Esimerkki ydinestimoinnin soveltamisesta R:ssä[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]

Navigointivalikko

Haku