Kausaalinen päättely

Wikipediasta
Siirry navigaatioon Siirry hakuun
Oletettuja syy-seuraussuhteita muuttujien välillä esitetään usein matemaattisesti suunnattujen syklittömien verkkojen (DAG, engl. directed acyclic graph) avulla. DAG ei ole kontrafaktuaalinen kuten ns. yhden maailman toimenpideverkko (SWIG, engl. single-world intervention graph).

Kausaalinen päättely tarkoittaa syy-seuraussuhteen eli vaikutuksen arviointia tiettyjen havaintojen ja oletusten perusteella.[1] Päättelyssä tapahtuvia systemaattisia virheitä kutsutaan usein harhoiksi.

Syy-seuraussuhteella tarkoitetaan yksinkertaisimmillaan eroa kahden erilaisen hypoteettisen eli ns. kontrafaktuaalisen tilan etenemisen välillä. Esim. hoidolla sanotaan olevan vaikutus sairauteen, kun potilasväeston keskimääräinen sairauden kulku olisi erilainen hoidolla ja hoidotta, kaiken muun ollessa lähtötilanteessa samaa.

Kausaalinen väite ei koske havaintoja todellisesta maailmasta vaan kontrafaktuaaleja eli hypoteettisiä maailmoja – assosiaatioita havaitaan, mutta kausaliteetti päätellään. Vaikutuksia voidaan arvioida yksilötasolla vain äärimmäisen vahvoilla oletuksilla, ja tästä syystä vaikutuksella tarkoitetaan yleensä keskimääräistä vaikutusta jossakin joukossa. Vastakkaiset yksilövaikutukset voivat periaatteessa ilmetä puuttuvana keskivaikutuksena. Vaikutuksen suuruus riippuu usein erilaisten muovaajien (engl. effect modifier) ja yhteisvaikutusten saamista arvoista kussakin joukossa. Toisin sanoen, syyllä ei ole olemassa vain yhden suuruista vaikutusta, vaan eri suuruisia keskimääräisiä vaikutuksia erilaisissa tiloissa. Kausaalinen päättely on haastavaa, koska vain toinen vertailtavista kontrafaktuaaleista on mahdollista todellisesti havaita ja tämänkin hyödyntäminen päättelyssä vaatii vähintään konsistenssioletuksen. Toisin sanoen, maailmaa ei voida kelata taaksepäin tai kopioida nähdäkseen, mitä olisi tapahtunut, jos jotakin olisi tehty toisin.[1]

Käyttöaiheet[muokkaa | muokkaa wikitekstiä]

Kausaalinen päättely on erityisen tärkeää tieteessä, jossa tehtävään on kehitetty yhä luotettavampia menetelmiä. Siinä missä yksinkertaisissa tapauksissa luotettavaan kausaaliseen päätelmään päästään välittömästi arkiajattelulla, monimutkaisemmissa tapauksissa päättelyyn on välttämätöntä käyttää täsmällistä kausaalista tilastotieteellistä teoriaa.

Esimerkiksi laskuvarjon vaikutus putoamisvammaan on suuri, vähätekijäinen ja helposti selitettävä, mitattava ja toistettava. Tarvittavat oletukset voidaan tehdä huolettomasti, eikä vaikutuksen arvioimiseksi tarvita erityisiä menetelmiä. Toisaalta taas esimerkiksi liikunnan vaikutus sydäninfarktiin on pieni, monitekijäinen ja vaikeasti selitettävä, mitattava ja toistettava. Tällaisen vaikutuksen luotettavaksi arvioimiseksi tarvitaan käytännössä erilaisia suuria laadukkaita aineistoja ja virhelähteiden hallintaan soveltuvia laskennallisia menetelmiä.

Matemaattiset käytännöt[muokkaa | muokkaa wikitekstiä]

  • Erilaisille muuttujille on melko vakiintuneet symbolit. viittaa vasteeseen, syyhyn (tai toimenpiteeseen), ns. kovariaatteihin eli sekoittaviin tekijöihin tai vaikutuksen muovaajiin, sensuuriin eli valintaharhan aiheuttavaan muuttujaan ja instrumenttimuuttujaan.[1]
  • tarkoittaa, että vasteen satunnaismuuttuja (Y) tuottaisi arvon 1 (esim. "kyllä"), kun kontrafaktuaalisesti syyn arvo on 1. Isot kirjaimet ovat satunnaismuuttujia ja pienet kirjaimet ovat näiden tuottamia arvoja. Yläindeksin käyttö viittaa kontrafaktuaaliin.[2]
  • tarkoittaa, että kontrafaktuaalinen vaste ja todellinen syy ovat riippumattomia toisistaan. Tätä kutsutaan vaihdettavuus-oletukseksi, eli esim. todellisuudessa hoidotta jääneiden vaste olisi sama kuin todellisuudesa hoidettujen vaste olisi samassa tilanteessa. Toisin sanoen, yksilöiden oletetaan olevan toimenpiteen suhteen toistensa kanssa vaihdettavissa. Tästä seuraa esim. se, että , eli kontrafaktuaalisen vastemuuttujan odotusarvo on sama todellisesta toimenpiteen arvosta riippumatta. Tätä kutsutaan keskiarvo-vaihdettavuudeksi. Jos oletetaan lisäksi konsistenssi, voidaan todeta , eli vasteen odotusarvot toimenpiteen eri arvoilla ovat samat kontrafaktuaalisesti (kausaliteetti) ja todellisista havainnoista (assosiaatio). Näin todellisista havainnoista voidaan päätellä kontrafaktuaalinen havainto (kausaalinen päätelmä).
  • tarkoittaa sananmukaisesti seuraavaa: kun todellisuudessa tietyllä yksilöllä (i) syyn satunnaismuuttuja (A) tuottaa arvon a (esim. "kyllä"), hänen vasteen satunnaismuuttujansa todellisuudessa tuottama arvo (Y) on sama kuin kontrafaktuaalisen vasteen satunnaismuuttujan tuottama arvo olisi samalla syyn arvolla a (eli "kyllä"). Tätä kutsutaan konsistenssi-oletukseksi eli kontrafaktuaalisen havainnon oletetaan olevan sama kuin todellisen havainnon samassa tilanteessa. Toisin sanoen, jos halutaan tietää kontrafaktuaalin tuottama arvo, riittää havaita todellisuudessa , kun . Tällöin kuitenkin jää lopullisesti havaitsematta.[2]
  • tarkoittaa, että kontrafaktuaalisen vasteen satunnaismuuttujan (Ya) odotusarvo (E) olisi erilainen, kun koko joukko altistuisi syyn arvolle 1 (esim. "kyllä") kuin jos koko joukko altistuisi syyn arvolle 0 (esim. "ei"). Toisin sanoen, syyllä on keskimääräinen vaikutus vasteeseen kyseisessä joukossa. Tämä on tyypillisin keskimääräisen vaikutuksen määritelmä – kuitenkin odotusarvo on vain yksi mahdollinen keskimääräisyyttä kuvaava suure.[3]
  • on vaikutussuure (NNT, engl. numbers needed to treat), joka kuvaa, kuinka monelle yksilölle on keskimäärin tehtävä toimenpide, että tällä olisi vaikutus yhden yksilön vasteeseen. tarkoittaa kyseisen kontrafaktuaalisen havainnon todennäköisyyttä.[4]
  • on vakioitu riskisuhde. Kyseessä ei ole vaikutus- vaan assosiaatiosuure. Lausekkeesta nähdään, että vakiointimenetelmän periaatteena on laskea vasteen todennäköisyyksiä vakiointimuuttujan muodostamissa osaryhmissä ja sitten antaa niille osaryhmän koon mukainen painoarvo koko summassa (tai integraalissa). Tarvittavin oletuksin tämä assosiaatiosuure vastaa (ns. identifioi) kausaalista riskisuhdetta .[5]

Menetelmät[muokkaa | muokkaa wikitekstiä]

Sekoittuneisuuden ja valintaharhan korjaamisessa käytettäviin menetelmiin kuuluvat muun muassa rajoittaminen, osittaminen, kaltaistus (engl. matching), vakiointi (engl. standardization), g-formula, IP-painotus (engl. inverse probability weighting), g-estimointi, instrumenttimuuttujat, DID-menetelmä (engl. differences-in-differences), regressioepäjatkuvuus-analyysi, etuovikriteeri, negatiiviset kontrollit ja propensiteettiarvot.[1]

Osittamismenetelmät (rajoittaminen, osittaminen, kaltaistaminen, vasteregressio) soveltuvat vain ehdollisten vaikutusten arviointiin osaryhmissä, kun taas ns. G-menetelmät (vakiointi, g-formula, IP-painotus, g-estimointi) soveltuvat poistamaan virhelähteen vaikutuksen eli simuloimaan kontrafaktuaalia. G-menetelmät soveltuvat myös ajassa muuttuvien syiden ja sekoittavien tekijöiden analysointiin. G-menetelmistä on myös ns. tuplarobusteja yleistyksiä, jotka sallivat osittaisia mallinnusvirheitä. Näistä syistä G-menetelmien käyttö on suositeltavaa yleisesti, vaikkakin yksinkertaisissa tilanteissa muukin menetelmä voi olla sopiva. (Poikkeuksena g-estimointi soveltuu vain sekoittavien tekijöiden hallintaan – mutta muista poiketen sen avulla voidaan arvioida helposti myös mittaamatonta sekoittuvuutta.)[1]

Hillin lista[muokkaa | muokkaa wikitekstiä]

Hillin lista (engl. Bradford Hill criteria) sisältää havaittujen yhteyksien piirteitä, joiden voidaan katsoa lisäävän tai vähentävän kausaalisen suhteen uskottavuutta:[6]

  • Voimakkuus: Mitä voimakkaampi yhteys muuttujien välillä havaitaan, sitä todennäköisemmin havaittu yhteys on kausaalinen.
  • Annos-vastesuhde: Yleensä biologiassa suurempi annos altistetta aiheuttaa suuremman vasteen. Näin siis mitä selkeämpi annos-vasteyhteys havaitaan, sitä todennäköisemmin yhteys voisi olla kausaalinen.
  • Ajallinen yhteys: Mitä paremmin altiste voidaan havaita ennen vasteen ilmaantumista eikä yhtäaikaisesti tai vasta vasteen jälkeen, sitä todennäköisemmin havaittu yhteys on kausaalinen.
  • Mekanismi: Mitä uskottavampi mekanismi altisteen ja vasteen väliselle kausaaliselle suhteelle on keksittävissä, sitä todennäköisemmin havaittu yhteys on kausaalinen.
  • Spesifisyys: Mitä spesifimmin yhteys on altisteen ja vasteen välillä tai mitä vähemmän nämä ovat epäspesifisesti yhteydessä erilaisiin muuttujiin, sitä todennäköisemmin altisteen ja vasteen havaittu yhteys on kausaalinen. Esimerkiksi, tutkijat voivat käyttää negatiivisia kontrollimuuttujia, joilla ei varmasti ole kausaalista yhteyttä vastemuuttujaan. Jos negatiivisen kontrollin ja vasteen välillä onkin tutkimuksessa yhteys, tämä tarkoittaa, että tutkimuksessa täytyy olla joitakin korjaamattomia virhelähteitä. Jos taas negatiivisen kontrollin ja vasteen välillä ei havaita yhteyttä, tämä voi vahvistaa altisteen ja vasteen yhteyden uskottavuutta.
  • Analogia: Mitä enemmän on kausaalisia yhteyksiä muiden vastaavien tai samantapaisten muuttujien välillä, sitä todennäköisemmin myös kyseinen havaittu yhteys on kausaalinen. Esimerkiksi, jos yhdellä lääkeaineella tiedetään olevan suolistoon liittyvä haitta, havaittu yhteys toisen lääkeaineen ja suolistoon liittyvän haitan välillä voisi olla jo analogian vuoksi uskottavampi.
  • Konsistenssi: Mitä useammin erilaisissa tutkimuksissa havaitaan sama yhteys, sitä todennäköisemmin havaittu yhteys on kausaalinen.
  • Koherenssi: Mitä enemmän on yhtäpitävää näyttöä laboratoriotutkimuksista, sitä todennäköisemmin havaittu yhteys on kausaalinen.
  • Kokeellinen näyttö: Mitä enemmän on yhtäpitävää näyttöä kokeellisista tutkimuksista, sitä todennäköisemmin havaittu yhteys on kausaalinen.

Kohdekokeen jäljittely[muokkaa | muokkaa wikitekstiä]

Kausaalinen päättely voidaan tehdä ns. kohdekoe-emulaationa. Kohdekoe tarkoittaa ideaalista satunnaistettua tutkimusasetelmaa, joka vastaisi suoraan haluttuun kausaaliseen kysymykseen. Emuloinnin tarkoitus on jäljitellä mahdollisimman tarkasti haluttua kohdekoetta käyttämällä jotakin toisenlaista, esim. satunnaistamattoman tutkimusasetelman, tuottamaa aineistoa.[7]

Kohdekokeen tutkimusprotokollan täsmentäminen on hyödyllinen prosessi, joka tarkentaa epäselviä kausaalisia kysymyksiä. Kohdekokeen emulointi antaa yhteisen viitekehyksen satunnaistettujen ja havainnoitujen aineistojen analysoimiseen. Havainnoivissa asetelmissa kerätyn aineiston avulla voidaan emuloida vastaavaa satunnaistettua koetta, jos riittävä joukko sekoittavia tekijöitä on mitattu, sekoittuneisuus korjataan asianmukaisesti ja syyn todennäköisyyden kuvaava malli on oikein määritelty. Satunnaistaminen poistaa ainoastaan sekoittuneisuuden ja tämänkin vain seurannan alussa – kaikki muut virhelähteet tulee edelleen huomioida samalla tavalla kuin satunnaistamattomissa asetelmissa.[7]

Oletukset[muokkaa | muokkaa wikitekstiä]

Mitä parempia havaintoja on kerätty, sitä vähemmän oletuksia joudutaan tekemään kausaalisen päätelmän tekemiseksi. Esim. hyvissä satunnaistetuissa kokeissa konsistenssi, alkuvaihdettavuus (engl. baseline exchangeability) ja positiivisuus ovat suunnitellusti totta, jolloin kausaalinen päättely on paljon luotettavampaa. Kun oletukset taas eivät ole totta, kausaaliseen päättelyyn syntyy systemaattista virhettä – erityisesti valintaharhaa, mittausharhaa ja sekoittuneisuutta. Eri menetelmiin liittyy erilaisia oletuksia, joten vertaamalla eri menetelmillä saatuja tuloksia voidaan tehdä yksinkertainen herkkyysanalyysi, tunnistaa ongelmia ja näin vahvistaa päätelmien luotettavuutta. Herkkyysanalyysi tarkoittaa yleisesti oletuspoikkeamien vaikutusten arvioimista.[1]

Kausaalisessa päättelyssä käytettäviin oletukseen kuuluvat muun muassa

  • interferenssin puute eli yksilöt ovat riippumattomia toisistaan
  • konsistenssi eli kontrafaktuaali ja havaittu vastaavat toisiaan samassa tilanteessa
  • syyerojen merkityksettömyys eli kaikilla syyn eri versioilla on sama vaikutus
  • hyvin määritellyt interventiot, kontrafaktuaalit ja kohdeväestöt
  • vaihdettavuus eli kontrafaktuaalinen vaste ja havaittu syy ovat riippumattomia toisistaan
  • jälkivaikutuksen puute eli yksilön siirtyessä syyn arvosta toiseen edellisen arvon vaikutus päättyy
  • yksilövaikutuksen ja verrokkikontrafaktuaalin aikariippumattomuus
  • positiivisuus (tai satunnaiset nollat) eli jokainen syyn arvo on mahdollinen
  • siirrettävyys eli vaikutus on sama eri väestöissä (ulkoinen validiteetti)
  • determistinen kontrafaktuaali eli yksilötasolla ei ole sattumaa
  • tunnettu, sama tai merkityksetön määrä mittaamatonta sekoittuneisuutta
  • ei mittausvirhettä eli muuttujien todelliset ja mitatut arvot ovat samat (harha tai satunnaisvirhe)
  • ei valintaharhaa eli aineistosta ei puutu havaintoja syyn ja vasteen yhteisten vaikutusten ehdolla
  • oikeat mallioletukset (esim. parabolinen hahmo Gaussilaisella satunnaisvirheellä)
  • poissuljentarajoitus (engl. exclusion restriction) eli instrumenttimuuttujalla on vaikutus vasteeseen ainoastaan syyn kautta
  • vaikutuksen homogeenisyys (useita versioita) eli syyn vaikutus vasteeseen on aina yhtä suuri (ei muovaajia)
  • monotoonisuus eli instrumenttimuuttujan ja syyn yhteys on ei-negatiivinen ja
  • yhteisjakauman uskollisuus (engl. faithfulness) eli kausaalisesti yhteydessä olevien muuttujien välillä on myös assosiaatio.[1]

Vaikutusta voidaan kuvata erilaisilla vaikutussuureilla, kuten riskisuhde, riskiero, vetosuhde, hasardisuhde, selitysosuus ja NNT. Nämä eivät ole samoja kuin vastaavat assosiaatiosuureet, mutta oletusten avulla kuitenkin pyritään tekemään yhtäläisyys assosiaatio- ja vaikutussuureen välille, jolloin assosiaatiosuureelle voidaan antaa kausaalinen tulkinta.[4]

Ideaalitapauksessa vaikutus laskettaisiin ei-parametrisesti äärettömästä havaintomäärästä, mutta interpolointia yleensä tarvitaan, jolloin yleistetyt lineeariset mallit ovat yksinkertaisuudessaan yleisiä. Kuitenkin myös vähemmän mallioletuksia tekeviä ns. ei- ja semi-parametrisia sekä koneoppimisessa käytettyjä malleja voidaan eri tilanteissa käyttää.[1]

IP-painotus[muokkaa | muokkaa wikitekstiä]

IP-painotus tehdään yleensä käytännössä sovittamalla jokin parametrinen ehdollinen keskiarvomalli käyttäen virhefuntiona IP-painotettua neliöetäisyyttä. Kun mukana on sekoittavia tekijöitä (L) ja valintaharhaa (C), on siis mallinnettava jakauma , joka voidaan arvioida mallintamalla jakaumat ja .[8] Yleistetty stabiloitu IP-kerroin on muotoa , missä tarkoittaa syyhistoriaa aikapisteeseen asti.[9]

Laskennallisesti IP-painotus voi näyttää esim. seuraavalta (R):

syymalli <- glm(
    # Huom. "seko" viittaa sekoittajaan tai tämän edustajaan.
    # Muuttujat seko1 ja seko2 ovat ns. riittävä korjausjoukko.
    formula = syy ~ seko1 + seko2 + I(seko2^2),
    family = binomial(),
    data = data
) 
syyjakauma <- glm(syy ~ 1, family = binomial(), data = data)

syymalli_ennuste <- predict(syymalli, type = "response")
syyjakauma_ennuste <- predict(syyjakauma, type = "response")

# SIP viittaa stabiloituun IP-kertoimeen. 
sip_kerroin <- ifelse(
    condition = syy == 0,
    true = ((1 - syyjakauma_ennuste) / (1 - syymalli_ennuste)),
    false = (syyjakauma_ennuste / syymalli_ennuste)
) 

# GEE-malli (engl. generalized estimating equations)
vastemalli <- geeglm(
    vaste ~ syy,
    weights = sip_kerroin,
    corstr = "independence",
    id = id,
    data = data
)

Usein on parasta kerätä mahdollisimman täsmällinen aineisto, jossa on myös aikatietoa. Tyypillisesti aikatietoa on jostakin vastetapahtumasta (esim. kuoleman ajankohta). Tällöin IP-painotettu analyysi voisi näyttää seuraavalta:

vastemalli <- glm(
    # IP-painotettu hasardimalli epäjatkuvalla ajalla.
    formula = vaste == 0 ~ syy + aika + aika2 + I(syy*aika) + I(syy*aika2),
    weight = sip_kerroin,
    data = data %>% mutate(aika2 = aika^2),
    family = binomial
)
vastemalli_ennuste <- crossing(aika = 0:100, syy = c(0,1)) %>%
    arrange(aika) %>%
    mutate(aika2 = aika^2) %>%
    mutate(vaste = predict(vastemalli, .data, type = "response")) %>%
    group_by(syy) %>%
    mutate(kumulatiivinen_vaste = cumprod(vaste))

Vakiointi ja g-formula[muokkaa | muokkaa wikitekstiä]

Vakiointi voidaan tehdä käytännössä neljässä vaiheessa: mallintamalla vastemuuttuja, tekemällä kontrafaktuaalinen aineisto, ennustamalla uudet arvot ja keskiarvoistamalla. Kun mukana on sekoittavia tekijöitä (L) ja valintaharhaa (C), mallinnetaan siis keskiarvo .[10] Yleinen g-formula on mallia .[11]

Laskennallisesti vakiointi voi näyttää esim. seuraavalta (R):

vastemalli <- glm(
    # Huom. "seko" viittaa sekoittajaan tai tämän edustajaan.
    # Muuttujat seko1 ja seko2 ovat ns. riittävä korjausjoukko.
    formula = vaste ~ syy + seko1 + seko2 + I(seko2),
    family = gaussian(),
    data = data
)

# Kontrafaktuaalinen aineisto syyn arvolla 0
data0 <- data %>% mutate(syy = 0, vaste = NA)
vastemalli_ennuste0 <- predict(vastemalli, data0)
keskiarvo0 <- mean(vastemalli_ennuste0)

# Kontrafaktuaalinen aineisto syyn arvolla 1
data1 <- data %>% mutate(syy = 1, vaste = NA)
vastemalli_ennuste1 <- predict(vastemalli, data1)
keskiarvo1 <- mean(vastemalli_ennuste1)

vaikutus <- keskiarvo0 - keskiarvo1
# Arvioi epävarmuus esim. bootstrap-menetelmällä.

Laskennallisesti g-formula voi näyttää esim. yhteen funktioon spesifioituna seuraavalta[12]:

vaikutukset <- gfoRmula::gformula(
    # Määritä data. 
    obs_data = data, 
    id = "id",
    time_name = "aika0", # Yksi aikamuuttuja. 
    outcome_name = "vaste", # Yksi vaste. 
    outcome_type = "survival", # Vasteen asteikko.
    # Kaksi aikasekoittajaa ja syy.
    covnames = c('aikaseko1', 'aikaseko2', 'syy'), 
    # Edellisten asteikot.
    covtypes = c('binary', 'bounded normal', 'binary'), 
    basecovs = c('perusseko3'), # Yksi perussekoittaja. 
    compevent_name = "kilpavaste", # Yksi kilpaileva vaste.
    #
    # Määritä yleistetyt lineaariset mallit kaikille muuttujille.
    histvars = list(
        c('syy', 'aikaseko1', 'aikaseko2'), 
        c('aikaseko1', 'aikaseko2')
    ),
    histories = c(lagged, lagavg),
    covparams = list(
        covlink = c('logit', 'identity', 'logit'), 
        covmodels = c(
            aikaseko1 ~ lag1_syy + 
                        lag_cumavg1_aikaseko1 + 
                        lag_cumavg1_aikaseko2 + 
                        perusseko3 + 
                        aika0, 
            aikaseko2 ~ lag1_syy + 
                        aikaseko1 + 
                        lag_cumavg1_aikaseko1 + 
                        lag_cumavg1_aikaseko2 + 
                        perusseko3 + 
                        aika0, 
            syy ~ lag1_syy + 
                  aikaseko1 + 
                  aikaseko2 + 
                  lag_cumavg1_aikaseko1 + 
                  lag_cumavg1_aikaseko2 + 
                  perusseko3 + 
                  aika0
        )
    ), 
    ymodel = vaste ~ syy + 
                     lag1_syy +
                     aikaseko1 + 
                     aikaseko2 + 
                     lag1_aikaseko1 + 
                     lag1_aikaseko2 + 
                     perusseko3 + 
                     aika0,
    compevent_model = kilpavaste ~ syy + 
                                   lag1_syy +
                                   aikaseko1 + 
                                   aikaseko2 + 
                                   lag1_aikaseko1 + 
                                   lag1_aikaseko2 + 
                                   perusseko3 + 
                                   aika0,
    #
    # Määritä haluttu syykontrasti.
    intvars = list("syy", "syy"), 
    int_descript = c('Aina ei', 'Aina kyllä'),
    interventions = list(
        list(c(static, rep(0, times = 7))),
        list(c(static, rep(1, times = 7)))
    )
)

G-estimointi[muokkaa | muokkaa wikitekstiä]

G-estimointi perustuu käytännössä hakualgoritmiin, joka etsii kertoimen, jolla haluttu sisäkkäinen rakenteellinen keskiarvomalli täyttää konsistenssi- ja vaihdettavuusoletuksen. Kun mukana on sekoittavia tekijöitä (L) ja valintaharhaa (C), mallinnetaan siis keskiarvoa . Yleistetty versio tarvittavasta vasteen kontrafaktuaalista on mallia .

Laskennallisesti g-estimointi voi näyttää esim. seuraavalta (R):

arvioi_vaihdettavuus <- function(arvaus) {
    # vaste_syy0 tarkoittaa vasteen kontrafaktuaalia syyn arvolla 0.
    syymalli <- geeglm(
        formula = syy ~ vaste_syy0 + seko1 + seko2 + I(seko2),
        data = data %>% mutate(vaste_syy0 = vaste - arvaus * syy),
        family = binomial,
        id = id,
        corstr = "independence"
    )
    tulos <- syymalli %>%
        tidy() %>%
        filter(term == "vaste_syy0") %>%
        select(vaihdettavuus = abs(estimate), p_arvo = p.value) %>%
        mutate(arvaus = arvaus)
    return(tulos)
}
vaikutus <- seq(from = 0.1, to = 5, by = 0.1) %>%
    map_dfr(arvioi_vaihdettavuus) %>%
    slice_min(vaihdettavuus) %>%
    rename(vaikutus = arvaus)
# Arvioi epävarmuus p-arvojen tai resampling-menetelmän avulla.

Vasteregressio[muokkaa | muokkaa wikitekstiä]

Vasteregressio tehdään yhdessä vaiheessa siten, että vastemuuttujaa mallinnetaan suoraan syyn, sekoittajien ja valintamuuttujan funktiona – tietyin oletuksin tämän mallin parametreille voidaan antaa kausaalinen tulkinta. Kun mukana on sekoittavia tekijöitä (L) ja valintaharhaa (C), vasteregressiomenetelmässä mallinnetaan siis keskiarvoa , jonka parametrit vastaavat kausaalioletuksien jälkeen mallin parametreja.[13]

Laskennallisesti vasteregressio voi näyttää esim. seuraavalta (R):

vastemalli <- glm(
    # Termi syy*seko2 mallittaa vaikutuksen muovausta.
    formula = vaste ~ syy + seko1 + seko2 + I(seko2^2) + I(syy * seko2),
    data = data
)
# Määritä kontrastimatriisilla haluttu vertailu. 
vaikutukset <- glht(vastemalli, kontrastimatriisi)

Propensiteettiarvot[muokkaa | muokkaa wikitekstiä]

Propensiteettiarvo tarkoittaa syyn (A) todennäköisyyttä muiden muuttujien (L) perusteella, mitä voidaan käyttää kaikissa menetelmissä edustamaan tätä mahdollisesti suurtakin joukkoa muuttujia L. Propensiteettiarvoja käytetään IP-painotuksessa ja g-estimoinnissa, mutta niitä voidaan myös käyttää sekoittavien tekijöiden sijasta osittamismenetelmissä ja vakioinnissa.[14]

Instrumenttimuuttujat[muokkaa | muokkaa wikitekstiä]

Instrumenttimuuttuja on tekijä, joka 1) on yhteydessä syyhyn, 2) vaikuttaa vasteeseen ainoastaan syyn kautta ja 3) ei jaa syitä vasteen kanssa. Instrumentin lisäksi on tehtävä homogeenisyys- tai monotoonisuus-oletus. (Huom. monotoonisuus auttaa arvioimaan vaikutuksen vain instrumenttia seuraavien osaryhmässä.)[15]

Tyypillisiä instrumentteja terveystieteissä ovat satunnaistaminen, geneettiset tekijät, preferenssi ja saatavuus. Tavallinen vaikutussuure IV-analyysissä on muotoa , joka arvioidaan usein kahdessa vaiheessa niin, että ensin ennustetaan mallista kaikille syy (s) ja sitten sovitetaan lineaarinen malli muotoa , missä b on haluttu vaikutussuure. Mitä suurempi instrumentin ja syyn yhteys on, sitä vähemmän satunnaisvirhettä arviossa on. Vaihtoehtoisesti voidaan käyttää rakenteellista keskiarvomallia ja g-estimointia, jolloin ei tarvita yhtä voimakkaita oletuksia mallin muotoon liittyen.[15]

Laskennallisesti IV-analyysi voi näyttää esim. seuraavalta (R):

# tsls-funktio on kaksivaiheisen pienimmän neliösumman menetelmä. 
vastemalli <- sem::tsls(
    formula = vaste ~ syy, 
    instruments = ~ instrumentti, 
    data = data,
    weights = rep(1, nrow(data))
)
summary(vastemalli)

Lähteet[muokkaa | muokkaa wikitekstiä]

  • Hernán MA, Robins JM: Causal Inference: What If. Boca Raton: Chapman & Hall/CRC, 2020. ISBN 9781420076165. (englanniksi)

Viitteet[muokkaa | muokkaa wikitekstiä]

  1. a b c d e f g h Hernán & Robins (2020)
  2. a b Hernán & Robins (2020): Individual causal effects, s. 3–4.
  3. Hernán & Robins (2020): Average causal effects, s. 4–6.
  4. a b Hernán & Robins (2020): Measures of causal effect, s. 7–8.
  5. Hernán & Robins (2020): Standardization, s. 19.
  6. Hill, Austin Bradford (1965). "The Environment and Disease: Association or Causation?". Proceedings of the Royal Society of Medicine 58 (5): 295–300. doi:10.1177/003591576505800503. PMID 14283879. PMC:1898525. 
  7. a b Hernán & Robins (2020): Target trial emulation, s. 277–287.
  8. Hernán & Robins (2020): IP weighting and marginal structural models, s. 149–160.
  9. Hernán & Robins (2020). IP weighting for time-varying treatments, s. 261–266.
  10. Hernán & Robins (2020): Standardizing the mean outcome to the confounder distribution, s. 164–165.
  11. Hernán & Robins (2020): The g-formula for time-varying treatments, s. 257–261.
  12. Lin V, McGrath S, Zhang Z, Logan R, Petito L, Young J, Hernán M(2022). gfoRmula: Parametric G-Formula. R package version 1.0.0, <https://CRAN.R-project.org/package=gfoRmula>.
  13. Hernán & Robins (2020): Outcome regression, s. 183–185.
  14. Hernán & Robins (2020): Propensity scores, s. 185–186.
  15. a b Hernán & Robins (2020): Instrumental variable estimation, s. 193–208.