Ero sivun ”Keskustelu:Luettelo Suomen taajamista 2011” versioiden välillä

Wikipediasta
Siirry navigaatioon Siirry hakuun
Poistettu sisältö Lisätty sisältö
tilastokeskukselta oli tullut sähköpostia
→‎Primäärilähdeluonne: Tämä vahvistaa yllä pohtimani aineiston primäärilähdeluonteen.
Rivi 23: Rivi 23:


Tänään oli tullut tilastokeskukselta vastaus mun niille lähettämään sähköpostiin: "''Kiitos viestistäsi. Löytämäsi tapaukset ovat virheitä ja johtuvat siitä, että joillain rakennuksilla on virheelliset sijaintitiedot. Tiedot tulevat Tilastokeskukseen Väestörekisterikeskuksen ylläpitämästä väestötietojärjestelmästä. Sinne tiedot saadaan kunnilta. Väestötietojärjestelmässä on tapahtunut juuri viime vuoden lopulla iso koordinaattijärjestelmäuudistus, jonka myötä tietojen käsittelyssä on myös Tilastokeskuksessa tapahtumassa muutoksia. Tilastokeskus ei korjaa näiden rekisteripitäjien aineistoja, mutta pääsemme virheisiin yleensä aika yksinkertaisin keinoin kiinni. Virheellisten sijaintitietojen järjestelmällinen poissulkeminen julkaistavia pienaluetilastotietoja muodostettaessa on tavoitteemme. Ilmitullut virhe otetaan huomioon jo tämän vuoden tilastotuotannossa.''" Virhe on siis myönnetty ja se tullaan korjaamaan, mutta varmaankin vasta marraskuussa julkaistavaan päivitykseen. Miten meidän nyt tulisi toimia? Poistaa Aura ja Hollola Pukkilan ja Säkylän kirkonkylien kohdalta? Vastauksessani Tilastokeskukselle mainitsin myös tuosta Tervola2:sta sekä kysyin tästä tekijänoikeustilanteesta. [[Käyttäjä:-DragonMaster-|-DragonMaster-]] ([[Keskustelu käyttäjästä:-DragonMaster-|keskustelu]]) 25. maaliskuuta 2013 kello 18.03 (EET)
Tänään oli tullut tilastokeskukselta vastaus mun niille lähettämään sähköpostiin: "''Kiitos viestistäsi. Löytämäsi tapaukset ovat virheitä ja johtuvat siitä, että joillain rakennuksilla on virheelliset sijaintitiedot. Tiedot tulevat Tilastokeskukseen Väestörekisterikeskuksen ylläpitämästä väestötietojärjestelmästä. Sinne tiedot saadaan kunnilta. Väestötietojärjestelmässä on tapahtunut juuri viime vuoden lopulla iso koordinaattijärjestelmäuudistus, jonka myötä tietojen käsittelyssä on myös Tilastokeskuksessa tapahtumassa muutoksia. Tilastokeskus ei korjaa näiden rekisteripitäjien aineistoja, mutta pääsemme virheisiin yleensä aika yksinkertaisin keinoin kiinni. Virheellisten sijaintitietojen järjestelmällinen poissulkeminen julkaistavia pienaluetilastotietoja muodostettaessa on tavoitteemme. Ilmitullut virhe otetaan huomioon jo tämän vuoden tilastotuotannossa.''" Virhe on siis myönnetty ja se tullaan korjaamaan, mutta varmaankin vasta marraskuussa julkaistavaan päivitykseen. Miten meidän nyt tulisi toimia? Poistaa Aura ja Hollola Pukkilan ja Säkylän kirkonkylien kohdalta? Vastauksessani Tilastokeskukselle mainitsin myös tuosta Tervola2:sta sekä kysyin tästä tekijänoikeustilanteesta. [[Käyttäjä:-DragonMaster-|-DragonMaster-]] ([[Keskustelu käyttäjästä:-DragonMaster-|keskustelu]]) 25. maaliskuuta 2013 kello 18.03 (EET)

:Tämä vahvistaa yllä pohtimani aineiston primäärilähdeluonteen ja tekee vertailuni muihin vastaaviin tapauksiin nähden relevanteiksi. Olen itsekin joskus ollut tekemisissä RHR-aineistojen kanssa, ja siellä (sekä muissakin vasstaavissa koordinaatteihin perustuvissa primääriaineistoissa) tyypillisesti saattaa olla yksittäisiä rakennuksia esimerkiksi keskellä järveä tai vastaavasti väärällä puolella Suomea riippuen siitä missä kohtaa koordinaattien syöttöä on tapahtunut esim. lyöntivirhe joskus menneinä vuosikymmeninä. Sitä miten primäärilähdeluonne täällä tulisi otttaa huomioon, voidaan pohtia, mutta varmaankin voitaneen laskea normaaliin lähdekritiikkiin jättää siteeraamatta täysin selkeästi ja yksiselitteisesti väärä tieto. Eräs tapa suodattaa virheitä voisi olla poistaa kunnista, joihin taajama ulottuu, sellaiset kunnat, joissa on taajaman asukkaita vain jokunen. Joissain tapauksissa tieto hyvinkin voi olla oikea, joissain väärä (näitä juuri ihmettelin, esim. ulottuuko [[Klaukkala]]n taajama [[Vihti]]in?), mutta koska näiden ratkaiseminen kussakin tapauksessa menee arvuutteluksi, niin siihen ei kannata ruveta ruveta, vaan paras lienee poistaa vain täysin selkeästi väärät ja jättää loput. Sitä tulisiko poistaa nuo missä on vain jokunen naapurikunnan asukas, voi miettiä. Sehän ehkä rinnastuu noihin muokkauksiin joita olen tehnyt etunimiartikkeleihin, joiden mukasan aina löytyy 1 tai 2 Risto, Tauno tai Vilhelmi jne. -nimistä naista lähes joka miehennimelle mitä vain voi keksiä. Eli kun on kyseessä primäärilähde, niin suuret luvut ovat luotettavia riittävällä tarkkuudella, mutta pienissä luvuissa on väistämättä virheitä, eikä niitä ehkä siksi tulisi siteerata. Muttass jos ei halua asettaa rajaa, niin voi myös antaa olla.--[[Käyttäjä:Urjanhai|Urjanhai]] ([[Keskustelu käyttäjästä:Urjanhai|keskustelu]]) 25. maaliskuuta 2013 kello 18.35 (EET)

Versio 25. maaliskuuta 2013 kello 19.35

Primäärilähdeluonne

Eräs mihin tulee näköjään ottaa kantaa, on tietokannan primäärilähdeluonne, kun esim. Pukkilan Kirkonkylä on osaksi merkitty kuulumaan Auraan ym. Kun ensin silmäilin luetteloa ja näin vastaavia, joissa taajaman muuna kuntana on jokin naapurikunta, arvelin, että tämä selittyisi esim. joillain kuntien enklaaveilla niissä tapauksissa, missä kyseinen taajama ei sijoitu serlkeästi naapurikunnan rajalle. Mutta kun vastaavia on toisella puolella Suomea olevien kuntienkin kanssa, niin ainoa selitys on jokin aineiston primäärilähdeluonteesta johtuva tekninen virhe. Ja sitä paitsi kuntien väliset pienet enklaavithan poistettiin joskus tasannoin, joten siitäkään ei voi olla kysymys edes naapurikuntien osalta. Toki osa tasajamista oikeastikin ulottuu useaan kuntaan, mutta nuo "mahdottomat" esimerkit osoittavat varmassti, että kyseessä on joku aineiston primäärilähdeluonteesta johtuva tekninen virhe. Ja samoin tapauksissa, missä esim. peruskastrtalta tai muulla kartalta voidaan arvioida, että itse taajama ei millään voi ulottua johonkin listassa näkyvistä läpikunnista, voidaan epäillä samaa, mutta koska osa taajamista oikeastikin ulottuu useaan kuntaan, niin kaikissa tapauksissa ei voida olla varmoja kummasta on kysymys.

Tämä bugi on rinnasteinen parille parin muun primäärilähteen kanssa vastaan tulleelle. Eli etunimiartikkeleissahan meillä on VRK:n nimipalvelun tiedoista lisätty etunimien kantajien lukumääriä. Ja etunimistähän taas osa on sellaisia, että niitä annetaan vain miehille, ja osa sellaisia, että niitä annetaan vain naisille. Mutta sitten on myös niitä, joita annetaan molemmille (kuten Lahja, Vieno, Kaino jne.). Mutta kun rupesin joskus etunimiartikkeleissa toistuvasti törmäämään "omituisiin" vrk:n nimipalvelusta lähteistettyihin tietoihin (en nyt muista enää mitä nimenomaisia nimiä, mutta artikkelien muokkaushistoriasta voi näkyä) tyyliin "Tauno on Suomessa annettu nimeksi XXXXXX henkilölle, joista kaksi naisia", niin tulin päätelmään, että ei täämöisiä voi joka nimen kohdalla millään olla, vaan että kyseessä on pakko olla tietokannan syötön tai käsittelyn typot tms. (Huolimatta siitä, että esim. Kari tunnetusti on naisen nimi Norjassa, ja Kai samoin Virossa, ja Maria miehen nimi katolisissa maissa jne.) Ja niinpä rupesin poistamaan tällaisia epätodennäköisiltä vaikuttavia pienen lukumäärän esiintymiä perustelulla, että tieto perustuu primäärilähteeseen. Josdsain tapauksessahan jonkun nimen kohdalla tieto ehkä voikin syystä tai toisesta olla oikea, mutta sitähän taas ei voi tietää, milloin se on. Kun taas suurissa luvuissa tieto varmasti on riittävän luotettavaa.

Ja toinen vastaava oli Järvirekisteriin perustuva Järviwiki, jossa saa Suomen järvistä tehtyä kyselyjä esim. Suomen kymmenestä korkeimmalla sijaitsevasta järvestä jne. Ja kun kerran johonkin artikkeliin lisääsin tiedon tyyliin, että se on "Suomen kolmanneksi korkeimmalla sijaitseva järvi" tms., niin joku valppaana tarkisti Kansalaisen karttapaikasta ja osoitti esimerkeillä, että tieto on väärä. Kun taas kysymys "missä kunnassa on eniten järviä" voidaan samalla aineistolla lähteistää luotettavasti, jos esim. ensimmäisen ja toisen välillä on vaikkapa sadoissa oleva ero. Mutta esim. tuon korkeimmuuden kohdalla on parempi sanoa, että "yksi Suomenn korkeimmalla sijaitsevista järvistä", mikä varmasti on fakta. (Ja samoin tästä keskusteltiin kun lähteistettiin knoppia Suomen järvettömistä kunnista.)

Ja kolmentena vielä Paikkatietoikkunassa julkaistu vesistöaluejako, joka tuotti vastaavan tapauksessa Hirvijärvi (Mynämäki), josta keskustelua ks. Keskustelu luokasta:Suomen vesistöt. Siinäkin esitin oman ehdotukseni, miten primäärilähteestä johtuva virhemahdollisuus kyseisessä tapauksessa oman käsitykseni mukaan tulisi huomioida ja esitin joitakin esimerkkejä saman aineiston virheistä muualla ja niiden käsittelyssä, kun aineistoa on käytetty lähteenä.

Ja nyt siis pitää miettiä, miten suhtaudutaan tällaiseen, koska tässä virheistä todennäköisesti suuri osa on sellaisia, että ei voida heti sanoa, onko tieto oikea vaiko varmasti väärä.

Jos olisi niin, että taajamarajauksista olisi kartta jossain karttapapalvelussa tai julkaisussa, niin tällä tämä tietysti ratkeaisi välitttömästi. Mutta jos tällaista ei satu löytymään niin sitten pitää miettiä. ([[Kansalaisen karttapaikkakin tietysti antaa jotain osviittaa, jos esim. joku taajama sijaitsee selkeästi kymmenien kilometrien päässä sen naapurikunnan rajasta, jonka alueelle taajaman väitetään ulottuvan. Mutta hyvin paljon on lultavasti tilanteita, joissa varmaa arviota pelkällä karttatulkinnalla ei pysty tekemään.)

Tuohon samaan kiinnitin myös jo huomiota vupden 2005 vastaavassa Excel-aineistossa.--Urjanhai (keskustelu) 23. maaliskuuta 2013 kello 14.11 (EET)[vastaa]

Ja vielä siis varmuuden vuoksi: että jokin aineisto sisältää tällaisia primäärilähdeluonteesta johtuvia virheitä, ei mielestäni tee koko lähteestä arvotonta, koska 99-prosenttisesti tieto varmasti on tarkkaa ja oikeaaa, samoin kuin edellä esitetyissä vastaavissa esimerkeissä. Vaan tässä siis, vanhan maakuntastereotypian - ja wikipedian yleisten perriaatteidenkin - mukaan vastuu on viime kädessä kuulijalla / lukijalla. Ja lisäksi kussakin tapauksessa on aineiston luonnetta pohttimalla helppo nähdä, mitkä lähteestä johdetut toedot varmasti ovat oikeita, ja mitkä ovat niitä, joihin voi sisältyä näitä primäärilähdeluonteesta johtuvia epävarmuuksia. Ja kuten noissa muissakin tapauksissa, suhtautuminen näihin on varmasti tässäkin mahdollista ratkaista luomalla sopiva tapauskohtainern menettelytapa, jolla virheitä voidaan joko suodattaa tai niihin voidaan muutoin varautua tavalla tai toisella (jos ei muuten niin disclaimerilla, että tietyiltä mainituilta osin tiedossa voi olla epätarkkuuksia).--Urjanhai (keskustelu) 23. maaliskuuta 2013 kello 14.32 (EET)[vastaa]

Pukkilan ja Säkylän kirkonkylien tilanne on kyllä kieltämättä erikoinen, senpä takia pistinkin eilen sähköpostia Tilastokeskukselle asiasta, saas nähä mitä vastaavat. Sen sijaan noissa muissa tapauksissa, joissa taajama ulottuu naapurikuntiin, pitäisin asiaa erittäin todennäköiseltä että asia näin on. Vaikka tuntuuhan se hieman erikoiselta, että esimerkiksi Forssan keskustaajamaan lasketaan kuuluvaksi myös Jokioisten ja Tammelan keskustat. Karttaa katsoessa kyllä huomaa, että asutusta on Tammelansuorankin varrella lähes koko matkalta Forssasta Tammelaan, mutta Jokioisten tilanne on vaikeampi. Hyvällä tahdolla karttaa katsoessa voisin pitää mahdollisena että tuo 200 metrin sääntö saattaa säilyä, jos kuljetaan kymppitien ja Loimijoenseudun kautta. Itse paikanpäällä ollessa asiaa ei välttämättä huomaisi. Mutta oli miten oli, Tilastokeskusta on tässä asiassa luottaminen, tämä oli vain esimerkki näistä naapurikuntien alueelle ylettyvistä ehkä lievästi epäilyttävistä taajamarajauksista. -DragonMaster- (keskustelu) 23. maaliskuuta 2013 kello 18.42 (EET)[vastaa]
Itse asiassa voi olla että taisin muodostaa tuon käsitykseni enemmän vuoden 2005 excel-taulukosta, jossa oli enemmänkin tuon tapaisia, mutta joita nyt ei kaikkia ollutkaan tässä, kun vertasin. Kun nyt katselin tätä taulukkoa uudestaan, niin ei siinä loppujen lopuksi taida mitään kovin mahdottomia sentään ollakaan. Esim. tuo Forssa voi hyvin olla mahdollinen riippuen rajausmenetelmästä. Tästä löytyy yleispiirteinen määrittely, miten rajaukset on tuotettu. Koska menetelmä on kuitenkin aika monimutkainen, niin sen perusteella hyvin voi syntyä jotain tuollaisia. Mutta juuri nuo Aurat ja Pukkilat osoittavat, että luettelo kuitenkin on kaikesta päättäen sen verran automaattisesti generoitu, että jotain pientä heittoa voi jossain olla, mutta missä sitä on, on mahdoton varmasti sanoa muuten kuin juuri tämänkaltaisissa aivan selvissä tapauksissa.--Urjanhai (keskustelu) 23. maaliskuuta 2013 kello 19.03 (EET)[vastaa]
Ja nyt muuten löytyikin joku taajama-aineisto myös karttapalveluna: [1]. Mutta tämä on vuodelta 2009 (ja lisäksi on vanhempia), joten kyseessä ei ole täysin sama aineisto.--Urjanhai (keskustelu) 23. maaliskuuta 2013 kello 19.15 (EET)[vastaa]

Tänään oli tullut tilastokeskukselta vastaus mun niille lähettämään sähköpostiin: "Kiitos viestistäsi. Löytämäsi tapaukset ovat virheitä ja johtuvat siitä, että joillain rakennuksilla on virheelliset sijaintitiedot. Tiedot tulevat Tilastokeskukseen Väestörekisterikeskuksen ylläpitämästä väestötietojärjestelmästä. Sinne tiedot saadaan kunnilta. Väestötietojärjestelmässä on tapahtunut juuri viime vuoden lopulla iso koordinaattijärjestelmäuudistus, jonka myötä tietojen käsittelyssä on myös Tilastokeskuksessa tapahtumassa muutoksia. Tilastokeskus ei korjaa näiden rekisteripitäjien aineistoja, mutta pääsemme virheisiin yleensä aika yksinkertaisin keinoin kiinni. Virheellisten sijaintitietojen järjestelmällinen poissulkeminen julkaistavia pienaluetilastotietoja muodostettaessa on tavoitteemme. Ilmitullut virhe otetaan huomioon jo tämän vuoden tilastotuotannossa." Virhe on siis myönnetty ja se tullaan korjaamaan, mutta varmaankin vasta marraskuussa julkaistavaan päivitykseen. Miten meidän nyt tulisi toimia? Poistaa Aura ja Hollola Pukkilan ja Säkylän kirkonkylien kohdalta? Vastauksessani Tilastokeskukselle mainitsin myös tuosta Tervola2:sta sekä kysyin tästä tekijänoikeustilanteesta. -DragonMaster- (keskustelu) 25. maaliskuuta 2013 kello 18.03 (EET)[vastaa]

Tämä vahvistaa yllä pohtimani aineiston primäärilähdeluonteen ja tekee vertailuni muihin vastaaviin tapauksiin nähden relevanteiksi. Olen itsekin joskus ollut tekemisissä RHR-aineistojen kanssa, ja siellä (sekä muissakin vasstaavissa koordinaatteihin perustuvissa primääriaineistoissa) tyypillisesti saattaa olla yksittäisiä rakennuksia esimerkiksi keskellä järveä tai vastaavasti väärällä puolella Suomea riippuen siitä missä kohtaa koordinaattien syöttöä on tapahtunut esim. lyöntivirhe joskus menneinä vuosikymmeninä. Sitä miten primäärilähdeluonne täällä tulisi otttaa huomioon, voidaan pohtia, mutta varmaankin voitaneen laskea normaaliin lähdekritiikkiin jättää siteeraamatta täysin selkeästi ja yksiselitteisesti väärä tieto. Eräs tapa suodattaa virheitä voisi olla poistaa kunnista, joihin taajama ulottuu, sellaiset kunnat, joissa on taajaman asukkaita vain jokunen. Joissain tapauksissa tieto hyvinkin voi olla oikea, joissain väärä (näitä juuri ihmettelin, esim. ulottuuko Klaukkalan taajama Vihtiin?), mutta koska näiden ratkaiseminen kussakin tapauksessa menee arvuutteluksi, niin siihen ei kannata ruveta ruveta, vaan paras lienee poistaa vain täysin selkeästi väärät ja jättää loput. Sitä tulisiko poistaa nuo missä on vain jokunen naapurikunnan asukas, voi miettiä. Sehän ehkä rinnastuu noihin muokkauksiin joita olen tehnyt etunimiartikkeleihin, joiden mukasan aina löytyy 1 tai 2 Risto, Tauno tai Vilhelmi jne. -nimistä naista lähes joka miehennimelle mitä vain voi keksiä. Eli kun on kyseessä primäärilähde, niin suuret luvut ovat luotettavia riittävällä tarkkuudella, mutta pienissä luvuissa on väistämättä virheitä, eikä niitä ehkä siksi tulisi siteerata. Muttass jos ei halua asettaa rajaa, niin voi myös antaa olla.--Urjanhai (keskustelu) 25. maaliskuuta 2013 kello 18.35 (EET)[vastaa]