Big data

Wikipedia
Loikkaa: valikkoon, hakuun

Big data on erittäin suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja tietotekniikkaa hyödyntäen.[1][2][3]

Big data on siis yhteisnimitys valtaisille datamäärille, joiden yhteydessä ei voida soveltaa perinteisiä datanhallinnointitapoja[4]. Big data soveltuukin käsitteenä hyvin moniin eri tyyppisiin tilanteisiin, eikä vielä ole syntynyt konsensusta siitä mitä Big data tarkalleen pitää sisällään [5]. Vaikkei olekaan yhtä vakiintunutta määritelmää, on olemassa toistuvia tunnusomaisia piirteitä, joilla Big dataa kuvataan. Näitä ovat muun muassa seuraavat:

  • se ei ole käsiteltävissä yleisesti käytössä olevilla laitteistoilla tai ohjelmistoilla siedettävissä olevassa ajassa käyttäjän kannalta [6]
  • mahdollisesti käytössä monessa paikassa yhtä aikaa [6]
  • data tulee eri lähteistä, eri muodoissa ja se kasaantuu ja/tai muuttuu nopeasti [5]
  • usein jonkin laitteen automaattisesti tuottamaa [5]
  • kerätty mahdollisesti ilman suunnitelmaa siitä, mihin sitä tarkkaan ottaen tullaan käyttämään [5]
  • datalla on usein vain löyhästi määritelty rakenne, tai ei rakennetta lainkaan, jolloin sitä ei voida sellaisenaan analysoida [5]

Big datalle on myös ominaista määritelmän tarkan sisällön muuttuminen ajan kuluessa. Tämä tapahtuu teknologian ja työvälineiden kehittyessä, jolloin se data, jonka käsittely vielä aiemmin tuottti vaikeuksia onkin tänään jo siinä määrin helposti hyödynnettävissä, ettei sitä enää voida Big dataksi kutsua.

Big datan kertyminen[muokkaa | muokkaa wikitekstiä]

Big dataksi kutsuttavia tietovarantoja syntyy hyvin monilla eri aloilla. Sen lähteitä ovat muun muassa seuraavat:[5]

  • Aika- ja paikkatiedot, esimerkiksi navigointipalvelu, joka tallettaa missä asiakas on milläkin hetkellä
  • Internetsivustojen lokitiedot
  • Tekstit, kuten asiakaspalaute tai arvostelut
  • RFID-merkit
  • Älykkäät sähköverkot
  • Laitteiden toimintaa tarkkailevat mittarit
  • Sosiaalisen median sisältö
  • Telemetria autoissa, tai videopelin pelaajan toimintaa seurattaessa

Big datan käyttäminen[muokkaa | muokkaa wikitekstiä]

Big datan käyttöönotto saattaa olla haastavaa johtuen suuruuden lisäksi myös rakenteesta ja hyödyllisen tiedon erottamisen vaikeudesta.

Rakenne[muokkaa | muokkaa wikitekstiä]

Eri tyyppiset datan rakenteet voidaan jaotella karkeasti seuraaviin kolmeen eri luokkaan.[5]

  1. Rakenne on selkeä ja ennalta tarkkaan määritelty. Perinteisesti data on tällaista, missä on ennalta määritetty mitä tietoja kerätään ja miten ne merkitään ja tämä sama säännöstö pätee koko dataan.
  2. Löyhästi määritelty rakenne. Esimerkiksi internetsivuston keräämät lokitiedot ovat tällaista. Data sisältää tietoa, joka on merkitty ennaltamäärätyllä tavalla, mutta minkä tahansa yksittäisen tiedon etsiminen saattaa vaatia mittavaa etsimistä. Analysointia varten dataa joudutaan luultavasti merkittävästi muokkaamaan ja sieltä poimimaan ne osat, jotka ovat varsinaisesti hyödyllisiä annetun kysymyksen näkökulmasta.
  3. Ei lainkaan rakennetta. Esimerkiksi asiakaspalautteet tai sosiaalisesta mediasta poimitut ihmisten lähettämät julkiset päivitykset. Tällaisessa tilanteessa ei voida lainkaan tehdä oletuksia siitä, mitä data tulee sisältämään tai millaisessa muodossa asioita tullaan ilmaisemaan.

Turha data[muokkaa | muokkaa wikitekstiä]

Nykyisin tiedontallennuksen ollessa hyvin edullista dataa saatetaan kerätä niin paljon kuin voidaan, esimerkiksi asiakkaan käyttäytymisestä organisaation internet-sivustolla. Tällöin tallennetuksi päätyy myös paljon sellaista dataa, joka ei ole hyödyllistä. Ryhdyttäessä analysoimaan tällaista dataa ensimmäiseksi täytyy pyrkiä löytämään datan joukosta se osa, joka on merkityksellistä. Mikä osa datasta on kunkin hetkisen tilanteen kannalta oleellista saattaa vaihtua hyvinkin nopeasti. Tämä johtuu siitä että, Big datan yhteydessä on tyypillistä päivittää tehtyä analyysia hyvin usein, jotta käytettävissä olisi viimeisin mahdollisin tieto. [5]

Käyttöönotto[muokkaa | muokkaa wikitekstiä]

Kun edellisistä kohdista ollaan selvillä voidaan siirtyä käyttämään yleistä kolmiportaista ETL-mallia Big datan käyttöönotolle. Ensimmäiseksi tulee extraction suomeksi poiminta eli data saadaan jostain. Tämän jälkeen tulee transformation suomeksi muunnos, jolloin datalle tehdään tarvittavat muutokset sen käyttöönottamiseksi valitussa analysointiympäristössä. Viimeisenä vaiheena on load suomeksi lataaminen, eli otetaan data käyttöön valittussa analysointiympäristössä.[5]

Kritiikki[muokkaa | muokkaa wikitekstiä]

Yksityisyydensuoja[muokkaa | muokkaa wikitekstiä]

Kerättäessä suuria määriä tietoa yksittäisten ihmisten toiminnasta, kuten vaikkapa sosiaalisen median käytöstä, on noussut huoli siitä kuka ja miten näitä tietoja voidaan käyttää. Tämän huolen nostamana onkin noussut EU:ssa lakialoite oikeudesta saada itseään koskevat tiedot pois palveluntarjoajan rekisteristä, tämä kulkee nykyisin nimellä The right to Erasure. Maailmanlaajuisesti samantapaisia aloitteita on lukuisia muitakin.[7]

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. http://www.bigdata.fi/big-data-maaritelma
  2. http://www.talouselama.fi/kumppaniblogit/tieto/big+data+muuttaa+maailmaa/a2191461
  3. Hilbert, Martin (2013)http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2205145 "Big Data for Development: From Information- to Knowledge Societies" Rochester, NY: Social Science Research Network
  4. Srinivasa, Srinath (2012) http://link.springer.com.ezproxy.jyu.fi/book/10.1007%2F978-3-642-35542-4 "Big Data Analytics : First International Conference, BDA 2012, New Delhi, India, December 24-26, 2012. Proceedings / edited by Srinath Srinivasa, Vasudha Bhatnagar" Springer, Berlin, Heidelberg.
  5. a b c d e f g h i Franks, Bill (2012) http://site.ebrary.com.ezproxy.jyu.fi/lib/jyvaskyla/docDetail.action?docID=10546553 "Taming the Big Data Tidal Wave : Finding Opportunities in Huge Data Streams with Advanced Analytics" Wiley, Hoboken, NJ, USA
  6. a b Adrian, Merv (2011)http://www.teradatamagazine.com/v11n01/Features/Big-Data/ "Big Data" Teradata Magazine 1/2011
  7. Lee, Newton (2013)"Facebook Nation: Total Information Awareness" Springer, New York