Apache Hadoop

Kohteesta Wikipedia
Loikkaa: valikkoon, hakuun

Hadoop on Apache Software Foundationin avoimen lähdekoodin ohjelmisto suurien hajautettujen tietomäärien käsittelyyn. Projekti on kehitetty ns. Big data prosessointiin.

Hadoop-järjestelmän komponentit ovat:

  • Hadoop Common (yhteisiä komponentteja)
  • Hadoop Distributed Filesystem (HDFS): hajautettu tiedostojärjestelmä
  • Hadoop MapReduce: tiedon prosessointi
  • Hadoop YARN: klusterin resurssien jakaminen ja ajoittaminen

Hadoopin MapReduce ja HDFS komponenttien konseptit perustuvat Googlen julkaisemiin papereihin Google MapReduce ja Google File System (GFS) komponenteista.[1][2]

MapReduce[muokkaa | muokkaa wikitekstiä]

MapReduce on ohjelmointimalli, joka kerää tietoja avain/arvoparien perusteella (map toiminto) ja sulauttaa väliarvot samalle avaimelle (reduce toiminto).[2]

Katso myös[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. An introduction to Apache Hadoop for big data 26.8.2014. Viitattu 30.3.2018.
  2. a b Jim Scott: 5 Google Projects That Changed Big Data Forever 2.9.2014. Viitattu 30.3.2018.

Kirjallisuutta[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]