Apache Hadoop

Wikipediasta
Siirry navigaatioon Siirry hakuun
Apache Hadoop
Kehittäjä Apache Software Foundation
Kehityshistoria
Vakaa versio 3.4.0 ()[1]
Tiedot
Alusta Alustariippumaton
Ohjelmointikielet Java
Lisenssi Apache 2
Aiheesta muualla
hadoop.apache.org
Versiohallinta

Hadoop on Apache Software Foundationin avoimen lähdekoodin ohjelmisto suurien hajautettujen tietomäärien käsittelyyn. Projekti on kehitetty ns. Big data prosessointiin.

Hadoop-järjestelmän komponentit ovat:

  • Hadoop Common (yhteisiä komponentteja)
  • Hadoop Distributed Filesystem (HDFS): hajautettu tiedostojärjestelmä
  • Hadoop MapReduce: tiedon prosessointi
  • Hadoop YARN: klusterin resurssien jakaminen ja ajoittaminen

Hadoopin MapReduce ja HDFS komponenttien konseptit perustuvat Googlen julkaisemiin papereihin Google MapReduce ja Google File System (GFS) komponenteista.[2][3]

MapReduce[muokkaa | muokkaa wikitekstiä]

MapReduce on ohjelmointimalli, joka kerää tietoja avain/arvoparien perusteella (map toiminto) ja sulauttaa väliarvot samalle avaimelle (reduce toiminto).[3]

Merkitys[muokkaa | muokkaa wikitekstiä]

Altior-yhtiön mukaan vuonna 2014 yli puolet Fortune 50 -listan yrityksistä käytti Hadoopia.[4] Hadoop-markkinoiden arvoksi laskettiin globaalisti 1,5 miljardia dollaria vuonna 2012.[5] Vuonna 2019 uutisoitiin Hadoop-markkinoiden pienentymisestä.[6] Hadoopia on kutsuttu liian monimutkaiseksi ja asiakkaat eivät ole olleet tyytyväisiä.[7] Useat Hadoop-käyttäjät ovat myöhemmin siirtyneet pilvipalveluihin omista useiden petatavujen järjestelmistä: suorituskyvyn sanotaan olevan tärkein ja kustannuksien toiseksi tärkein.[8] Hadoop-perheeseen kuuluvat ohjelmistot kuten Apache Spark jatkavat vielä alkuperäisen Hadoopin ollessa "kuollut".[9]

Facebook kehitti Hiven käsittelemään suuria tietojoukkoja, jotka ovat tallennettu Hadoopilla.[10] Hive on abstraktio Hadoopin MapReducelle ja sisältää oman kyselykielen HiveQL.[10] Clouderan kehittämä Impala kehitettiin ratkaisemaan rajoitteet Hadoop Sql:n käsittelyssä ja kyselyjä Hadoop-klustereista.[10]

Katso myös[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. Release 3.4.0 available (viitattu ). Tieto on haettu Wikidatasta.
  2. An introduction to Apache Hadoop for big data opensource.com. 26.8.2014. Viitattu 30.3.2018.
  3. a b Jim Scott: 5 Google Projects That Changed Big Data Forever mapr.com. 2.9.2014. Arkistoitu 11.6.2018. Viitattu 30.3.2018.
  4. Altior's AltraSTAR - Hadoop Storage Accelerator and Optimizer Now Certified on CDH4 (Cloudera's Distribution Including Apache Hadoop Version 4) prnewswire.com. 18.12.2012. Viitattu 27.9.2021. (englanniksi)
  5. Katherine Noyes: How a little open source project came to dominate big data fortune.com. 1.7.2014. Viitattu 27.9.2021. (englanniksi)
  6. Alex Woodie: Hadoop Struggles and BI Deals: What’s Going On? datanami.com. 10.6.2019. Viitattu 30.9.2021. (englanniksi)
  7. Alex Woodie: Hadoop Has Failed Us, Tech Experts Say datanami.com. 13.3.2017. Viitattu 30.9.2021. (englanniksi)
  8. Nicole Hemsoth: Why the Fortune 500 is (Just) Finally Dumping Hadoop nextplatform.com. 17.2.2021. Viitattu 27.9.2021. (englanniksi)
  9. Alex Woodie: Cloudera CEO: Enterprise Data Cloud Vision Nearly Complete datanami.com. 8.12.2020. Viitattu 30.9.2021. (englanniksi)
  10. a b c Impala vs Hive: Difference between Sql on Hadoop components projectpro.io. Viitattu 27.9.2021. (englanniksi)

Kirjallisuutta[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]