OpenRefine

Wikipediasta
Siirry navigaatioon Siirry hakuun

OpenRefine, entiseltä nimeltään Google Refine ja sitä ennen Freebase Gridworks, on itsenäinen avoimen lähdekoodin työpöytäsovellus tiedon siivoamiseen ja muuntamiseen muihin muotoihin.[1] Se toimii vastaavalla tavalla kuin taulukkolaskentasovellukset (ja voi työstää taulukkolaskennan tiedostomuotoja). Se kuitenkin käyttäytyy enemmän kuin tietokanta.

Ohjelmiston toimintaperiaate[muokkaa | muokkaa wikitekstiä]

OpenRefine käsittelee tietorivejä, joissa on soluja sarakkeissa, samaan tapaan kuin relaatiotietokantojen taulukoissa. OpenRefinessa projekti koostuu yhdestä taulukosta. Käyttäjä voi suodattaa näytettäviä rivejä käyttämällä fasetteja, jotka määrittävät suodatuskriteerit (esimerkiksi näyttää rivit, jossa tietty sarake ei ole tyhjä). Toisin kuin taulukkolaskennassa, useimmat toiminnot OpenRefinessa tehdään kaikille suodatettuna oleville riveille: tietyssä sarakkeessa olevan tiedon muokkaus, uuden sarakkeen luominen perustuen olemassa olevan sarakkeen tietoihin, jne. Kaikki datasetissä tehdyt toimet tallennetaan ohjelmaan ja ne voidaan toistaa toiselle datasetille.

Toisin kuin taulukkolaskennassa, kaavoja ei tallenneta soluihin, vaan muuntaminen kaavalla tehdään kerran ja kaava tallennetaan myöhempää käyttöä varten.[2] Muuntamislausekkeet voidaan kirjoittaa General Refine Expression Language (GREL) -kielellä,[3] Jythonilla (eli Python) ja Clojurella.[4]

Ohjelmalla on web-käyttöliittymä. Se ei kuitenkaan ole verkossa isännöity (SAAS), vaan sen voi ladata vapaasti ja asentaa paikallisesti. Kun OpenRefine käynnistetään, se käynnistää web-palvelimen ja selainkäyttöliittymän, jolla palvelinta hyödynnetään.

Ohjelmiston mahdollisia käyttötapoja[muokkaa | muokkaa wikitekstiä]

  • Sotkuisen datan siivous: jos työstää esimerkiksi tekstitiedostoa, jossa on semi-strukturoitua dataa, sitä voidaan muokata käyttämällä muunnoksia, fasetteja ja klusterointia, jotta tiedot saadaan siististi jäsennellyksi.[5][6]
  • Tietojen muuntaminen: arvojen muuntaminen muihin muotoihin, normalisointi ja denormalisointi.
  • Tietojen jäsentäminen web-sivustoilta: OpenRefinessa on ominaisuus URL:n noutamiseksi, jsoup-HTML-jäsennin ja DOM-moottori.[7]
  • Datasetin rikastaminen hakemalla lisätietoa verkkopalveluista (eli jsonin palauttaminen).[8] Sitä voidaan käyttää esimerkiki osoitteiden geokoodaamiseen maantieteellisiksi koordinaateiksi.[9]
  • Tietojen yhdistäminen Wikidataan (perustuu vastaavaan Freebaselle kehitettyyn lisäosaan[10]). Keskeisenä tässä on rekonsiliaatio — vastaavien kohteiden löytäminen Wikidatasta datasetissä oleville tekstimuotoisille arvoille.[11]

Tuettuja tuonnin ja viennin tiedostomuotoja[muokkaa | muokkaa wikitekstiä]

Tuonti on tuettu seuraavissa muodoissa:[12]

  • TSV, CSV
  • Tekstitiedosto, jossa on mukautettuja erottimia tai sarakkeet erotellaan kiinteän leveyden perusteella
  • XML
  • RDF-tripletit (RDF/XML ja Notation3 -serialisointiformaatit)
  • JSON
  • Google Sheets, Google Fusion Tables[13]

Jos lähtötiedot ovat ei-standardissa tekstimuodossa, ne voidaan tuoda konaisina riveinä jakamatta sarakkeisiin, ja sarakkeet erotetaan myöhemmin OpenRefinen työkaluilla. Refine tukee arkistoituja ja pakattuja tiedostoja (.zip, .tar.gz, .tgz, .terva.bz2, .gz tai .bz2) ja se voi ladata lähtötiedostoja URL-osoitteesta. Kun käyttää verkkosivuja syötteenä, on mahdollista tuoda URL-osoitteiden luettelo ja Käyttää web-sivuja, kuten input, se on mahdollista tuoda luettelon Url-osoitteita, ja sitten vedota URL noutaa toiminto.

Vienti on tuettu seuraavissa tiedostomuodoissa:[14]

  • TSV
  • CSV
  • Microsoft Excel
  • HTML-taulukko
  • Vienti mallinemoottorilla. On mahdollista määritellä malline tietojen tulostamiseen esimerkiksi MediaWiki -taulukoksi.

OpenRefine -projektin voi viedä .tar.gz arkistona.

Historia[muokkaa | muokkaa wikitekstiä]

OpenRefine oli alkujaan Metawebin kehittämä Freebase Gridworks ja se on ollut saatavilla avoimena lähdekoodina tammikuusta, 2010 alkaen.[15] Google osti Freebasen kehittäjän Metawebin 16. heinäkuuta 2010,[16] ja  nimesi Freebase Gridworksin Google Refineksi 10. marraskuuta 2010, julkistamalla samalla version 2.0.[17] Alkuperäinen ohjelmoija David Huynh ilmoitti 2. lokakuuta 2012, että Google lopettaisi pian aktiivisen tukensa Google Refinelle.[18][19][20] Siitä lähtien ohjelmistokoodi on ollut siirtymävaiheessa avoimen lähdekoodin projektiksi nimeltä OpenRefine.[21]

Viitteet[muokkaa | muokkaa wikitekstiä]

  1. openrefine.github.com openrefine.org. Viitattu 21.8.2018. (englanniksi)
  2. Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation code.google.com. Viitattu 18 April 2012.
  3. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  4. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  5. Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data youtube.com. Viitattu 18 April 2012.
  6. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  7. Stripping HTML: Refine documentation wiki page code.google.com. Viitattu 18 April 2012.
  8. FetchingURLsFromWebServices wiki page: Refine documentation code.google.com. Viitattu 18 April 2012.
  9. Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation youtube.com. Viitattu 18 April 2012.
  10. Schema Alignment: Refine documentation wiki page code.google.com. Viitattu 18 April 2012.
  11. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  12. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  13. Changelog for 2.5 code.google.com. Viitattu 18 April 2012.
  14. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  15. https://code.google.com/p/google-refine/source/detail?r=2
  16. "Google Official Blog: Deeper understanding with Metaweb". Luettu 18 April 2012. 
  17. "Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers". Luettu 18 April 2012. 
  18. "[announcement the future of the Refine projects]". 
  19. "From Freebase Gridworks to Google Refine and now OpenRefine". 
  20. OpenRefine. OpenRefine. Retrieved on 2013-08-16.
  21. google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting. Code.google.com. Retrieved on 2013-08-16.

Ulkoiset linkit[muokkaa | muokkaa wikitekstiä]