Työkaluja datan hyödyntämiseen

Suosikkityökaluni

Suosikkityökaluni-juttusarjassa avoimen datan hyödyntäjät kertovat, mitkä ovat heidän suosikkityökalujansa avoimen datan projekteissa.

Antti Ahola.

Antti Ahola + ArcGIS

Paikkatietoasiantuntija Antti Aholan suosikkityökalu ArcGIS:illä numerodata muuttuu kartoiksi niin töissä kuin vapaa-aikana.

Heidi Enho.

Heidi Enho + Power BI

Konsultti Heidi Enho innostui avoimen datan penkomisesta toden teolla, kun Power BI -ohjelma julkistettiin 2015.

Lue kaikki Suosikkityökaluni-jutut

Esimerkiksi näillä työkaluilla pääset alkuun datan hyödyntämisessä.

Datakatalogit

Näistä dataportaaleista löydät dataa avoimen datan sovelluksiisi.

Datan siivous ja analysointi

Ennen kuin pääset analysoimaan tai visualisoimaan dataa, kaipaa se usein muokkausta tai siivoamista. Päivämääräformaatit pitää muokata työkaluohjelmiston ymmärtämään muotoon, ja haluat ehkä poistaa itsellesi tarpeettomat kentät datasta. Vaikka pyrimmekin avaamaan laadukasta dataa, voi siinä olla vielä puutteita ja kirjoitusvirheitä. Työkaluja siivoukseen on monia.

  • Excel, Google Sheets, Open Office Tuttu taulukkolaskentaohjelma on helpoin työkalu ensimmäisiin avoimen datan projekteihin. Taulukkolaskennalla pääsee pitkälle tietoaineistojen siivoamisessa ja analyyseissä.
  • OpenRefine, entinen Google Refine, on taulukkolaskentaa monipuolisempi ohjelmisto datan siivoukseen. Sillä voi myös yhdistellä eri datalähteitä keskenään.
  • DataWrangler on interaktiivinen verkkotyökalu datan siivoukseen. Trifacta Wrangler on ohjelmiston asennettava kaupallinen versio. Sen ilmaisversiolla selviää sotkuisista CSV-, JSON-, teksti- ja Excel-tiedostoista.

Datan visualisointi

Numerodata herää eloon visualisointien avulla. Yksinkertaisimmillaan visualisointi on kaavion tuottamista valitusta tietojoukosta. Tähän riittää tavallinen taulukkolaskentaohjelma. Monimutkaisimmillaan visualisointi on interaktiivinen sovellus, jonka avulla käyttäjä voi tehdä itse juuri häntä kiinnostavia analyyseja.

  • Microsoftin Power BI -visualisointiohjelmisto jatkaa siitä mihin taulukkolaskennan kyvyt loppuvat. Jos valmiit tuotokset jakaa koko maailmalle, pärjää ohjelman ilmaisversiolla.
  • 2000-luvun alussa esitelty Tableau rakennettiin alun perin bisnesdatan penkomiseen. Tänään se on maailman johtava visuaalisen analytiikan ohjelmisto, jota monet dataharrastajat käyttävät esimerkiksi interaktiivisten visualisointien tekoon. Ilmaisversio Tableau Public edellyttää datan ja visualisointien jakamista kaikkien käyttöön.
  • RAWGraphs on täysin ilmainen, suoraan selaimessa toimiva nopea- ja helppokäyttöinen datan visualisointityökalu, joka ei vaadi lisenssiä tai asenteluja.

Paikkatieto-ohjelmistot

Paikkatieto-ohjelmat eivät ole enää vain ammattilaisten työkaluja. Avoimen paikkatiedon määrä on lisääntynyt huimasti, ja helppokäyttöisillä ilmaisohjelmistoilla omia paikkatietoanalyysejä pääsee tekemään kuka tahansa. HRI:n sivuille on koottu myös tarkempi ohjeistus paikkatietotyökaluista ja paikkatiedon hyödyntämisestä.

  • ArcGIS on paikkatieto-ohjelmistojen markkinajohtaja.
  • ArcGIS Online on selkeä ja helppokäyttöinen selainpohjainen paikkatietotyökalu.
  • QGIS on monipuolinen paikkatietojen käsittelyyn ja analysointiin soveltuva ohjelmisto. QGIS:siä voi käyttää käyttöjärjestelmästä riippumatta ja se lukee laajasti eri aineistoformaatteja niin kovalevyltä kuin tietokannoistakin.
  • CARTO on näppärä työkalu karttavisualisointien tekoon.

Dataa rajapinnoista tiedostomuodossa

Dataa pyritään avamaan koko ajan enemmän rajanpintojen kautta. Tällöin pystytään paremmin takaamaan, että data on yhtä ajantasaista kuin se on lähdejärjestelmässä. Kaikilla ei kuitenkaan ole mahdollisuuksia ja taitoja lukea dataa rajapinnoista.

  • Datasette-nimisen työkalun avulla voi rajapinnan kautta saatavilla olevaa dataa tarkastella selaimessa ja ladata CSV- tai JSON-tiedostona itselleen.
  • Datasette Lite on selaimessa pyöritettävä kevyempi versio Datasettestä. Litessa pystyy tarkastelemaan vain yhtä tietokantataulua kerrallaan.
  • Myös WFS- ja WMS_paikkatietorajapintojen kautta saatavissa olevaa dataa voi ladata itselleen tiedostomuodossa. Helsingin kaupunkimittaus on laatinut siihen selkeät ohjeet.

Ohjelmointityökalut

Vaikka valmisohjelmistot ovat entistä helppokäyttöisempiä, helpottavat koodaustaidot monia data-analyysin vaiheita.

  • R-kieli on tilastollinen ohjelmointikieli ja -ympäristö, jonka perustyökalut ovat ilmaisia avoimen lähdekoodin tuotteita. R on saatavilla monelle alustalle, Windowsille, Macille ja Linuxille.
  • Python on monipuolinen, tulkattava ohjelmointikieli. Siihen on saatavissa paljon ulkoisia moduleja ja kirjastoja.