Rivitoimittajasta avoimen datan asiantuntijaksi 3/4
Avoin data on hyvä renki, mutta huono isäntä
Avoin data on pääosin koneluettavia taulukoita. Itse yllätyin siitä, kuinka paljon dataa tarvitsee siivota ennen sen käyttöä. Data voi sisältää turhia rivejä tai soluja, väliotsikoita, tarpeettomia sarakkeita ja pilkkuvirheitä. Visualisointiohjelmat eivät pysty lukemaan dataa oikein, ennen kuin kaikki turha on siivottu oleellisen tiedon joukosta pois.
Lähtökohtana kannattaa aina olla data siinä muodossa kuin se on ladattu. Muokattu data kannattaa tallentaa omaksi tiedostokseen. Jos taulukkoa tulee muokattua virheellisesti, alkuperäisestä taulukosta on helppo tarkistaa oikeat arvot.
Jos kyseessä on pitkä ja monimutkainen datan analysointi, kannattaa projekti kirjata kohta kohdalta ylös. Jos lopputulos ei näytä siltä miltä kuuluisi, omista muistiinpanoista voi nopeasti löytää kohdan jossa mentiin pieleen.
Avoin data on loistava lisä toimittajan työhön, mutta absoluuttinen totuus ei löydy taulukoista. Data tarvitsee sijoittaa kontekstiin oikein.
Ehkä tärkein ajatus avointa dataa käytettäessä on se, että avoin data on vain yksi toimittajan tietolähteistä perinteisten dokumenttilähteiden ja haastateltavien rinnalla. Numerot ja sarakkeet ovat vain numeroita ja sarakkeita. Niiden tulkinta voi olla subjektiivista ja virheet taulukossa voivat luoda virhetulkintoja datan merkityksestä.
Kun kyseessä on datajournalismi, tulisi omat tulkinnat datasta varmistaa vielä asiantuntijalta. Avoin data on loistava lisä toimittajan työhön, mutta absoluuttinen totuus ei löydy taulukoista. Data tarvitsee sijoittaa kontekstiin oikein. Toimittajan perustyötapoihin kuuluu tarkistaa sama tieto useammasta lähteestä. Tätä työvaihetta ei tule laiminlyödä myöskään avointa dataa käytettäessä.
Liikkeelle kannattaa lähteä hyvin yksinkertaisista visualisoinneista ja visualisointityökaluista. Kun oppii ymmärtämään näiden työkalujen toimintaperiaatteen, on helppo jatkaa monimutkaisempiin työkaluihin.
Helppokäyttöisimmät työkalut, kuten infogr.am, Many Eyes ja Tableau Public tekevät suurimman työn puolestasi. Valittavana on monenlaisia ulkoasuja, taulukoita ja grafiikoita. Ainut mistä sinun tarvitsee huolehtia, on datan siivoaminen.
Nämä työkalut vastaavat jo moneen tarpeeseen, mutta helppokäyttöisyys tuo mukanaan myös rajoituksia. Eri elementtien mukauttaminen ei pääsääntöisesti onnistu, vaan valmiista vaihtoehdoista tarvitsee valita sopivin.
Koska ohjelma ajattelee puolestasi, ei data sijoitu aina niin kuin toivoisit. Aina et voi valita mitkä arvot tulevat y-akselille ja mitkä x-akselille. Usein tästä tilanteesta kuitenkin selviää vaihtamalla esitystapaa.
Seuraavassa ja samalla viimeisessä blogitekstissäni käydään vielä tarkemmin läpi visualisointien tekemistä. Jos olet tähän asti lukenut, käytä vielä pieni hetki avoimen datan kokeiluun. Etsi HRI:n datahaulla itseäsi kiinnostava datapaketti ja klikkaa auki esimerkiksi infogr.am. Leiki ohjelmalla vaikka vain kahvitauon ajan. Koukkuun jää helpommin kuin luuletkaan!
Tekstin kirjoittaja Jasmina Savolainen on avoimeen dataan hurahtanut monimediatoimittaja. Hän opiskelee neljättä vuotta journalismia Turun Ammattikorkeakoulussa. Savolainen etsii datakokeiluidensa kautta uusia oivalluksia toimittajan työhön ja toivoo samalla avaavansa avoimen datan mahdollisuuksia myös muille.
Lue Jasmina Savolaisen Rivitoimittajasta avoimen datan asiantuntijaksi -blogisarjan muut kirjoitukset:
- 1/4: Tutustuminen avoimeen dataan alkaa
- 2/4: Avoimen datan merkitys ja olemus
- 3/4: Avoin data on hyvä renki, mutta huono isäntä
- 4/4: Miksi dataa pitää visualisoida?