Aineistojen yhdistely paransi datojen löydettävyyttä
Ryhdyimme HRI:ssa tämän vuoden alussa laajaan urakkaan, jossa jo avattuja pieniä aineistoja yhdistettiin suuremmiksi kokonaisuuksiksi. Tarkoituksena oli parantaa aineistojen löydettävyyttä sekä helpottaa kokonaisuuden hahmottamista ja ylläpitoa. Nyt tämä työ on saatu päätökseen.
Käyttäjälle aineistojen yhdistely näkyy paitsi helpommin löydettävinä aineistokokonaisuuksina myös aineistojen kokonaismäärän rajuna pudotuksena – aineistojen määrä väheni noin puoleen. Kyseessä on kuitenkin vain aineistojen lukumäärän, ei tarjolla olevan tiedon väheneminen – HRI:sta löytyy yhä kaikki jo avatut datat.
Ennen aineistojen yhdistelyä ja poistamista otimme HRI:sta talteen tietokantadumpin, jotta saamme senhetkisen tilanteen ja arvokkaan historiatiedon talteen.
Pienet tiedonmuruset osaksi suurempia kokonaisuuksia
Yhdistämisen kohteena olivat erityisesti HRI:n alkutaipaleella avatut Helsingin tilastollisen vuosikirjan 2009, Vantaan tilastollisten vuosikirjojen 2010 ja 2011 sekä Vantaan väestö -julkaisun pienet Excel-taulukot, jotka tuolloin oli avattu jokainen omana aineistonaan. Näitä aineistoja oli kaikkiaan viitisensataa. Nyt kunkin julkaisun tilastot on avattu vuosittaisina koosteina.
Monia muitakin aineistoja on yhdistetty toisiinsa. Esimerkiksi kaupungeittain aiemmin erikseen avatut liikennemeluvyöhykkeet löytyvät nyt koko pääkaupunkiseudun kattavana aineistona, sosiaalitoimen suoritetietoraportit on koottu yhteen aikasarjaksi, Helsingin terassit löytyvät nyt yleisten alueiden tapahtuma- ja maankäyttölupajärjestelmän rajapinnasta ja pysäköintilippuautomaatit pääkaupunkiseudun palvelukartalta. Lisäksi on poistettu päällekkäisyydet, kuten alkuun vuosittain avatut rakennusmaavarantoaineistot, jotka nyt löytyvät yhtenä koosteena.
Kokonaan pois HRI:sta päätyivät vain aineistot, jotka ovat jonkin muun tahon kuin pääkaupunkiseudun kaupunkien ylläpitämiä. Esimerkiksi yhteisöjen tuloverotuksen julkiset tiedot ja Metropolia Ammattikorkeakoulun avoimet aineistot löytyvät jatkossa valtion ylläpitämästä avoindata.fi:stä.
Yhtenäistämistyön ohessa on päivitetty lähes kaikki päivitystä kaivanneet aineistot. Osa päivityksistä on vielä työn alla, mutta valtaosa aineistoista on nyt ajan tasalla. Lisäksi aineistoja mahdollisuuksien mukaan muokattiin koneluettavaan muotoon. Myös aineistojen metadataa parannettiin, tarkastettiin, täydennettiin ja yhtenäistettiin erityisesti vuosia sitten avattujen aineistojen osalta. Kaiken kaikkiaan HRI:sta löytyy ajantasaisin tieto nyt aiempaa helpommin ja samantapaiset aineistot löytyvät haulla varmemmin.
Poistojen ja yhdistelyjen myötä osa HRI:n aineistolinkeistä rikkoutui. Näemme kuitenkin, että hyödyt ovat rikkoutuneiden linkkien aiheuttamia haittoja paljon suuremmat:
- dataportaalin tietosisältö on paremmin ja selkeämmin hahmotettavissa
- aineistot löytyvät nopeammin ja varmemmin
- tuoreimmat aineistot löytyvät varmemmin
- aikasarjat löytyvät helpommin
- päällekkäisyydet poistuivat
- manuaalisen työn (ja mahdollisten virheiden) määrä väheni, kun ylläpidettäviä aineistoja on vähemmän
Kysymyksiä matkan varrelta
Yhtenäistämistyön edetessä nousi esiin monenmoisia kysymyksiä. Onko käyttäjän kannalta aina parempi, että aineistot ovat suurina kokonaisuuksina, vai tulisiko jotkin aineistot tarjota pienempinä osasina? Onko esimerkiksi liikennevaloristeykset parempi pitää omana aineistonaan, vai viedä osaksi pääkaupunkiseudun palvelukarttaa? (Sinne ne nyt syksyllä kuitenkin menevät.)
Entä mitä tehdä sellaisten aineistojen kanssa, joita kaupunki on aiemmin ylläpitänyt, mutta joiden ylläpito on sittemmin siirtynyt muualle? Esimerkiksi Helsingin matkailijatilastoja on aiemmin kerännyt Helsingin kaupungin omistama markkinointiyhtiö Visit Helsinki, mutta viime vuodenvaihteessa niiden ylläpito siirtyi Visit Finlandille.
Tästä herää myös kysymys aineistojen elinkaaresta. Kuinka vanhat aineistot ovat vielä kiinnostavia tai tarpeellisia? Tulisiko vanhoja aineistoja, joiden ylläpito on päättynyt, poistaa tietyn ajan kuluttua? Vai onko niillä – ja millä niistä – myös historiallista arvoa? Arkistoidaanko avointa dataa?
Myös aineistojen muoto pohdituttaa yhä. Muokkasimme monia tilastoja koneluettavaan, rakenteiseen muotoon, mutta jäljelle jäi yhä liuta aineistoja, kuten kuutoskaupunkien varhaiskasvatus- ja sosiaalipalvelujen vertailut, joiden koneluettavaan muotoon saattaminen vaatii valtavan työn. Selvää on, että on parempi avata aineisto ei-rakenteisessa muodossa kuin jättää avaus tekemättä. Mutta milloin on tarpeen käyttää aikaa ja resursseja aineiston muokkaamiseen, milloin taas voi todeta, että aineiston pääasiallinen käyttötarkoitus on tiedon helppo ja nopea saaminen, eikä hyödyntäminen vaikkapa sovelluksessa?
Tuloksena selkeämpi ja helpommin ylläpidettävä kokonaisuus
Kaiken kaikkiaan koemme ja toivomme, että HRI:n datakatalogin sisältö on nyt kokonaisuudessaan paremmin hahmotettavissa. Metatietojen päivityksen ansiosta haku toimii entistäkin luotettavammin ja tuoreimmat aineistot löytyvät helpommin. Uusia aineistoja avattaessa kiinnitämme jatkossa entistä enemmän huomiota kokonaisuuksiin ja pohdimme, toimisiko aineisto paremmin osana suurempaa kokonaisuutta esimerkiksi palvelukartalla.
Datakatalogin ylläpito on helpottunut aineistojen määrän vähennyttyä. Ylläpitoa auttaa osaltaan myös kumppanikoodarien tekemä skripti, joka tarkistaa kuukausittain, ovatko aineistojen latauslinkit toimivia ja kaipaako jokin aineisto päivitystä. Saamme tiedon näistä sähköpostiimme ja näin pystymme varmuudella huolehtimaan, että kaikki linkit ovat ehjiä ja aineistot ajan tasalla.
Yhtenäistämistyötä tehdessä on tullut entistäkin selvemmäksi se, että avointen aineistojen määrä ei pidemmän päälle ole hyvä mittari kertomaan kaupungin avoimen datan tilanteesta. Tänä vuonna on avoimuuden saralla menty hienosti eteenpäin samalla, kun avoimien aineistojen määrä on pudonnut alle puoleen. Pohdinta avoimen datan sisältöä ja käyttöä kokonaisvaltaisemmin kuvaavista mittareista jatkuu yhä.