Tietoaineistojen yhdistely selkeyttää kokonaisuutta ja puolittaa aineistojen määrän

Datojen löydettävyyden parantamiseksi ryhdymme tammikuussa 2016 laajaan urakkaan, jossa jo avattuja pieniä aineistoja yhdistetään suuremmiksi kokonaisuuksiksi. Yhdistelyn seurauksena HRI:n avoimien aineistojen lukumäärä putoaa suunnilleen puoleen nykyisestä. Vaikka aineistojen lukumäärä puolittuukin, mitään dataa ei poisteta, vaan samat datat tarjotaan jatkossa yhtenäisemmässä muodossa. Samalla aineistojen meta- eli kuvailutietoja täydennetään ja yhtenäistetään ja aineistoja jaetaan mahdollisuuksien mukaan useammassa eri formaatissa.

Valokuva legoista rakennetusta talon perustuksista.
HRI:n datakatalogin pienistä tiedostoista on tammikuussa 2016 tarkoitus rakentaa suurempia kokonaisuuksia, joista hahmottuu nykyistä paremmin avoimen datan ja kaupunkien kokonaiskuva.

HRI:n alkutaipaleella datakatalogin ensimmäisiksi aineistoiksi avattiin mm. Helsingin tilastollisen vuosikirjan 2009 sekä Vantaan tilastollisten vuosikirjojen 2010 ja 2011 pienet Excel-taulukot kukin omana avauksenaan. Tällöin oli tärkeää saada kerralla enemmän sisältöä katalogiin niin avaamisen ja metadatoituksen opettelemisen kuin metadatakatalogi CKAN:in testaamisen vuoksi.

Sittemmin olemme todenneet, että aineistoja kannattaa jo pelkästään löydettävyyden vuoksi avata suurempina kokonaisuuksina. Esimerkiksi kaupunkien tilastolliset vuosikirjat on jatkossa avattu koosteina, mikä helpottaa datakatalogin kokonaisuuden hahmottamista ja aineistojen ja aikasarjojen löydettävyyttä.

Nyt tehtävässä yhdistämisurakassa alun yksittäisistä vuosikirja-aineistoista tehdään vuosikoosteet ja poistetaan katalogista yksittäiset vuosikirjataulukot. Samassa yhteydessä käydään läpi muutkin avatut aineistot ja mahdollisuuksien mukaan yhdistellään niitä. Esimerkiksi kaupungeittain erikseen avatut liikennemeluvyöhykkeet löytyvät jatkossa yhtenä koko pääkaupunkiseudun kattavana aineistona.

Työ on suunniteltu tehtäväksi tammikuussa 2016.

Käyttäjälle tämä näkyy paitsi helpommin löydettävinä aineistokokonaisuuksina myös HRI:n kautta avattujen aineistojen kokonaismäärän rajuna pudotuksena – aineistojen määrä tulee vähenemään noin puoleen nykyisestä. Kyseessä on kuitenkin vain aineistojen lukumäärän, ei tarjolla olevan tiedon väheneminen – HRI:sta löytyy jatkossakin kaikki jo avatut datat.

Yhdistämis- ja poistolistalla olevat aineistot

  • Helsingin tilastollinen vuosikirja 2009 (293 aineistoa)
  • Vantaan tilastollinen vuosikirja 2010 (166 aineistoa)
  • Vantaan tilastollinen vuosikirja 2011 (166 aineistoa; tosin osin päällekkäinen vuoden 2010 vuosikirjan kanssa)
  • Vantaan väestö -julkaisun pikkutilastot (n. 70 aineistoa)
  • muutamia päällekkäisiä aineistoja

Poistojen ja yhdistelyjen myötä osa HRI:n aineistolinkeistä rikkoutuu.

Näemme kuitenkin, että hyödyt ovat haittoja paljon suuremmat:

  • dataportaalin tietosisältö on paremmin ja selkeämmin hahmotettavissa
  • aineistot löytyvät nopeammin ja varmemmin
  • tuoreimmat aineistot löytyvät varmemmin
  • aikasarjat löytyvät helpommin
  • päällekkäisyydet poistuvat
  • manuaalisen työn (ja mahdollisten virheiden) määrä vähenee, kun ylläpidettäviä aineistoja on vähemmän
  • osaa poistettavista aineistoista ei enää ylläpidetä, vaan tuoreempi versio on avattu osana suurempaa kokonaisuutta (esim. Helsingin terassit löytyvät yleisten alueiden rekisteristä)

Ennen aineistojen yhdistelyä ja poistamista otamme HRI:sta talteen tietokantadumpin, jotta saamme senhetkisen tilanteen ja sinänsä arvokkaan historiatiedon talteen.

Osana projektia yhtenäistämme aineistojen metadatoja, viemme paikkatietoaineistoja geoserverille ja mietimme muidenkin aineistojen yhteydessä mahdollisimman monia käyttäjiä palvelevia jakeluformaatteja. Lisäksi päivitämme Helsingin avoimen datan mittareita kertomaan paremmin avoimuuden kokonaistilanteesta pääkaupunkiseudulla. Pelkästä avattujen aineistojen lukumäärän seuraamisesta on aika mennä kohti sisällön ja käytön kokonaisvaltaisempaa tarkastelua.