Tietoaineistojen yhdistely selkeyttää kokonaisuutta ja puolittaa aineistojen määrän
HRI:n alkutaipaleella datakatalogin ensimmäisiksi aineistoiksi avattiin mm. Helsingin tilastollisen vuosikirjan 2009 sekä Vantaan tilastollisten vuosikirjojen 2010 ja 2011 pienet Excel-taulukot kukin omana avauksenaan. Tällöin oli tärkeää saada kerralla enemmän sisältöä katalogiin niin avaamisen ja metadatoituksen opettelemisen kuin metadatakatalogi CKAN:in testaamisen vuoksi.
Sittemmin olemme todenneet, että aineistoja kannattaa jo pelkästään löydettävyyden vuoksi avata suurempina kokonaisuuksina. Esimerkiksi kaupunkien tilastolliset vuosikirjat on jatkossa avattu koosteina, mikä helpottaa datakatalogin kokonaisuuden hahmottamista ja aineistojen ja aikasarjojen löydettävyyttä.
Nyt tehtävässä yhdistämisurakassa alun yksittäisistä vuosikirja-aineistoista tehdään vuosikoosteet ja poistetaan katalogista yksittäiset vuosikirjataulukot. Samassa yhteydessä käydään läpi muutkin avatut aineistot ja mahdollisuuksien mukaan yhdistellään niitä. Esimerkiksi kaupungeittain erikseen avatut liikennemeluvyöhykkeet löytyvät jatkossa yhtenä koko pääkaupunkiseudun kattavana aineistona.
Työ on suunniteltu tehtäväksi tammikuussa 2016.
Käyttäjälle tämä näkyy paitsi helpommin löydettävinä aineistokokonaisuuksina myös HRI:n kautta avattujen aineistojen kokonaismäärän rajuna pudotuksena – aineistojen määrä tulee vähenemään noin puoleen nykyisestä. Kyseessä on kuitenkin vain aineistojen lukumäärän, ei tarjolla olevan tiedon väheneminen – HRI:sta löytyy jatkossakin kaikki jo avatut datat.
Yhdistämis- ja poistolistalla olevat aineistot
- Helsingin tilastollinen vuosikirja 2009 (293 aineistoa)
- Vantaan tilastollinen vuosikirja 2010 (166 aineistoa)
- Vantaan tilastollinen vuosikirja 2011 (166 aineistoa; tosin osin päällekkäinen vuoden 2010 vuosikirjan kanssa)
- Vantaan väestö -julkaisun pikkutilastot (n. 70 aineistoa)
- muutamia päällekkäisiä aineistoja
Poistojen ja yhdistelyjen myötä osa HRI:n aineistolinkeistä rikkoutuu.
Näemme kuitenkin, että hyödyt ovat haittoja paljon suuremmat:
- dataportaalin tietosisältö on paremmin ja selkeämmin hahmotettavissa
- aineistot löytyvät nopeammin ja varmemmin
- tuoreimmat aineistot löytyvät varmemmin
- aikasarjat löytyvät helpommin
- päällekkäisyydet poistuvat
- manuaalisen työn (ja mahdollisten virheiden) määrä vähenee, kun ylläpidettäviä aineistoja on vähemmän
- osaa poistettavista aineistoista ei enää ylläpidetä, vaan tuoreempi versio on avattu osana suurempaa kokonaisuutta (esim. Helsingin terassit löytyvät yleisten alueiden rekisteristä)
Ennen aineistojen yhdistelyä ja poistamista otamme HRI:sta talteen tietokantadumpin, jotta saamme senhetkisen tilanteen ja sinänsä arvokkaan historiatiedon talteen.
Osana projektia yhtenäistämme aineistojen metadatoja, viemme paikkatietoaineistoja geoserverille ja mietimme muidenkin aineistojen yhteydessä mahdollisimman monia käyttäjiä palvelevia jakeluformaatteja. Lisäksi päivitämme Helsingin avoimen datan mittareita kertomaan paremmin avoimuuden kokonaistilanteesta pääkaupunkiseudulla. Pelkästä avattujen aineistojen lukumäärän seuraamisesta on aika mennä kohti sisällön ja käytön kokonaisvaltaisempaa tarkastelua.