Yhteentoimivuutta edistämässä

Kuva Jami Pekkasesta.
Jami Pekkanen kokeilee ja edistää HRI:n kautta avattujen datojen yhteentoimivuutta.

Millaisen näkymän kaupungin toimintaan saisi, jos erilaisia jo avattuja tietoaineistoja saisi yhdisteltyä aiempaa paremmin? Mikä voisi olla yhdistävä tekijä talouslukujen, tilastotietojen ja päätöksentekodatan välillä? Koodari Jami Pekkanen kokeilee ja edistää eri tietoaineistojen yhteentoimivuutta. Tavoitteena on saada laajempi kokonaiskuva kaupunkien toiminnasta.

Kesällä 2013 Helsinki Region Infoshare -palvelu palkittiin EU:n julkishallinnon innovaatiokilpailussa 100 000 eurolla. Palkintorahoilla on tarkoitus muun muassa edistää Helsingin kaupungin päätöksentekodatan yhteensopivuutta kaupungin muiden tietojen, kuten talous- ja paikkatietojen sekä tilastojen kanssa. Visiona on luoda kaupunkien toiminnasta laajempaa kokonaiskuvaa, jota esimerkiksi Ville Meloni maalailee artikkelissaan Läpinäkyvä kaupunki.

Käytännössä HRI:ssä ryhdyttiin tähän kahdella tavalla: kanavoimalla rahoitusta kehittäjäyhteisön hankkeisiin Datademo-nimisen rahoitusmallin kautta sekä palkkaamalla HRI-palveluun datojen yhteentoimivuutta kokeilevan ja edistävän koodarin. Tietotekniikkaa TKK:lla opiskellut, nyt yliopistolla kognitiotieteille väitöskirjaa tekevä Jami Pekkanen aloitti työnsä helmikuussa. Avoimen datan maailma on Jamille tuttua mm. Kansan muisti -projektin kautta.

Rajapinta tilastotietoihin

Kuvankaappauksessa on Helsingin keskustan alueita jaettu asuntokuntien tulojen mukaan.
Jami Pekkasen tekemä visualisointi Helsingin asuntokuntien tuloista.

Ensimmäisenä työnään Jami tarttui Helsingin kaupungin tietokeskuksen ylläpitämään Aluesarjat-tilastotietokantaan. Aluesarjoissa on tilastollisia aikasarjoja useista alueellisista ilmiöistä, kuten esimerkiksi asumisesta, työmarkkinoista ja väestöstä. Pisimmät väestöä koskevat aikasarjat alkavat vuodesta 1962.

Aluesarjoista on aiemmin saanut ladattua tiedot itselleen joko Excel-, CSV- tai PC-Axis-muodossa. Jamin työn tuloksena tietokantaan on nyt tarjolla myös avoin ohjelmointirajapinta, jonka kautta dataa saa ulos pienemmissä paloissa helppokäyttöisinä JSON-tietueina ja laajempina kokonaisuuksina tehokkaammissa JSON-stat- ja PC-Axis-muodoissa. ”Rajapinnan pääetu on se, että dataa voi suodattaa ja ryhmitellä suoraan rajapinnassa – tilastot saattavat sisältää satoja tuhansia rivejä tietoa, joten kaikkea tietoa ei enää tarvitse ladata itselleen”, kertoo Jami.

Jamin tekemän kevyen käyttöliittymän kautta kehittäjä pääsee omasta näkökulmastaan katsomaan, millaisia tilastoja Aluesarjoissa on tarjolla ja mitä ne sisältävät. ”Myöhemmin saman rajapinnan kautta voidaan tarjota myös muita tilastotietoja”, suunnittelee Jami.

Yhdistävä tekijä Aluesarjojen tilastojen ja muiden aineistojen välillä on sijainti. Aluesarjojen datassa on aluetunniste, jonka avulla tilastotietoja saa esitettyä alueittain vaikka kartalla. Jami on itse visualisoinut kartalla esimerkiksi Helsingin asuntokuntien tuloja.

”Olisi mielenkiintoista tutkia esimerkiksi, onko äänestyskäyttäytymisen ja vuositulojen välillä yhteyttä. Samoin kielivähemmistöt kiinnostavat”, pohtii Jami. ”Toivottavasti tilastoja ryhdytään penkomaan enemmän ja yhdistelemään tietoja muihin datasetteihin, kuten OpenAhjon päätöksentekodataan.”

Kohti suurempia kokonaisuuksia

Jami Pekkanen aikoo jatkokehittää Aluesarjojen rajapintaa yhdistämällä vielä eri kuntien samaa aihealuetta käsitteleviä datoja. Lisäksi hän suunnittelee, että rajapinnassa voisi suoraan tehdä yksinkertaisia laskutoimituksia, kuten keskiarvojen laskemista, sekä tarkastella arvojen muuttumista eri vuosina. Tilastorajapintaa on tarkoitus myös hyödyntää Maanmittauslaitoksen Oskari-alustalla karttavisualisointeihin ja maantieteellisiin analyyseihin.

Seuraavaksi Jami ryhtyy tutkimaan, miten Aluesarjojen dataa voisi yhdistää OpenAhjon päätöksentekodataan. Lisäksi hän suunnittelee kaupunkien budjettitietojen yhdistämistä tilastotietoihin. Sijainti lienee näissäkin yhdistävä tekijä.

Lähitulevaisuudessa kaupunkilaisen on ehkä mahdollista hakea vaikka oma lähikirjastonsa kartalta, tarkastella sen budjettia suhteutettuna alueen asukasmäärään ja väestötietoihin, saada tietoa kirjastoa koskevista päätöksistä jo niiden suunnitteluvaiheessa ja tutkia, millaiset kirjat ovat suurimmassa suosiossa hänen naapurustossaan. Kaikki tämä data on jo avoimesti erillisinä palasina saatavissa. Käyttämällä yhdistävänä tekijänä tässäkin tapauksessa sijaintia saadaan erillään olleista tiedoista luotua uudenlainen näkymä kaupungin palveluihin.