OpenSpending ja Helsingin tulot sekä menot 2009-2010

Luontevana jatkona tammikuussa 2012 avatulle avoimen datan portaalille The Data Hub Suomi tein projektin, jonka tarkoituksena oli viedä Open Knowledge Foundationin OpenSpending-alustalle Helsingin tulot ja menot vuosilta 2009-10. Edellytyksenä oli, että data oli saatavissa CSV-muodossa. Vuodenvaihteen tienoilla tämä data tulikin saataville ja löytyy Helsinki Region Infoshare -sivustolta: Helsingin kaupungin tulot ja menot. Data ei toiminut sellaisenaan ilman esikäsittelyä, mistä myöhemmin lisää.

Miksi?

Suomessa avoimen datan hyödyntämiseen ja visualisointiin on tarpeen saada kustannustehokkaita ja yhteisövetoisesti kehitettäviä avoimen ohjelmakoodin ratkaisuja, jotka ovat riittävän helppokäyttöisiä ja monipuolisia. Tärkeää on myös se, että me tavalliset kansalaiset koululaisesta data-ammattilaiseen pystymme muokkaamaan julkista dataa helpommin ymmärrettävään muotoon. Ideana olikin siis tutustua Helsinki Region Infoshare -datalla tähän työkalupakkiin, kerätä kokemuksia ja jakaa kokemukset yleiseen käyttöön.

Rahankäytön visualisointiin on jo olemassa erityyppisiä työkaluja, mutta erityisen mielenkiintoisen OpenSpendingistä tekee se, että se on toteutettu käyttäen samoja Open Knowledge Foundationin periaatteita kuin The Data Hub Suomi -portaalin CKAN-ohjelmisto. Lisäksi OpenSpending on yhteensopiva CKAN-ohjelmiston kanssa ja sen kehitys noudattelee samoja toimintaperiaatteita. Vaikka OpenSpending on vielä versiossa 0.11 (tätä kirjoittaessa tuli versio 0.12), niin se tarjoaa hyvinkin kattavan työkalupakin, josta alla listattuna tärkeimpiä. L

Yleiset ominaisuudet käyttäjille:

  • pyritään tekemään mahdollisimman helppokäyttöiset työkalut, joilla niin koululainen kuin kehittynyt datahakkerikin pystyy lukemaan ja tulkitsemaan talousdataa
  • vapaa sanahaku kaikkeen talousdatassa jne. olevaan tekstitietoon
  • erityyppiset visualisointinäkymät (tällä hetkellä puu- sekä kuplatyyppiset näkymät)
  • listanäkymät, joista voi myös helposti vertailla arvoja (esim. eri vuosien toteumia)

Ominaisuudet ylläpitäjälle:

  • CSV-muotoisen datan testaaminen ja tuonti
  • data-aineiston perusmetatietojen (otsikko, rahayksikkö, kuvaus, maa ja kieli) hallinta
  • dimensioiden ja mittarien määrittely JSON-muotoiseksi tiedostoksi
  • datan visualisointinäkymien määrittely JSON-muotoon

Mitä tehtiin?

  • käyttöliittymäkäännöksien ensimmäinen versio suomeksi (löytyvät Transifex-palvelusta ja ovat jo mukana uusimmassa (0.12) versiossa)
  • CSV-tiedoston esikäsittely ja siivous sopivaksi OpenSpendingiin. Tämä vaati mm. puolipisteillä erotetun datan muuttamisen pilkuilla erotetuksi sekä tiedoston lopussa olevan viimeisen summarivin poistamisen. Tässä vaiheessa jouduttiin myös skandimerkit poistamaan, kunnes saadaan selvitettyä OKF:lta, millä tavoin tiedosto pitää enkoodata.
  • JSON-muotoisen data mapping -tiedoston määrittely dimensioiden, mittarien sekä näkymien visualisointia varten
  • manuaalinen tarkistus / pistokokeita sille, että visualisoitu data vastaa alkuperäistä CSV-dataa

Alla on ruutukaappaus tietoaineiston päähallintanäkymästä. Näkymässä voi testata CSV-tiedoston toimivuuden, tehdä testilatauksen datalle, lukea datan sisään OpenSpending-tietokantaan ja julkaista tai poistaa datan tai data-aineiston. Dimensiot & mittarit -näkymässä määritellään CSV-sarakkeiden datan mäppäys JSON-muodossa OpenSpending-dimensioiksi. Visualisoinnit-näkymässä luodaan JSON-muotoinen määrittely eri näkymille / tasoille, ja Metatieto-näkymästä hallitaan aineiston perusmetatietoja kuten rahayksikkö, maa, kieli ja aineiston kuvaus.

OpenSpendingin ylläpitäjän päähallintanäkymä, jossa on auki Helsingin tulot ja menot -aineisto.

Datan visualisoinnit

Kun data saatiin yrityksen ja erehdyksen jälkeen ladattua sisään ja JSON-mallit luotua, alkoikin jotain jo näkyä. Koska tämän datan suhteen täytyy vielä tehdä tarkistuksia ja saada esimerkiksi skandimerkistöt datassa toimimaan, niin otin tähän muutaman kuvankaappauksen visualisoinneista. Online-julkaisua ei vielä tällaisena kannata tehdä.

Huom: Numeerinen tieto ruutukaappauksissa saattaa olla vielä virheellistä. Ideana on vain näyttää, minkälaisia näkymiä OpenSpending tarjoaa.

Alla olevassa kuvassa on perusvisualisointi, joka näyttää pinta-aloina ko. porautumistason menot. Mikäli ko. tasolla on myös tuloja, ne näkyvät taulukossa negatiivisena, mutta niitä ei näy visualisoinnissa. Klikkaamalla suorakaiteita pääsee aina porautumaan syvemmälle ja tulee vastaavanlainen näkymä. Riippuen alkuperäisdatan ”syvyydestä” voidaan tasoja luoda haluttu määrä.

OpenSpending: Datavisualisointi, joka näyttää pinta-aloina kyseisen tason taloustiedot.

Toinen vaihtoehtoinen visualisointitapa on luoda ”kuplapuu”-visualisointi drag&drop-hengessä ja valita näytettävät dimensiot. Tässä alla on malli. Samalla tavalla kuin edellä, kuplia klikkaamalla päästään aina porautumaan syvemmälle (riippuen tietenkin, kuinka syväksi porautumisen on määritellyt).

OpenSpending: Kuplavisualisointi, jossa taloustiedot näkyvät eri kokoisina ympyröinä.

Mitä seuraavaksi?

Online-versio Helsinki tulot/menot 2009-2010 -datasta julkaistaan heti, kun tarvittavat korjaukset ja varmistukset datan osalta on saatu tehtyä. Sen jälkeen kuka tahansa pääsee tutkimaan ja selaamaan dataa vapaasti.

Muun muassa Jyväskylään ja Tampereelle on muutaman aktiivin toimesta tehty tietopyyntöjä, jotta kaupunkien talousdataa saataisiin vastaavanlaisessa muodossa kuin Helsingistä on saatu. Tämän jälkeen olisi olemassa jo kolme esimerkkiä Suomen kaupungeista, mikä olisi varmasti hyvä ponnahduslauta tehdä kaupunkien tulot/menot -datanavauksia/visualisointeja laajemminkin.

Kirjoittaja: Henri Ahti

Henri Ahti on Emobit Oy:n toimitusjohtaja/konsultti, joka on toiminut useamman vuoden ajan aktiivisesti Open Knowledge Foundationin toiminnassa sekä avoimen datan hankkeissa. Hän on perehtynyt mm. CKAN- ja OpenSpending-ohjelmistoihin.