Avoimuuden mittaaminen vaikeaa

Kaupungin avoimen datan tilannetta luulisi olevan helppo seurata ja mitata avattujen aineistojen kokonaismäärää katsahtamalla. Vaan onko se niin yksinkertaista? Mitä numerot kertovat meille? Mitä avoimen datan mittareilla halutaan seurata?

HRI:n numeeriset mittarit

HRI:n mittarit

  • avattujen tietoaineistojen kokonaismäärä
    • vuoden 2015 sitova tavoite: 1 200 aineistoa (tehtävä vähintään 50 uutta avausta / vuosi)
    • kaupunkitasolla jaotellaan paikkatietoihin, rajapintoihin ja muihin aineistoihin; seuranta myös virastoittain
  • aineistojen latausmäärät
  • hri.fi:n kävijämäärä
  • aineistojen pohjalta luotujen sovellusten määrä

Helsingissä avointa dataa ja Helsinki Region Infosharen toimintaa seurataan ja mitataan sekä HRI:n kotipesässä tietokeskuksessa että kaupunkitasolla kaupunginkanslian toimesta. Tällä hetkellä lasketaan avattuja tietoaineistoja, hri.fi-sivujen kävijöitä, aineistolatauksia sekä avatun datan pohjalta tehtyjä sovelluksia.

Kaupunkitasoisessa seurannassa avattujen tietoaineistojen määrää tarkastellaan paitsi kokonaisuutena myös virastoittain. Avoimet ohjelmointirajapinnat sekä paikkatietoaineistojen avaukset lasketaan erikseen.

Avausten määrä ei riitä mittariksi

Voisi luulla, että HRI:n etusivullakin oleva avattujen aineistojen kokonaismäärä kuvaisi hyvin datan avaamisen tilaa pääkaupunkiseudulla. Näin olikin HRI-palvelun alkutaipaleella – mitä enemmän avauksia, sitä laajemmalti avoimuuden ilosanoma oli kiirinyt. Avausten lukumäärä kertoi hyvin suoraan meidän tekemästämme työstä.

Avaamistyön edetessä pelkkä lukumäärän seuraaminen ei enää riitä. Avattujen aineistojen kirjo on laajempi kuin viitisen vuotta sitten. Kaikki tieto on toki arvokasta, mutta voidaanko samoilla mittareilla laskea ja vertailla pieniä Excel-avauksia ja laajoja, paljon työtä ja rahaa vaatineita rajapintoja?

Kuvakaappaus HRI:n etusivusta.
Avattujen aineistojen lukumäärän seuraaminen on helppoa, mutta ei havainnollisinta. Pelkkä kokonaissumma ei kerro esim. tehtyjen avauksien laajuudesta, sisällöstä, käytettävyydestä ja käytöstä.

Teemme tällä hetkellä töitä sen eteen, että aineistoja avattaisiin suurempina kokonaisuuksina ja rajapintojen kautta. Ajatuksena olisi tarjota niin uusia kuin jo aiemmin avattujakin aineistoja suurempina kokonaisuuksina. Tällöin aiemmin avattuja aineistoja tulisi voida myös poistaa – aineistoilla on elinkaarensa. Mutta miten mittarit sallivat sen? Miten kertoa mittarille, että samat aineistot tarjotaan käytön kannalta paremmassa muodossa osana suurempaa kokonaisuutta? Määrällisten mittarien rinnalle tarvittaisiin laadullisia mittareita.

Avoimen datan käytöstä kertova sovellusten määräkin on tulkinnallinen mittari. HRI:n sovellusgalleriassa esitellään tietoomme tulleet sovellukset, mutta oletettavasti sovelluksia syntyy enemmänkin. Lisäksi sovellukset ja visualisoinnit ovat vain yksi tapa käyttää avointa dataa. Miten mitataan datan muuta käyttöä? Sitä, että ihminen saa tarvitsemansa tiedon? Opetuskäyttöä, yhteiskunnallista vaikutusta?

Datan käytön mittaamista olisi mielenkiintoista laajentaa avoimen datan vaikuttavuuden mittaamiseen. Miten avoin data tehostaa julkishallintoa, miten paljon se tuo tuottoa liike-elämälle? Miten paljon avointa dataa käyttävät sovellukset hyödyttävät ihmisiä ja helpottavat arkea? Näihin kysymyksiin ei ole vielä olemassa vastauksia, eikä asiaa ole tutkittu. Käytännössä on pakko tehdä kyselytutkimus. Tosin syy-seuraussuhteita on vaikea mitata. Onko juuri datan avaaminen – ja missä määrin – johtanut vaikkapa kaupunkilaisten aktiivisempaan osallistumiseen tai liiketoiminnan kasvuun.

Mittarien lukumääriä tuijottaessa on myös hyvä muistaa, että harvasta asiasta saadaan täysin absoluuttisia vastauksia. Esimerkiksi HRI:n aineistojen latausmääristä selviää, monestiko aineisto on ladattu HRI:n sivuilta. Sen sijaan saman aineiston latauksia jotain muuta kautta (esim. avoindata.fi, Latuviitta) se ei kerro. Rajapinnoissa taas seurataan kyselyjen määrää, eikä se ole verrattavissa tiedostojen latausmääriin.

Muiden mittareita

Valokuva ihmisistä tapahtumassa tietokoneiden ja pöytien äärellä.
Tapahtumien ja niihin osallistuneiden ihmisten määrää seuraamalla ja mittaamalla voisi saada tietoa niin ihmisten kiinnostuksen kohteista kuin avoimen datan käyttäjien määrästäkin. Erityisesti aikasarjat olisivat kiinnostavia – niitä tosin on vaikeaa ellei mahdotonta saada takautuvasti.

Tarvetta mittarien monipuolistamiselle on selkeästi. Vaan mitä mitata ja miten? Tiedustelin kollegoiltani, millaisia mittareita heillä on käytössään. Vastaukset olivat pääosin tutun kuuloisia: muissakin suomalaiskaupungeissa ja valtiolla seurataan kävijöiden, aineistojen ja syntyneiden sovellusten määriä. Oulussa seurataan myös datatoiveiden määrää sekä Oulun avointa dataa koskevaa uutisointia. Tampereella mittaristoon kuuluvat myös erilaisten tapahtumien määrä sekä rajapintojen käyttöaste ja niiden kautta välitetyn datan määrä (Gt/kk).

Valtiovarainministeriö julkaisi maaliskuussa Avoimen tiedon vaikuttavuus -esitutkimuksen, jossa pohditaan pääosin talouden näkökulmasta myös avoimen datan vaikutusten seuraamista ja mittaamista. Siinäkin ehdotetaan, että avoimen datan tarjontaa ja käyttöä mitattaisiin avattujen aineistojen, kävijöiden ja syntyneiden sovellusten ja palvelujen määriä seuraamalla. Alkuun oikein hyviä mittareita, mutta miten jatkaa tästä syvempään analyysiin?

The Open Data Playbook for Government -oppaassa mennään mittareiden osalta jo hieman syvemmälle. Perusmittarien lisäksi siinä ehdotetaan muitakin tapoja mitata niin avatun datan määrää kuin sen käyttöä. Eri kokoisia avauksia voisi olla kätevämpi mitata tiedostokokojen kuin kappalemäärien kautta – tämä helpottaisi vertailuakin. Avatuista dataseteistä tulleiden kyselyjen tai palautteiden määrällä voitaisiin taas seurata käyttäjien kiinnostusta. (Suomessa palautetta tosin tulee todella vähän.) Datan laatua puolestaan voisi tarkastella erilaisten kriteerien kautta: noudattaako data standardeja ja onko se koneluettavassa muodossa ja ajantasaista.

Ehdotuksia tuleviksi mittareiksi

The Open Data Playbook for Governmentissa todetaan, että valittujen mittarien tulee olla sidoksissa omaan avoimen datan ohjelmaan. Ennen mittarien valitsemista tuleekin pohtia, mitä ongelmia dataa avaamalla halutaan ratkaista. Meidän HRI:ssa olisi myös hyvä miettiä, mitä asioita mittareilla halutaan seurata: HRI-tiimin työtä, HRI:n toimintaa, hri.fi:n käyttöä, datojen käyttöä vai avoimen datan vaikuttavuutta yleisemminkin.

Aineistojen ja kävijöiden kokonaismäärät on jatkossakin hyvä olla mittareina, mutta niiden rinnalle tarvitaan myös tarkentavia ja kokonaisuutta täsmentäviä seurantamenetelmiä. Miten nämä mittarit saisi toimimaan yhteen? Millainen kokonaiskuva pääkaupunkiseudun avoimen datan tilanteesta olisi mahdollista luoda mittarein? Tosin hienoa olisi myös, että mittarit olisivat yhtenevät kaikkien suomalaisten datanavaajien kesken.

Listasimme HRI-tiimin voimin ehdotuksia HRI:n tuleviksi mittareiksi:

  • avausten määrä vuosittain (ei kokonaissummana) – tavoitteeksi 20 dataa/vuosi?
  • avoimien ohjelmointirajapintojen määrä
  • käsin päivitettyjen aineistojen määrä (työlästä saada takautuvasti)
  • avattujen tiedostojen koko (mahdoton saada takautuvasti)
  • avatun datan laatu – miten? Tim Berners-Leen tähtiluokitus?
  • hri.fi:n / datasivujen kävijämäärät (Google Analytics)
  • aineistojen latausmäärät (klikkaukset / gigat) (Google Analytics)
  • yhteydenotot virastoihin (hankala mitata, ei saa takautuvasti)
  • viestintä: uutiskirje, artikkelit, some (työlästä saada takautuvasti)
  • järjestettyjen tilaisuuksien määrä (saa suuntaa-antavasti takautuvasti)
  • tilaisuuksiin osallistuneiden määrä (ei saa takautuvasti)
  • käyttäjätyytyväisyys; edellyttäisi säännöllistä ja samansisältöisenä pysyvää käyttäjäkyselyä (ei tehty aiemmin)
  • avatusta datasta saatujen palautteiden ja kommenttien määrä (vaikea / mahdoton saada takautuvasti)
  • datatoiveet -> toteutuneet / vastatut datatoiveet (toivottua dataa ei aina voi avata; meiltä on kysytty mm. henkilötietoja)

Jatkamme mittaripohdintojamme listan pohjalta. Aikasarjat myös takautuvasti olisivat tärkeitä, mutta kaikista asioista niitä ei valitettavasti voi saada. Kunhan pääsemme mietinnöistä mittaamiseen, on suunnitelmissa Oulun kaupungilta mallia ottaen julkaista HRI:n avoimen datan mittarit ja niiden taustalla oleva data niin ikään avoimena datana.

Miten sinä kehittäisit avoimen datan mittaamista ja ilmiön seurantaa? Millainen avoimen datan käyttöön liittyvä data olisi kiinnostavaa datan avaajan tai käyttäjän kannalta? Kommentoi, keskustele ja auta meitä kehittämään entistä monipuolisempia tapoja mitata avointa dataa ja sen vaikutuksia!