Dataa kaikkien käyttöön?

Excel, CSV, pc-axis, Shapefile, KML, TAB, XML, JSON?? Erilaisten tiedostoformaattien kirjo on suuri, samoin avoimen datan käyttäjien. Miten ja missä muodossa dataa kannattaisi avata, jotta mahdollisimman moni pääsisi hyötymään siitä?

Miten avata dataa niin, että mahdollisimman moni pääsisi kädet savessa tutkimaan sitä?

HRI:n alkutaipaleella avasimme paljon pikkuisia Excel-tiedostoja. Avaukset olivat kokeilevia ensiaskelia avoimen datan maailmaan. Harjoituksia. Opettelimme itsekin. Opimme. Jokainen avaus tuntui pieneltä voitolta: jälleen jokin uusi taho oli ymmärtänyt, innostunut, halunnut kokeilla, lähtenyt siihen meidän kanssamme.

Ensimmäisiä paikkatietoaineistoja, dataa, johon liittyy sijainti, avasimme nelisen vuotta sitten. MapInfo-muodossa, Helsingin omassa koordinaatistossa, jossa Kallion kirkko on maailman napa. Opettelin samalla itsekin paikkatiedon perusteita. Facebookissa käytiin vilkasta keskustelua aineistoista sekä formaatti- että koordinaattimuunnoksista. Kollegan kanssa ilahduimme suuresta mielenkiinnosta. Ymmärsimme myös, että meidän tulee tehdä osa siitä muunnostyöstä, jota avoimen datan yhteisö teki. Helpottaa datan käyttöönottoa.

Huomasimme, että mitä laajempi aineisto, sitä enemmän se kiinnostaa käyttäjiä. Erityisesti paikkatietoon tartuttiin heti, kokeiltiin aineistoa ja epäsuomalaisesti jopa keskusteltiin siitä. Paikkatietoaineistoilla myös saatiin melko nopeasti tehtyä jotain näyttävämpää, toiminnallistakin.

Joitain rajapintoja oli auki jo HRI:n alkutaipaleella. Ne palvelivat parhaiten sovelluskehittäjiä ja niiden dataa hyödyntäen tehtiin useita arkea helpottavia kännykkäsovelluksia, kuten joukkoliikenteen reittioppaita. Mietimme, että muitakin datoja olisi hyvä saada auki suurempina kokonaisuuksina ja rajapinnan kautta.

Tähän suuntaan datan avaaminen on hienosti lähtenyt vähitellen menemään. Pienistä tiedonmurusista on alkanut rakentua suurempia kokonaisuuksia.

Olin hiljattain kertomassa avoimen datan ilosanomaa journalistiopiskelijoille. Heillä oli ongelmia löytämänsä datan kanssa. Eräs oli löytänyt Esri Shape -muodossa olevat liikennemeluvyöhykkeet. Hän oli googlannut, löytänyt maksuttoman QGIS-ohjelman, ladannut sen koneelleen. Saanut aineiston auki. Mutta sitten tuli kysymys: miten datasta löytää tarvitsemansa tiedon.

Toinenkin opiskelija viittasi. Hän ymmärsi hyvin, miksi dataa avataan rajapintojen kautta. Mutta miten hän ohjelmointitaidottomana saa sieltä tietoa? Kysymys ei ollut minulle uusi.

Joitakin paikkatietoaineistoja on jo avattu erilaisten karttapalvelujen kautta. Esimerkkinä Helsingin kaupungin yleisten alueiden rekisteri, jonka datat on saatavilla Helsingin kumppanikoodarien ylläpitämän geoserverin kautta. Geoserver konvertoi aineiston useampaan eri formaattiin ja tarjoaa aineiston WFS-rajapinnan kautta. Lisäksi kumppanikoodarit ovat tehneet geoserveriin kätevän esikatselun, jonka kautta maallikkokin pystyy tarkastelemaan aineistoa.

Ymmärrän hyvin, että HRI:n alkutaipaleella avatut pienet Excel-tiedostot eivät palvele sovelluskehittäjiä. Toisaalta myös Excel-tiedostoille on tarvitsijansa. Esimerkiksi taannoin eräs Excel-muodossa dataa avannut taho kyseli minulta neuvoa. Heiltä oli pyydetty avaamaan datansa myös CSV-muodossa, mutta heillä ei ollut aavistustakaan, mikä CSV on saati miten sellainen tehdään. Sama ongelma on varmasti vielä monilla käyttäjilläkin.

Avattava data on tärkeää tarjota useammassa eri formaatissa, jotta mahdollisimman moni käyttäjä pääsee hyödyntämään sitä. Rajapinta on kätevin tapa avata suuria kokonaisuuksia ja palvella sovelluskehittäjiä. Mutta pelkkä rajapintaratkaisu voi sulkea monia ulkopuolelle. Miten palvella heitäkin, miten tarjota data mahdollisimman laajalle käyttäjäkunnalle?

HRI:n ensimmäiset avaukset, ne pienet Excel-tiedostot, alkavat muodoltaan olla vähitellen historiaa. Datakatalogin suuressa tietomäärässä pienet tiedostot jäävät muiden jalkoihin, sekoittavat hakuja, pirstaloivat aikasarjoja. Tieto on hajallaan pieninä palasina, vaikeasti hyödynnettävissä.

Tätä ryhdymme ensi vuoden alkupuolella ratkomaan. Suunnitteilla on mm. pienten Excel-tiedostojen yhdistely ja päällekkäisyyksien poistaminen. Tämä tarkoittaa myös HRI:n avoimien aineistojen kokonaismäärän rajua pudotusta. Itse datasisältö ei häviä minnekään, jakelutapa vain on järkevämpi. Mietimme ratkaisuja, joilla palvella mahdollisimman monia ja joilla tarvittava tieto löytyisi nykyistä paremmin.

Opettelu jatkuu.

 

Missä muodossa sinä toivoisit dataa avattavan? Ovatko rajapinnat ratkaisu kaikkeen? Onko tuttu ja turvallinen (?) Excel hyvä formaatti, vai tulisiko siitä luopua kokonaan? Miten avata dataa mahdollisimman laajan käyttäjäkunnan saataville? Toivon, että tämä kirjoitus toimisi keskustelunavauksena, joten kommentoi, kerro meille mielipiteesi, osallistu, vaikuta. Oikeasti. Arvostamme mielipidettäsi.