Datanavaaja visualisointikoulutuksessa

Kaupungit avaavat dataansa HRI:ssa, ja nopeimmillaan avausta seuraavana aamuna joku näppärä on tehnyt datasta näyttävän visualisoinnin. Vaan mitä kaikkea siinä matkan varrella tapahtuukaan? Miten avatusta datasta syntyy informatiivinen visualisointi? Olin kollegani Tanja Lahden kanssa kahden päivän visualisointikurssilla saamassa oppia aiheesta.

AaltoPron järjestämällä kurssilla oli tarkoitus perehtyä tehokkaan tiedon visualisoinnin periaatteisiin ja lyhyesti erilaisiin työkaluihin ja soveltaa saatuja oppeja käytännössä omaan dataan. Meillä on tietokanta pullollaan toinen toistaan hienompia ja mielenkiintoisempia datasettejä. Mikä niistä olisi se yksi, jota lähteä tarkemmin tarkastelemaan ja visualisoimaan? Mistä olisi meille ja muille mahdollisimman paljon hyötyä ja iloa?

Valinta oli lopulta hyvin helppo: Myös HRI:n CKAN-metatietokannan sisältö on julkaistu avoimena datana, ja siihen jos mihin meidän olisi hyvä perehtyä monipuolisemminkin. Siispä datat ulos sieltä ja visualisoimaan.

Helppoa! Otan vain CSV-muotoisen tietokantadumpin CKAN:ista ja aineisto on sitten siinä.

Tai sitten ei. Vastaan tuli merkistöongelmia, tietokannan ja SQL:n rajoituksia, eri CKAN-versioiden myötä eri formaatteihin tallentuneita tietoja ja meidän omia virheitä metadatoitusta tehdessä. Perjantai-ilta sujui rattoisasti datansiivoustalkoissa.

Matka visuaaliseen maailmaan

Musiikkitaustan omaavana datanavaajanörttinä minun ei ollut ihan helppoa sukeltaa vahvasti visuaaliseen maailmaan. Onko ymmärtäminen aina näkemistä? Hahmottaako ihmismieli asiat yleensä kuvina – tai vaikka väreinä? Minulle moni asia hahmottuu ääninä, esimerkiksi numerosarjat soivina melodioina, ilman visuaalisuutta. Mielenkiintoista.

Avainsanapilvi.
HRI:n aineistojen yleisimmät avainsanat pilvenä.

Totta on, että näkö on ihmisen aisteista vahvin. Suuriakin kokonaisuuksia on helppo hahmottaa yhdellä silmäyksellä, kunhan asia on esitetty havainnollisesti. Vaan mitä se edellyttää?

Visualisointi on työkalu, jolla sen katsoja voi itse kertoa tarinan. Visuaalisella esityksellä asiansa saa sanottua vahvasti ja mieleenpainuvasti, mutta huonoilla valinnoilla esitys voi olla mitäänsanomaton tai jopa harhaanjohtava. Tärkeimmät periaatteet hahmottuivat nopeasti, ja niin hyvät kuin huonotkin esimerkit innostivat kokeilemaan itse. Yksinkertainen on kaunista. Tosin pienikin interaktiivisuus houkuttaa staattista kuvaa enemmän kokeilemaan, tutkimaan ja leikkimään.

Käteviä työkaluja

Piiraskaavio HRI:n kategorioista.
Ei näin – piiraskaaviota on vaikea hahmottaa, jos siinä on yli 7 lohkoa.

Juuri opittujen hyvien periaatteiden siivittäminä ryhdyimme toisena kurssipäivänä tarkastelemaan ja visualisoimaan omaa dataamme. Pidättäydyimme aluksi tutussa ja turvallisessa Excelissä ja tarkastelimme datasettien määriä kategorioittain ja kunnittain sekä etsimme yleisimpiä avainsanoja. Tämä ei kuitenkaan tuntunut riittävän. Avainsanojen määrä pylväsdiagrammilla esitettynä näytti kuivalta, ja kategorioista tehty piiraskaavio oli vastoin juuri oppimiamme hyviä periaatteita.

Onneksi kurssilla oli esitelty monia muitakin visualisointityökaluja.

Erityisesti viehätyin Raw-nimiseen työkaluun ja teinkin sillä useampia pieniä visualisointeja. Raw’ssa on yksinkertainen verkkokäyttöliittymä, jonne data on helppo kopioida Excelistä ja jossa muutamalla klikkauksella saa jo jotain aikaiseksi. Mutta. Tässä erityisenä haasteena oli datan muoto ja siisteys. Sainkin jatkaa sinänsä siistiltä näyttävän datani siivoamista ennen kuin pääsin itse asiaan.

Tanja puolestaan kokeili Word It Out-nimistä niin ikään verkossa toimivaa työkalua, jolla saa tehtyä tekstistä sanapilviä. HRI:n avainsanoista muodostui tällä työkalulla kaunis sanapilvi, josta olisi samaisella työkalulla saanut edelleen teetettyä itselleen vaikka kahvimukin tai t-paidan.

HRI:n kategoriat.
…vaan ehkä mieluummin näin? Sama kategoria-data Raw’lla käsiteltynä ja laatikoin esitettynä. Pelkkiä pinta-aloja on helpompi vertailla keskenään.

Jos aikaa olisi jäänyt, olisi ollut mielenkiintoista kokeilla, kuinka kätevästi datan siivoaminen Open Refinellä olisi sujunut sekä tutustua Javascript-kirjastoihin ja Tableaun työkaluihin. Lisäksi olisin halunnut tarkastella HRI:ssa avattujen datasettien määriä kunnittain kartalla jollain paikkatieto-ohjelmalla, kuten MapInfolla tai QGIS:llä.

Oppeja datanavaukseen

Kaiken kaikkiaan oli mielenkiintoista päästä tutustumaan hieman syvällisemmin visualisoinnin maailmaan ja erilaisiin tapoihin niin hahmottaa kuin esittääkin tietoa. Vaikka HRI:ssa avattujen datojen visualisointiin ei omassa työssäni juurikaan ole aikaa, koin työnikin kannalta hyödylliseksi nähdä teoriatasolla, miten ja mitä ajatuksia mukaillen vaikka HRI:ssa avatuista aineistoista voi syntyä visualisointeja.

Monet työkalut olivat yllättävän helppoja käyttää – kunhan data vain oli oikeassa muodossa.

Datan siisteys ja se, mitä se oikeasti tarkoittaa, olikin yksi itselleni hyödyllisimpiä kurssin oppeja. Esimerkiksi Raw ei suvainnut datassa yhtäkään pilkkua. Pilkkuja tai ei, datan määrämuotoinen ja helposti muokattavissa oleva rakenne on selvästikin tärkeää. Tähän tulen varmasti kiinnittämään jatkossa vielä enemmän huomiota myös meidän oman CKAN-tietokannan sisältämän metadatan osalta.

Kurssin myötä myös huomasin, että tulen monesti sanoneeksi visualisoinnista ensisijaisesti, että se on kaunis. Minun tulee selvästikin laajentaa adjektiivivarastoani. Kuten Ben Shneiderman sanoo, ”visualisoinnin on tarkoitus tuottaa ymmärrystä, ei kuvia”. Informatiivisuus ajaa kauneuden edelle.

HRI:n datakatalogin metadatoilla saisi varmasti tehtyä vielä havainnollisempia esityksiä pääkaupunkiseudulla tarjolla olevasta avoimesta datasta. Miten sinä esittäisit avoimen datan metadataa? Kommentoi, keskustele, visualisoi!