Mitä on avoin data?

Avoimella datalla tarkoitetaan julkishallinnon, organisaatioiden tai yritysten tuottamaa tai niille kertynyttä julkista tietoa, joka on avattu rakenteisessa muodossa vapaasti ja maksutta kaikkien hyödynnettäväksi. Data on digitaalista raaka-ainetta: tilastoja, taloustietoja, karttoja, kuvia, videotallenteita ja 3D-malleja.

Avoin data ei ole sama asia kuin julkinen tieto. Julkiseen tietoon kaikilla on pääsy, eli ihmiset pääsevät lukemaan tietoja esimerkiksi verkkosivuilta tai kaupungin kirjaamosta. Avoin julkinen tieto eli avoin data puolestaan tarkoittaa sitä, että kansalaiset ja yritykset voivat käyttää tietoja omiin tarkoituksiinsa tasavertaisesti julkisen hallinnon kanssa.


Kaupungilla on valtavasti tietoa vaikkapa liikennemelusta, väestöennusteista, kirjastojen aineistoista tai ravintoloiden terasseista. Kun data on avointa, tietoja voi hyödyntää paljon laajemminkin kuin kaupungin omassa toiminnassa.

Avoimen datan kriteerit

Avoin data on julkista, koneluettavassa muodossa ja maksutta uudelleen käytettävissä, myös kaupallisesti.

Avoin data: julkista, koneluettavaa ja maksutonta.

1. Julkisuus

Datan on oltava julkista tietoa, jotta se voidaan avata. Kenenkään yksityisyydensuoja tai yleinen turvallisuus ei saa vaarantua dataa avattaessa. Datassa ei saa olla esimerkiksi henkilötietoja tai liikesalaisuuksia.

2. Koneluettavuus

Data on avattu sellaisessa muodossa, että sitä on helppo käsitellä tietokoneohjelmistoilla. Ihmisen on helppo lukea PDF-dokumenteissa tai HTML-sivuilla olevaa tietoa, mutta sitä on vaikea lukea ohjelmallisesti. Datan koneelliseen tarkasteluun ja hyödyntämiseen sopivat esimerkiksi CSV-, XLS- tai XML-muodot sekä erilaiset rajapinnat suoraan datalähteeseen.

3. Uudelleenkäytön sallivat lisenssiehdot

Datan avaaja sallii aineiston uudelleenkäytön ja kertoo sen selkeästi datan yhteydestä löytyvillä käyttöehdoilla. Käyttöoikeuksien selvittäminen – käyttöehtojen puuttuessa – voi monesti olla niin työlästä, että datan hyödyntämisestä luovutaan.

4. Maksuttomuus

Dataa voi käyttää maksutta. Maksuttomuus helpottaa erityisesti ensikosketuksen saamista dataan. Se mahdollistaa datan hyödyntämiseen liittyvät kokeilut ilman budjettibyrokratiaa.

 

Näiden neljän kriteerin lisäksi datan rakenne ja merkitys pitää kuvata käyttäjille ymmärrettävästi. Kuvailu eli metadata auttaa käyttäjää hahmottamaan datan sisällön ja tulkitsemaan ja käyttämään dataa.

Myös datan olemassaolon ja sijainnin tulee olla yleisesti tunnettu. Datan löydettävyyttä parantaa kun se lisätään se julkisiin datakatalogeihin. Pääkaupunkiseudun kaupunkien avaamat datat kootaan HRI:n datakatalogiin.

 

World Wide Webin isä Tim Berners-Lee kertoo kuuluisassa TED-puheessaan helmikuussa 2009, miksi datan avaaminen on www:n seuraava iso kehitysaskel.