Mitä on avoin data?

Avoimella datalla tarkoitetaan julkishallinnon, organisaatioiden tai yritysten tuottamaa tai niille kertynyttä julkista tietoa, joka on avattu rakenteisessa muodossa vapaasti ja maksutta kaikkien hyödynnettäväksi. Data on digitaalista raaka-ainetta: mm. tilastoja, taloustietoja, karttoja, kuvia, videotallenteita ja 3D-malleja.

Avoin data ei ole sama asia kuin julkinen tieto. Julkiseen tietoon kaikilla on pääsy, eli ihmiset pääsevät lukemaan tietoja esimerkiksi verkkosivuilta tai kaupungin kirjaamosta. Avoin julkinen tieto eli avoin data puolestaan tarkoittaa sitä, että kansalaiset ja yritykset voivat käyttää tietoja omiin tarkoituksiinsa tasavertaisesti julkishallinnon kanssa.


Kaupungeilla on valtavasti tietoa vaikkapa liikennemelusta, väestöennusteista, kirjastojen aineistoista tai ravintoloiden terasseista. Kun data on avointa, tietoja voi hyödyntää paljon laajemminkin kuin kaupungin omassa toiminnassa.

Avoimen datan kriteerit

Avoin data on julkista, koneluettavassa muodossa ja maksutta uudelleen käytettävissä, myös kaupallisesti.

Avoimen datan periaatteet: data on julkista, koneluettavassa eli rakenteisessa muodossa, lisensoitu kaupallisenkin uudelleenkäytön sallivalla lisenssillä sekä maksutonta.
Avoin data: julkista, koneluettavaa ja maksutonta.

1. Julkisuus

Datan on oltava julkista tietoa, jotta se voidaan avata. Kenenkään yksityisyydensuoja tai yleinen turvallisuus ei saa vaarantua dataa avattaessa. Datassa ei saa olla esimerkiksi henkilötietoja tai liikesalaisuuksia.

2. Koneluettavuus

Data on avattu sellaisessa muodossa, että sitä on helppo käsitellä tietokoneohjelmistoilla. Ihmisen on helppo lukea PDF-dokumenteissa tai HTML-sivuilla olevaa tietoa, mutta sitä on vaikea lukea ohjelmallisesti. Datan koneelliseen tarkasteluun ja hyödyntämiseen sopivat esimerkiksi CSV-, XLS- tai XML-muodot sekä erilaiset rajapinnat suoraan datalähteeseen.

3. Uudelleenkäytön sallivat lisenssiehdot

Datan avaaja sallii aineiston kaupallisenkin uudelleenkäytön ja kertoo sen selkeästi datan yhteydestä löytyvillä käyttöehdoilla eli lisenssillä. Käyttöoikeuksien selvittäminen – käyttöehtojen puuttuessa – voi monesti olla niin työlästä, että datan hyödyntämisestä luovutaan.

4. Maksuttomuus

Dataa voi käyttää maksutta. Maksuttomuus helpottaa erityisesti ensikosketuksen saamista dataan. Se mahdollistaa datan hyödyntämiseen liittyvät kokeilut ilman budjettibyrokratiaa.

Ymmärrettävyys ja löydettävyys

Edellä listattujen neljän kriteerin lisäksi datan rakenne ja merkitys pitää kuvata käyttäjille ymmärrettävästi. Kuvailu eli metadata auttaa käyttäjää hahmottamaan datan sisällön ja tulkitsemaan ja käyttämään dataa oikein.

Myös datan olemassaolon ja sijainnin tulee olla yleisesti tunnettu. Datan löydettävyys paranee, kun se lisätään se julkisiin datakatalogeihin. Pääkaupunkiseudun kaupunkien avaamat datat kootaan HRI:n datakatalogiin.

 

World Wide Webin isä Tim Berners-Lee kertoo kuuluisassa TED-puheessaan helmikuussa 2009, miksi datan avaaminen on WWW:n seuraava iso kehitysaskel.