Ohje kyselydatojen avaamiseen

Kuva: Tussitaikurit.

HRI:n kautta on avattu jonkin verran kaupunkien oman toimintansa kehittämisen pohjaksi tekemien kyselyjen vastauksia. Kyselyjen vastaukset koneluettavassa muodossa ovat kiinnostavia datoja myös kaupunkien ulkopuolisille tahoille – saammekin aika ajoin niihin liittyviä datatoiveita.

Kyselyjen laatijat tiedustelevat välillä HRI:sta ohjeita, miten erilaisista kyselyistä kertyviä datoja voisi julkaista avoimena datana tietosuojaa vaarantamatta. Esimerkiksi mitä vastaajien taustatietoja saa julkaista tai kuinka paljon ja miten niitä tulee aggregoida ja anonymisoida sekä tuleeko avovastauksista poistaa tai muokata jotain ennen julkaisemista.

Olemme tähän ohjeistukseen koostaneet yhdessä Helsingin kaupungin tietosuojavastaavan kanssa asioita, joihin tulee tietosuojan näkökulmasta kiinnittää huomiota kyselyistä kertyvää dataa avattaessa.

On kuitenkin tärkeä huomioida, että jokainen kysely on erilainen, eikä täysin yksiselitteisiä ohjeita voida antaa. Jo kyselyssä saatujen vastausten määrä vaikuttaa siihen, kuinka tarkalla tasolla mm. vastaajien taustatietoja saa julkaista. Siksi tietosuojaan liittyvät asiat tulee käydä kaupungin tietosuojavastaavan kanssa tarkasti läpi myös kyselydataa avattaessa.

Saateteksti kyselyihin

Datan avaamisen näkökulmasta helpointa on, jos jo kyselyn saatetekstissä kerrotaan, että kyselyn anonymisoidut vastaukset tullaan julkaisemaan avoimena datana. Saatetekstin voi muotoilla seuraavasti:

”Kyselyn vastaukset tullaan julkaisemaan avoimena datana. Vastauksia muokataan niin, ettei yksittäistä vastaajaa voi tunnistaa (esim. nimi- tai osoitetiedot poistetaan). Lisäksi tekstejä tarvittaessa muokataan loukkaavan tai muutoin törkeän kielenkäytön osalta.”

Jos kyselyn saatetekstissä sanotaan, ettei kyselyn vastauksia käytetä muuhun kuin tiettyyn kaupungin sisäiseen käyttöön, ei vastauksia saa julkaista avoimena datana. Jos taas vastausten käyttötarkoitusta ei rajata saatteessa pelkästään sisäiseen käyttöön tai käyttötarkoituksesta ei ole mitään mainintaa, voidaan anonymisoidut vastaukset yleensä julkaista.

Vastaajien taustatiedot

Vastaajien taustatietoja julkaistaessa ohjenuorana on se, että kenenkään vastaajan henkilöllisyys ei saa tulla ilmi eli yksittäinen vastaaja ei saa tulla tunnistetuksi hänen vastaustensa perusteella. Jokaisessa vastausryhmässä tulee olla vähintään viisi, mutta mieluummin kymmenen vastausta. Vielä sittenkin tulee varmistaa, ettei vastauksia yhdistämällä nouse esiin yksittäisiä vastaajia.

Vastaajien antamista taustatiedoista avoimena datana kannattaa julkaista vain kyselyn kannalta olennaisimmat tiedot. Tietosuojan näkökulmasta on aina parempi, mitä vähemmän taustatietoja julkaistaan. Voi tehdä myös niin, että kyselyn kannalta olennaisimmat taustatiedot julkaistaan tarkemmalla ja muut taustatiedot karkeammalla tasolla.

Erityisiä henkilötietoryhmiä, joita ei tulisi koskaan julkaista avoimena datana – eikä välttämättä edes kysyä kyselyssä – ovat vastaajan uskonto, terveystiedot, ammattiliittoon kuuluminen, seksuaalinen suuntautuminen, synnyinmaa sekä etninen alkuperä.

Muiden henkilötietojen osalta tiedot kannattaa ryhmitellä riittävän karkealle tasolle. Esimerkiksi vastaajan tarkan iän voi muuttaa riittävän suuriksi ikäryhmiksi, äidinkielen vaihtoehdoiksi suomi / ruotsi / muu ja asuinalueen suuraluetasolle. Jos vastauksia on paljon, niin asuinalueessa voi käyttää myös peruspiiri- tai postinumeroaluetasoa.

Vastausten aikaleimojen julkaisemisella ei ole tietosuojan kannalta merkitystä.

Avovastaukset

Tietosuojan kannalta olisi parempi, jos kyselyssä olisi avovastausten sijaan vain rasti ruutuun -kysymyksiä. Avovastauksista voidaan tosin saada paljon mielenkiintoista tietoa, jota ei ehkä muuten osattaisi kysyä, joten monesti ne ovat kyselyissä tarpeellisia.

Kaikki avoimena datana julkaistavat avovastaukset on luettava aina huolellisesti läpi ennen avaamista. Avovastauksista on poistettava kaikki sellainen tieto, josta yksittäisen vastaajan voi tunnistaa. Poistettavia tietoja ovat esimerkiksi henkilön nimi- ja osoitetiedot, tarkka ikä ja muut henkilökohtaiset tiedot, kuten vaikka tieto henkilön perheestä, opiskeluista tai eläkkeellä olemisesta.

Välillä avovastauksia tulee muokata myös asiattoman kielenkäytön osalta. Yksittäiset, asiaan kohdistuvat kirosanat voi jättää vastauksiin, mutta keneen tahansa henkilöön kohdistuva nimittely, aggressiivinen kielenkäyttö ja kirosanat tulee poistaa. Myös kaikki rasistiset kommentit täytyy poistaa. Yleisellä tasolla ja neutraalisti ilmaistuina julkaistavissa avovastauksissa saa olla mainintoja seksistä, alkoholista ja huumeista. Yleisenä linjauksena voi ajatella, että jos avovastauksen kirjoitustyyli on sellainen, että se voisi olla esim. Helsingin Sanomien yleisönosastossa, niin sen voi julkaista myös avoimena datana.

Välillä avovastauksissa mainitaan julkisten henkilöiden nimiä. Tunnettujen henkilöiden nimet voi julkaista osana avovastausta erityisesti silloin, kun nimi on esitetty positiivisessa tai neutraalissa valossa (esim. “käyn M.A. Nummisen keikoilla”). Asiallista poliitikkoihin kohdistuvaa kritiikkiä saa julkaista poliitikon nimellä, mutta aggressiivinen tai törkeä kielenkäyttö on poistettava.

Monesti avovastauksista voi poistaa vain sen osan, jota ei voi julkaista, eli koko avovastausta ei tarvitse poistaa. Hyvä käytäntö on laittaa avovastauksen poistetun tekstin kohdalle merkintä poistamisesta sekä maininta poistamisen syy (esim. ”[poistettu yksityisyydensuojan vuoksi]” tai “[poistettu asiattoman kielenkäytön vuoksi]”).

Myös aineiston meta- eli kuvailutiedoissa on hyvä kertoa, miten kyselyn vastauksia on muokattu tai yleistetty ja miten poistetut kohdat on merkitty aineistoon. Avovastauksista metatiedoissa voi todeta esimerkiksi, että “avovastauksista on poistettu epäasiallinen kielenkäyttö ja tunnistettavat henkilötiedot” ja kertoa, miten poistetut kohdat on merkitty.

Avovastaukset voi yhdistää muun tyyppisten kysymysten vastauksiin, jos vastauksissa ei ole yhteyksiä kehenkään ihmiseen. Avovastauksia ja muita vastauksia yhdistäviä id-numeroita ei siis tarvitse poistaa, eikä avovastauksia tarvitse irrottaa muista vastauksista.