Väestödatat kaikkien käyttöön

Materiaalit ja tallenne

Väestöön liittyvää tilastotietoa on kerätty pääkaupunkiseudulla vähintään 1800-luvulta saakka. Väestötilastoja on myös jaettu kaikkien käyttöön jo 1990-luvulta alkaen. Helsingin, Espoon, Vantaan ja Kauniaisten väestötiedot sekä HSY:n seudulliset tiedot ja Tilastokeskuksen koko Suomea koskevat tiedot olivat esillä joulukuussa 2021 järjestetyssä HRI Loves Developers: Väestötilastoja avoimena datana -kehittäjätapaamisessa. Lisäksi tilaisuudessa kuultiin henkilötietojen tietosuojasta sekä esimerkki avoimen väestödatan hyödyntämisestä. Tilaisuus tallennettiin, ja esitykset ovat saatavilla videotallenteena tämän artikkelin yhteydessä ja HRI:n Youtube-kanavalla.

Vuonna 1880 Helsingissä asui 36 346 henkilöä ja vuonna 1899 asukasmäärä oli jo tuplaantunut. Suomen itsenäistymisen vuonna 1917 helsinkiläisiä oli 161 911. Toisen maailmansodan loppuvaiheessa 1945 asukkaita oli 276 277, jonka jälkeen väkiluku lähti entistä hurjempaan kasvuun. Puolen miljoonan rajapyykki helsinkiläisten määrässä rikottiin ensi kertaa vuonna 1966. Kaikki nämä tiedot selviävät Aluesarjat-tilastotietokannasta ja tarkemmin Helsingin väkiluku 1.1.1875-1993 ja vuodenvaihteissa 1993/94-2013/14 -tilastosta.

Helsingin kaupungilla tilasto- ja tietopalvelupäällikkönä työskentelevä Ari Jaakola johdatteli osallistujia tapaamisen teemaan kertomalla, että tietoa väestön määrästä ja sen muutoksista kerätään mm. kaupungin toimintojen ylläpitoon ja suunnitteluun. Väestötilastojen avulla voidaan tarkastella eri alueiden väestökehitystä ja huomata mahdollisesti erilaisia kehityskulkuja. Pk-seudun kaupungit keräävät väestöstään tietoa pienemmiltä ja suuremmilta osa-alueilta, mikä mahdollistaa alueittaisen ja kartalla tapahtuvan tarkastelun.

Pk-seudun tilastotieto jatkossa entistä helpommin löydettävissä

Pääkaupunkiseutua koskevaa väestötietoa ja muuta tilastotietoa on koottu uudelle stat.hel.fi
-alustalle, joka julkaistaan virallisesti lähikuukausina. Alustasta kertoi tapaamisessa Helsingin kaupungilla tutkijana työskentelevä Claudia Bergroth. Alustan tietoja ylläpidetään yhteistyössä Helsingin, Espoon, Vantaan ja muiden Helsingin seudun kuntien sekä Uudenmaan liiton, HSY:n ja pohjoismaisten kaupunkien kanssa. Tietokokonaisuudet jakautuvat Aluesarjat-, Nordstat-, Hyvinvointitilastot– ja Ympäristötilasto-tietokantoihin.

Stat.hel.fi:n PxWeb-rajapinnan perustietoja

  • Rajapinnan käyttöohje
  • Linkki rajapintaan
  • Esimerkkikoodia datojen hakemiseen python-ohjelmointikielellä
  • Dataa saa ulos mm. seuraavissa formaateissa: csv, json-stat, px
  • Tilastojen teknisenä alustana toimii avoimen lähdekoodin alusta PxWeb, joka mahdollistaa käytön paitsi graafisen käyttöliittymän, myös rajapinnan kautta. Uusi alusta parantaa aineistojen löydettävyyttä ja toimii paremmin mobiilikäytössä sekä on entistä saavutettavampi. Myös tilastojen dokumentaatio on nyt paremmin löydettävissä laskeutumissivulla.

    Aluesarjojen käyttölogiikkaa on myös muutettu aikaisemmasta alueellisesta lähestymistavasta ilmiölähtöiseksi. Väestötilastoja voi siis lähteä tarkastelemaan valitsemalla ensin tilastoteeman, josta on kiinnostunut (esim. väestörakenne tai perheet). Vasta tämän jälkeen valitaan tarkastelun alueellinen tarkkuus, eli se, kiinnostavatko vaikkapa kuntien sisäisten pienempien alueiden tiedot vai koko kunnan kokoomatieto.

    Aluesarjat-tilastotietokannan sisältö on kuvattu hri.fi:ssä. Tietokannan metatiedot tullaan päivittämään uuden alustan julkaisun yhteydessä.


    Claudia Bergroth kertoi puheenvuorossaan stat.hel.fi-uudistuksesta sekä antoi vinkkejä tilastotietokannan käyttöön alkaen videon kohdasta 42:22. Myös Tilastokeskuksen Markku Huttunen kertoi vinkkejä samaisen PxWeb-alustan käyttöön puheenvuorossaan.

    Tilastojen keruualueet ja -menetelmät ovat muuttuneet vuosien saatossa

    Alueellisia väestötilastoja käytettäessä kannattaa huomioida, että tilastoinnissa on käytetty useampia erilaisia aluejakoja, jotka eivät ole kaikki keskenään yhteen sovitettavissa. Esimerkiksi tietyn alueen tulotason ja vaalien äänestystulosten yhteyden tarkastelu ei onnistu kitkatta, sillä tiedonkeruualueet eivät ole yhdenmukaiset. Alueellisia eroja syntyy myös tiedonkeruun pitkän historian kautta, sillä aluerajat ovat muuttuneet vuosien saatossa kaupunkien kasvaessa. Myös aineistonkeruumenetelmät ovat voineet muuttua.

    Yhtenä ratkaisuna muuttuvien aluejakojen dilemmaan on tarjottu säännöllisen ja muuttumattoman ruutuaineiston käyttämistä (esim. 250 m kertaa 250 m kokoiset ruudut). HSY:n paikkatietoasiantuntija ja avoimen datan vastaava Laura Lähteenmäki kertoi tapaamisessa pääkaupunkiseudun väestötietoruudukosta, joka sisältää juurikin säännöllistä ruutukohtaista tietoa pk-seudun väestömäärästä, ikäjakaumasta ja asumisväljyydestä. Väestötietoruudukko oli yksi HSY:n ensimmäisistä data-avauksista, ja se on ollut saatavana avoimena datana vuodesta 2011. Ruuduittain esitettävää paikkatietomuotoista väestötietoa on saatavilla vuosilta 1997-2003 sekä vuodesta 2008 eteenpäin. Dataa on HSY:n tietojen mukaan hyödynnetty mm. kaupunkisuunnittelussa sekä koulutus- ja harjoitusmateriaalina.

    Avointen väestödatojen kuten muidenkin avoimien datojen julkaisemista säätelevät useat lait ja asetukset, mm. tietosuojalaki, julkisuuslaki sekä EU:n yleinen tietosuoja-asetus, kertoi Helsingin kaupungin tietosuojavastaava Päivi Vilkki puheenvuorossaan. Kun puhutaan väestöstä, niin siihen liittyvät kiinteästi yksittäiset henkilöt, jotka muodostavat osia väestöstä ja lopulta koko väestön. Avoimen datan perusperiaatteena on, että yksittäiset henkilöt eivät saa tulla tunnistetuksi avoimena julkaistuista datoista. Väestödatojen osalta tietosuojasta huolehditaan varmistamalla, että luokiteltavat ja tarkasteltavat väestöryhmät ovat tarpeeksi suuria, jotta yksittäistä henkilöä ei voida tunnistaa. Esimerkiksi HSY:n koostamassa ja julkaisemassa väestötietoruudukossa tietosuojasta huolehditaan siten, että aineistosta on kokonaan poistettu ne ruudut, jotka sisältävät alle 5 henkilöä. Lisäksi vain niistä ruuduista, joissa on yli 100 asukasta, julkaistaan tarkemmat ikäjakaumatiedot.

    Väestöennusteita tekevät kunnat ja Tilastokeskus – ja sinä?

    Valtaosa väestötiedosta kootaan takautuvasti erilaisten rekisterien kautta. On kuitenkin olemassa väestötiedon tyyppi, jossa tarkastelussa on menneen tilanteen sijaan tulevaisuus: väestöennusteet. Helsingin kaupungilla erikoistutkijana työskentelevä Harri Sinkko kertoi tapaamisessa väestöennusteiden muodostamisesta pääkaupunkiseudulla. Helsinki, Espoo ja Vantaa tekevät itse omat ennusteensa, ja Kauniaisten sekä kehyskuntien ennusteet tehdään Tilastokeskuksella.

    Väestöennusteita tehdään, jotta palvelutarvetta, taloutta sekä rakentamista voitaisiin suunnitella ja seurata sekä suhteuttaa myös tulevaisuuden väestön tarpeisiin. Ennustetiedoista on hyötyä myös vaikkapa liikkumisen suunnittelussa. Ennusteessa pyritään ennakoimaan tulevien vuosien väestön ikä- ja sukupuolijakaumaa koko kaupungissa sekä osa-alueittain. Lisäksi ennusteessa ennakoidaan myös väestön kielijakaumaa. Väestöennusteet perustuvat oletuksiin demografisista ilmiöistä, kuten hedelmällisyydestä (syntyneet) ja kuolemanvaarasta (kuolleet) sekä muuttoliikkeestä. Lisätietoja väestöennusteiden muodostamisesta pk-seudulla saa myös vuonna 2015 hri.fi:ssä julkaistusta artikkelista.

    Väestöennusteet ovat saatavilla avoimen rajapinnan kautta sekä Pc-Axis-tiedostoina. Lisäksi koosteita on saatavilla csv- ja xlsx-muodoissa. Satoja rivejä sisältävät tiedostot saattavatkin olla vaikealukuisia ja hankalia hahmottaa. Tämän takia väestöennusteita on pyritty pääkaupunkiseudulla visualisoimaan kaikkien käyttöön. Vantaan kaupungilla työskentelevä Markku Pietinen kertoi tapaamisessa Digiajan väestöennustejärjestelmä kuntien talouden ja palvelutuotannon suunnittelun perustaksi -projektissa tehdystä PowerBI-visualisointityöstä. Hankkeen varsinaisena päätavoitteena on ennusteprosessin automatisointi ja nopeuttaminen, mutta myös ennusteen visualisoinnille on ollut tarve. Visualisointityön tavoitteena on ollut mahdollistaa selkeä, helppokäyttöinen ja nopea raportointi sekä kaupunkien työntekijöille että kaupunkiorganisaation ulkopuolisille käyttäjille. Tässä on Pietisen mukaan onnistuttu melko hyvin, ja valmiita visualisointeja julkaistaan kaupunkien verkkosivuilla vuoden 2022 alkupuolella.

    Väestöennusteita on kuitenkin mahdollista tarkastella visuaalisesti ja jopa generoida valitsemalla muuttujia jo olemassa olevassa palvelussa. Väestömetsä-väestöenustegeneraattorin on tehnyt harrastetyönään Tuomas Poukkula, joka päiväsaikaan työskentelee Turun kaupungilla datatieteilijänä. Poukkula esitteli tapaamisessa koneoppimiseen ja Tilastokeskuksen avoimeen dataan väestön määrästä perustuvaa sovellustaan. Sovellus voitti Tilastokeskuksen järjestämän ensimmäisen Datamenestyjät-kilpailun. Generaattorin avulla kuka tahansa voi luoda omia väestöennusteitaan pienellekin kunnille lähes automaattisesti.

    Kuvaaja on generoitu Väestömetsä-palvelussa. Oman ennusteen tarkastelun lisäksi palvelussa on mahdollista verrata ennustetta Tilastokeskuksen tekemään ennusteeseen.

    Tilastokeskus kerää ja julkaisee väestödataa koko Suomesta

    Tilastokeskuksella verkkopalvelukehittäjänä toimiva Markku Huttunen esitteli organisaationsa toimintatapoja ja julkaistua avointa dataa. Tilastokeskuksen julkaisemat tietotuotteet perustuvat rekistereihin, omaan tiedonkeruuseen sekä mm. big dataan. Tilastoja julkaistaan vuodessa n. 545 kappaletta. Tulevista julkaisuista kerrotaan julkistamiskalenterissa. Jokaisella tilastolla on oma pysyvä kotisivunsa, jolta näkee tuoreimmat tiedot ja metatietoa tiedonkeruusta, menetelmistä sekä tietolähteistä.

    Väestötilastojen keräämisessä ja julkaisemisessa on Suomessa pitkät perinteet: vuodesta 1750 alkava väestörakenne-tilasto on maailman pisin yhtenäinen väestötilasto. Väestömäärän lisäksi tilastointia tehdään väestön rakenteesta ja muutoksista, esim. syntyneistä, kuolleista, avioliiton solmineista sekä muuttoliikkeestä. Aihealueeseen liittyvät myös työssäkäynti-, perhe- ja asuntokuntatilastot sekä väestöennusteet.

    Tilastokeskuksen avointa dataa on saatavilla eri aiheista koko Suomea koskien. Aluejakoja ovat kunnat, postinumerolueet tai karttaruudut. Kaikki avoin data on lisensoitu CC BY 4.0 -lisenssillä.

    Yksi tuoreimmista julkaistuista kokonaisuuksista on keväällä 2020 koronapandemian vauhdittamana avattu Alueaikasarjat-tilasto, joka sisältää huomattavasti aikaisempaa enemmän muuttujia, yhteensä yli 400 erilaista. Tilasto tarjotaan osana Kuntien avainluvut -tilastointia, joka mahdollistaa väestötiedon vertailun kaikkien Suomen kuntien kesken. Toinen laajasti käytetty Tilastokeskuksen avoin data on Paavo-postinumeroalueet, joka avattiin kaikkien käyttöön vuonna 2015. Ajallisesti pitkälle historiaan ulottuvista väestötilastoista kiinnostuneille tutustumisen arvoinen lähde on Historiallisen tilastotiedon oppaan väestö -osio.

    Väestödatojen runsaudenpula aiheutti keskustelua: miten sovittaa tietoa yhteen?

    Tilaisuuden lopussa osallistujat pääsivät vielä keskustelemaan lyhyessä työpajassa. Työpajaa ei nauhoitettu mukaan tallenteeseen. Työpajassa osallistujat jaettiin kolmeen ryhmään, jossa sai vaihtaa ajatuksia liittyen väestöön liittyviin datatoiveisiin, väestödatojen käytössä ilmenneisiin ongelmiin sekä siihen, kaipaisiko jokin data täydennystä. Ideoita kerättiin Flinga-pohjalle, joka on edelleen nähtävissä.

    Yhdessä ryhmässä pohdittiin etenkin väestödatojen yhteentoimivuutta sekä datan suurta määrää: yksittäisen hyödyntäjän voi olla vaikea hahmottaa, mitä kaikkea väestöön liittyvää avointa dataa hän voisi hyödyntää. Yhteentoimivuutta etenkin aluejakojen aiheuttamien haasteiden tiimoilta voisi helpottaa eräänlainen data-avain, jonka avulla postinumeroalueittain ja osa-alueittain kerättyjä tietoja olisi mahdollista yhdistää. Helsingin ja Espoon asiantuntijoiden mukaan tämä voisi jossakin vaiheessa olla teoriassa mahdollista, mutta tietosisältö tulisi todennäköisesti olemaan tässä tapauksessa epätarkka.

    Suurta kiinnostusta osallistujissa herätti Claudia Bergrothin puheenvuorossaan esittelemä ja osana graduaan tekemä analyysi pk-seudun väestön olinpaikasta 24 tunnin aikana sekä arkisin että lauantaisin ja sunnuntaisin. Analyysin mobiilioperaattoreilta ostettu lähtödata on vuodelta 2018, ja moni osallistuja toivoi analyysin toistamista koronapandemian eri vaiheiden analyyseilla. Bergroth on tehnyt analyysin osana Helsingin yliopiston Digital Geography Labin tutkimusta. Tutkimusryhmä julkaisee pian analyysissä syntyneen datan avoimena sivuillaan. Voit lukea lisää analyysistä tästä aikaisemmin hri.fi:ssä julkaistusta artikkelista.