Avointa tietoa Suomesta monilla kielillä

Valtaosa HRI:n kautta avatuista datoista on numeerisia tai paikkatietoa. Tilastoja, taulukoita, koordinaattipisteitä, karttoja. Vaan entä jos avattavana onkin valtava tekstimassa? Ja vieläpä useilla eri kielillä? Missä muodossa tekstisisältö kannattaisi avata? Mitä kaikkea sillä voisi tehdä? Tätä pohdittiin avoimen datan avokonttorissa 14.4.2016, kun Infopankki esitteli palveluaan ja kertoi datanavaussuunnitelmistaan.

Infopankki.fi-sivusto tarjoaa rutkasti tietoa Suomesta maahan muuttavan omalla kielellä.

Helsingin kaupungin ylläpitämään Infopankki.fi-verkkopalveluun suunnitellaan avointa rajapintaa. Infopankki.fi on monikielinen verkkosivusto, joka kokoaa yhteen tärkeää tietoa Suomeen muuttoa suunnittelevalle tai täällä jo asuvalle maahanmuuttajalle. Sivusto palvelee myös viranomaisia monikielisessä tiedotuksessa.

Infopankista käyttäjä löytää omalla kielellään luotettavaa tietoa Suomeen muutosta, työstä, opiskelusta, asumisesta, koulutuksesta, terveydestä, perheestä, ongelmatilanteista ja vapaa-ajasta. Palvelun kolmisensataa sisältösivua tarjotaan 12 eri kielellä. Infopankin tiedottaja Helena Ikäheimo kertoo, että sivuilla oli viime vuonna yli 1 250 000 käyntiä, mikä on huikea määrä kävijöitä asiapohjaiselle sivustolle. Palvelun käyttäjistä puolet tulee Suomesta, puolet ulkomailta. Suosituimmat kielet ovat suomi, englanti, arabia, venäjä ja espanja (3/4 kaikista kävijöistä), pienimmät somali ja kiina. Eniten käyttäjiä kiinnostaa Suomeen muutto, työ ja yrittäjyys, perhe ja perustieto Suomesta.

Suunnitelmissa rajapinta

Nyt Infopankin laajaan tekstisisältöön on suunnitteilla avoin ohjelmointirajapinta. Tavoitteena on saada rajapinnan ensimmäinen versio julki tämän vuoden loppuun mennessä. Rajapinta mahdollistaisi esimerkiksi eri kieli- ja kohderyhmille suunnattujen sovellusten tekemisen. Tekstipohjaisen sisällön avaamisessa tulee kuitenkin vastaan kaikenlaisia kysymyksiä. Haasteita tuottaa mm. tekstien metadatoittaminen sekä sisällön saattaminen rakenteisempaan muotoon.

Ville Myllys Innofactorista esittelee Infopankin teknisiä ratkaisuja. Uutta rajapintaa suunnitellessa lähes kaikki on mahdollista, ja käyttäjien toiveita on helppo huomioida.

Konepellin alla Infopankki.fi-sivuston tekstisisällöt ovat sivukohtaisina XML-dokumentteina. Vaikka Infopankin sisällön kieliversioissa on kappalekohtainen vastaavuus ja sama rakenne, ei tekstejä tällä hetkellä saa ulos järjestelmästä kappaleittain, kertoo Ville Myllys Innofactorista, jonka Prime-alustalle Infopankin sivut on tehty. Primeen ei ole vielä tehty rajapintaa, joten Infopankin rajapinnasta voidaan tehdä käyttäjien toiveiden mukainen, lupaa Myllys. Myös kaksisuuntainen rajapinta on mahdollinen, jos sellaiseen on tarvetta.

Lähes kaikki kuulostaakin olevan mahdollista – XML:ään voi lisätä avainsanoja, tekstiä pystyy metadatoittamaan kappalekohtaisesti ja XML-tiedostot voidaan tehdä kappalekohtaisiksi, jos tarvis. Primessa on sisäänrakennettu haku, joka osaa etsiä kaikista XML-dokumenteista joko ingresseistä tai koko tekstistä. Sanojen eri taivutusmuotoja se tosin ei löydä. Suunnitteilla on aluksi tehdä pienin toimiva ratkaisu – JSON on varmaan järkevin vaihtoehto – ja lähteä kehittämään sitä eteenpäin saadun palautteen perusteella.

Käyttötarpeita laidasta laitaan

Maahanmuuttoviraston viestintäsuunnittelija Eini Perttilä on kiinnostunut Infopankin tulevasta rajapinnasta. Maahanmuuttoviraston migri.fi-palvelu tarjoaa Suomeen muuttaville ihmisille suomeksi, ruotsiksi ja englanniksi tietoa mm. oleskeluluvista, turvapaikka-asioista sekä Suomen kansalaisuudesta. Infopankin sisältöä voisi käyttää migri.fi-palvelussa mm. turvapaikan hakemiseen liittyvän tiedon tarjoamisessa käyttäjän omalla kielellä. Myös kotoutumiseen liittyvälle tiedolle, kuten asunnon ja työpaikan hakeminen, on tarvetta.

Infopankin Helena Ikäheimo on tyytyväinen avokonttorin antiin. “Avokonttori oli loistava keino huomioida kehittäjäkokemus rajapinnan rakentamisessa jo ennen määrittelyn aloittamista. Tapahtumassa oli mukavan rento ja keskusteleva ilmapiiri, suosittelen lämpimästi!”

Infopankin sisältö kiinnostaa myös startup-yrittäjää. Esa Heiskanen Alberga Software Oy:sta toivoo saavansa Infopankin sisällön käyttöönsä asiasanoitettuna ja strukturoituna tekstinä, jotta sisältöjä pystytään tarjoamaan kohdennetusti maahanmuuttajlle ja pakolaisille suunnatussa mobiilisovelluksessa. Hän pitää tärkeänä erilaisia hakuominaisuuksia ja hakua paitsi asiasanoilla, myös puhekielellä. Tässä voisivat myös ontologiat olla avuksi.

Myös muut avokonttoriin osallistuneet keksivät Infopankin sisällöille paljon erilaisia käyttötapauksia. Avokonttorin workshop-osuudessa ideoitiin maahanmuuttajan palvelupolkua, eri kohderyhmille (kuten lapsiperheille) suunnattuja palveluja, sanastoupotuksia eri sivustoille sekä sisältöjen käyttöä kielten opiskelussa. Keskustelua käytiin myös tekstisisällön avaamisesta lukutaidottomille puhesyntetisaattorin avulla sekä kotoutujalle suunnatusta kustomoidusta palvelusta, johon voitaisiin tuoda myös hänen omia tietojaan. Konekääntämistä tarjoaville palveluille olisi hyötyä koko tekstisisällöstä – tällöin koko Infopankin sisältö tulisi saada kertalatauksena omaan käyttöön.

Infopankin sisältöihin voisi myös yhdistä monenmoista dataa ja siten tuottaa laajempia palveluja niin maahanmuuttajille kuin Suomessa jo asuville. Workshopissa ideoitiin mm. Infopankin ylläpitämän finnishcourses.fi-sivuston, työväenopistojen ilmonet.fi-palvelun sekä te-toimistojen kotoutumiskurssien ja kielikurssien tietojen tuomista yhteen palveluun. Myös terveyspalveluihin liittyvät tiedot, tonttien saatavuus, ympäristöaiheet sekä erilaiset tilastot, kuten väestömäärät ja työllistyminen, voisivat olla mielenkiintoista sisältöä maahanmuuttajille suunnattuun palveluun, kuten myös Harrastushaku.fi:n sisältö sekä jo avoimena olevat tapahtumarajapinta ja pääkaupunkiseudun palvelukartta.

Helena Ikäheimo on tyytyväinen illan antiin. “Avokonttori oli loistava keino huomioida kehittäjäkokemus rajapinnan rakentamisessa jo ennen määrittelyn aloittamista. Sain myös konkreettisia ideoita siitä, mitä kannattaa tehdä seuraavaksi. Tarkoitus on lisensoida Infopankin sisällöt heti kun data on siivottu valmiiksi. Seuraavaksi otetaan sisällöt ulos kertadumppina ja kysellään taas kehittäjien ajatuksia joko suoraan tai esimerkiksi järjestämällä alkusyksyllä hackathon. Tapahtumassa oli mukavan rento ja keskusteleva ilmapiiri, suosittelen lämpimästi!”

Onko sinulla ajatuksia ja toiveita Infopankin rajapinnan suhteen? Tiedätkö vastaavia palveluja tai rajapintoja muilta mailta? Vielä ehtii osallistua keskusteluun ja lähettää terveisiä Infopankin väelle joko kommentoimalla tähän alle tai lähettämällä sähköpostia osoitteeseen hri (at) hel.fi.