Vuoden data-avaukseksi valittu chatbotien koulutusdata sai alkunsa UKK-kysymyslistoista

Suurennuslasi, joka näyttää laskevaa kehitystä.
.

HRI-palvelun ohjausryhmä valitsi aiemmin tänä vuonna vuoden 2022 parhaaksi data-avaukseksi Helsingin kaupungin chatbotien koulutusdatat. Chatbotit ovat tekoälyohjelmistoja, joilla pyritään automatisoimaan useimmin kysyttyihin kysymyksiin vastaamista ja laajentamaan asiakaspalveluiden palveluaikoja.

Ajatus chatbotien koulutusdatan avaamisesta tuli ict-asiantuntijanana sosiaali-, terveys- ja pelastustoimialalla työskentelevältä Tuomas Korkalaiselta.

”Olin käynyt avoimen datan koulutuksen, ja tutustunut muiden projektien kautta HRI:hin ja siellä oleviin datasetteihin. Omaa mielenkiintoa aiheeseen oli eli voisi sanoa, että kaksi kiinnostuksen kohdetta löysi toisensa”, Tuomas kertoo.

Koulutusdatan avaamisessa olivat mukana myös erityissuunnittelija Laura Kerola ja johtava asiantuntija Janne Kantsila data- ja analytiikka -tiimistä strategiaosastolta kaupunginkansliasta. Lauran rooli data-avauksessa oli kerätä tarvittavaa tietoa koulutusdataa varten, Janne puolestaan selvitti, onko koulutusdatan avaamiselle esteitä ja miten avaaminen käytännössä toteutetaan.

Botti jaksaa toistaa samaa asiaa

Avoimena datana on julkaistu chatbotien kouluttamisaineisto, kysymysten aiheet (intents), keskusteluun liittyvät muuttuja- tai synonyymikirjastot (entities) ja vastaukset (answers). Chatbotien kanssa käytyjä keskusteluita ei julkaista.

Piirroskuva äidistä, isästä ja lapsesta. Äiti keskustelee tietokoneella neuvolabotin kanssa, isä katsoo vieressä.
Kuva: Mari Huhtanen

Chatbotien koulutusdatan lähtökohtana olivat UKK-listat eli usein kysytyt kysymykset. Sotepe-toimiala on tehnyt ja julkaissut nettisivuilla useita UKK-listoja, kuten esimerkiksi neuvolan UKK:n.

”Alun perin niitä ovat koostaneet neuvoloiden terveydenhoitajat, jotka ovat vastanneet kysymyksiin live-chatissa, puhelinneuvonnassa ja neuvolavastaanotoilla. Neuvolalla oli tarve vastata chatbotin avulla asiakkaiden kaikkein yleisimpiin ja toistuviin kysymyksiin. On epätehokasta käyttää arvokasta, korkeasti koulutettua ihmisresurssia siihen, että ihminen sanoo puhelimessa 30 kertaa päivässä, monelta neuvola on auki”, Tuomas kuvailee.

Lisäksi chatboteille esitettävien kysymysten aiheita kasattiin työpajoissa asiakaspalvelijoiden ja eri asiantuntijoiden kanssa.

”Kartoitimme, muotoilimme ja hiomme intenttejä eli aiheita, minkä jälkeen aloimme muodostamaan niiden alle tapoja, joilla asiakkaat niitä kysyvät eli esimerkkikysymyksiä, joista yksi aihio koostuu. Kysymykset pitää nimenomaan tulla substanssiosaajilta, jotka tuntevat aiheen ja jotka kohtaavat asiakkaita, eli tietävät, miten asiaa missäkin palvelussa kysytään”, Laura jatkaa.

Jatkuvaa muokkausta ja viilausta

Hyvästä pohjatyöstä huolimatta chatbotilta saatetaan kuitenkin kysyä jotain sellaista, johon se ei osaa vastata. Sen takia chatbotit vaativat jatkuvasti muokkauksia ja viilauksia.

”Eikä asiaa ole yhtään helpottanut se, että asumme pienellä kielialueella. Varmasti isommilla kielillä ollaan pidemmällä tässä. Me emme voi ottaa englannin tai muun isomman kielen valmista dataa sellaisenaan ja hyödyntää sitä botin kouluttamisessa”, Tuomas lisää.

Jotta botti osaa vastata kysymykseen, mietittynä pitäisi olla minimissään 10, mielellään 15–20 eri tapaa kysyä asiaa.

”Vaikka sinulla olisi 100 kysymystä, mutta jos ne ovat saman toistoa, se ei rikasta kysymyspatteristoa siinä määrin, että siitä olisi botille hyötyä. Tarvitaan paljon ajatusta mukaan siihen, miten samaa asiaa voidaan kysyä mahdollisimman eri tavoilla”, toteaa Laura.

”Bottia voisi kouluttaa hamaan tulevaisuuteen asti. Myös tässä data-avauksessa dataa tullaan päivittämään puolen vuoden välein HRI:n sivuille”, Tuomas jatkaa.

Hyötyä niin julkiselle puolelle kuin yritysmaailmalle

Tuomas näkee, että chatbotien koulutusdatan avaaminen hyödyttää niin julkisia toimijoita kuin yritysmaailmaa. Avatulla datalla Helsingin kaupunki voi auttaa esimerkiksi muita hyvinvointialueita.

”Sekin on resurssien tuhlaamista, että jossain muualla tehtäisiin tämä sama työ uudestaan. Jos avattua dataa hyödynnetään yksityisellä sektorilla ja sen pohjalta kehitetään uusia digitaalisia palveluita vaikka vientituotteeksi, ei se ole Helsingin kaupungilla mitenkään pois, päin vastoin”

Janne täydentää lisäämällä kolmannen hyödyn koulutusdatan avaamiselle.

”Helsinki on laatinut tekoälyn käyttöön liittyvät eettiset periaatteet ja noudattaa niitä myös chatbotien osalta. Koulutusdatan avaaminen tuo läpinäkyvyyttä ja avoimuutta, miten botit on koulutettu, millaisella esimerkkidatalla ja mitä niissä on sisällä.”