Kielimallien kehitystä avoimella tekstidatalla

Avoin data on monesti numeerista tai paikkatietomuotoista – tilastoja, pitkiä aikasarjoja tai koordinaattipisteitä ominaisuustietoineen. Jonkin verran on avoimena datana jo saatavilla myös laajempia tekstikokonaisuuksia, kuten palautteita, kyselyjen avovastauksia ja chatbotien koulutusdataa. Miten tekstimuotoista dataa voisi hyödyntää uusin tavoin esimerkiksi kielimallien kehittämisessä? Entä mitä uusia mahdollisuuksia tekstianalytiikka tarjoaa?

HRI järjesti toukokuussa 2024 HRI Loves Developers: Avoimen tekstidatan merkitys digitalisaatiossa -etätapahtuman. Tapahtumassa esiteltiin avoimia tekstimuotoisia datoja ja niiden hyödyntämistä mm. kielimallien kehittämisessä ja tekstianalytiikassa. Linjoilla oli aurinkoisen helteisenä torstai-iltapäivänä viitisenkymmentä tekstimuotoisen datan mahdollisuuksista kiinnostunutta kuulijaa.

Tapahtuman alussa Nuutti Kytö Helsingin kaupungilta kertoi, että Helsinkiä tekstidatan sovelluksissa kiinnostaa tällä hetkellä muun muassa anonymisointi, hyvinvointi ja tuottavuus, monikielisyys sekä avoin yhteiskunta ja päätöksenteko. Myöhemmin hänen kollegansa Mikko Niemi kertoi tarkemmin, miten Helsingin kaupungilla ollaan asiakasymmärryksen lisäämiseksi hyödynnetty tekstianalytiikkaa esimerkiksi palautteiden ja kaupungin osallistavan budjetoinnin ehdotusten analysoimisessa.

Avoimena datana on saatavilla erilaisia laajempiakin tekstimuotoisia kokonaisuuksia. Pääkaupunkiseudun kaupungit ovat avanneet HRI:n kautta mm. saamiaan palautteita ja kyselyjen avovastauksia. Tapahtumassa Laura Kerola Helsingin kaupungilta esitteli avoimena datana julkaistuja chatbotien koulutusdatoja. Helsinki on avannut jo useamman chatbotinsa koulutusmateriaaleina käytetyt kysymys-vastausparit. Avaamisella halutaan niin lisätä läpinäkyvyyttä kuin tarjota valmiita pohjia, inspiraatiota ja ideoita muille chatbotien parissa työskenteleville.

Myös kansallisella tasolla on avattu paljon tekstimuotoista dataa. Juha Rautiainen Kansalliskirjastosta kertoi niin Kansalliskirjaston laajasta digitaalisten aineistojen kokoelmasta kuin myös koneellisesta tekstintunnistuksesta ja sen kehittymisestä. Kieliaineistoja käyttäville tutkijoille suunnattu Kielipankki-palvelu puolestaan tarjoaa erilaisia teksti- tai puhemuodossa olevia aineistoja. Kielipankkia esitellyt Krister Lindén Helsingin yliopistosta kertoi Kielipankin kautta saatavissa olevista korpuksista sekä puheentunnistustyökalusta.

Eduskunnallakin on avoimena datana tarjolla laajoja tekstikokonaisuuksia, kuten kansanedustajien puheenvuorot vuodesta 2015 eteenpäin. Tavallisen kansalaisen on helpompi hyödyntää valtavaa kokonaisuutta Parlamenttisampo-palvelun kautta. Semanttisen webin mahdollisuuksia tapahtumassa esitellyt Eero Hyvönen Aalto-yliopistosta esitteli Parlamenttisampon monipuolisia mahdollisuuksia tehdä hakuja laajaan dataan. Erilaisilla kyselyillä voi selvittää esimerkiksi, kuka kansanedustajista on keskeyttänyt eniten toisten puheita, ketkä ovat vaihtaneet useimmin puoluetta ja mitä sanoja puheenvuoroissa käytetään eniten.

Kuvakaappaus Parlamenttisampo-verkkosivuista. Puheenvuoroja, joissa mainitaan avoin data, löytyy vain 13.
Parlamenttisampoon voi tehdä hakuja monin eri kriteerein. Avoin data ei näyttäisi esiintyvän kansanedustajien puheenvuoroissa kovin usein.

Laajoista tekstimuotoisista datoista on hyötyä myös tekoälypuolella kielimallien kehittämisessä. Kielimalleista ja niiden mahdollisuuksista tapahtumassa kertoi Emil Sievinen Smartbi-yrityksestä. Hän kertoi esityksessään välillä yleistajuisemmin, välillä syvemmälle tekniikkaan sukeltaen, mitä megatrendejä kielimallien kehityksessä on tällä hetkellä, miltä kielimallien lähitulevaisuus näyttää ja miten kielimallien hyödyntäminen kannattaa aloittaa.

Kielimallien hyödyntämistä on kokeiltu myös lainvalmistelutyön tukena. Tomi Paavola liikenne- ja viestintäministeriöstä kertoi kokeilusta, jossa kielimallia rikastetaan lainsäädännöllä ja siihen liittyvillä julkisilla tekstiaineistoilla. ”Kokeilussa on tarkoitus tuottaa uuteen suomalaiseen kielimalliin (nk. FinnishGPT) perustuvan palvelun kokeilu, demo lainvalmistelijalle”, kertoi Paavola. ”Palvelun demoa hyödynnetään erityisesti EU:n datasäädöksen kansallisessa täytäntöönpanotyössä.”

Kaakkois-Suomen ammattikorkeakoulun digitaalisen tiedonhallinnan tutkimus- ja kehittämiskeskus Digitaliassakin tehdään kokeiluja kielimallien parissa. Anssi Jääskeläinen esitteli tapahtumassa kielimallien lisäksi muitakin Digitalian palveluja, kuten laajojen tekstiaineistojen konvertoimista ja automaattista metadatoitusta sekä automatisoituja käännöksiä.

Tallenne ja esitysmateriaalit

Tapahtuman tallenne on julkaistu HRI:n YouTube-kanavalla.