R-kieli on data-analyytikon valinta
Analytiikkatalo Houston Analyticsin Senior Data Scientist Seija Sirkiä on unelma-ammatissaan. Tilastotieteessä yhdistyvät kauniilla tavalla matematiikka ja ihmistieteet, ja ohjelmoimaankin pääsee. “Ja nämä ovat työkaluina, kun pääsee ratkomaan tosielämän ongelmia”, Seija Sirkiä kehuu.
Data-analyytikon perustyökalu on läpi koko työuran ollut R-kieli, jolla onnistuvat data-analyysin kaikki vaiheet datan siivouksesta aina visualisointien tekoon. R-kieleen Sirkiä törmäsi ensimmäistä kertaa tuoreena tilastotieteen opiskelijana vuonna 1999 tilastollisen ohjelmoinnin kurssilla Jyväskylän yliopistossa. “Versio oli 0.64. Edistyksellisimmät professorit olivat ottaneet R:n käyttöön Matlabin rinnalle.”
20 vuodessa tilastolliseen laskentaan ja grafiikan tuottamiseen suunniteltu R on tullut todella tutuksi. Tilastotieteen alalta tohtoriksi väitellyt Sirkiä on vetänyt lukuisia R-kielen kursseja. Edellisessä työpaikassaan Tieteen tietotekniikan keskus CSC:llä Sirkiän vastuulla oli CSC:n supertietokoneella pyörivä R-laskentaympäristö.
Uudessa työpaikassa R-kielellä ratkotaan yrityspuolen ongelmia. Puoli vuotta sitten akateemisesta maailmasta Houston Analyticsille hypännyt Sirkiä on ehtinyt kirjoittaa R-koodia jo monen eri toimialan projekteissa, henkilöstösuunnittelusta aina IoT-datan käsittelyyn. “Enimmäkseen olen keskittynyt teollisuuden IoT-hankkeisiin: isoista koneista tulee sensoridataa, jota sitten käytetään hyödyksi.”
Yksi Houstonin teollisuusasiakkaista on paperikonevalmistaja Valmet. Kun paperikoneen tuhansien sensorien tuottama datavirta otetaan jatkuvaan tarkkailuun, voidaan kalliiden koneiden seisokkeja vähentää ja huoltovälejä pidentää. “Ennakoivassa kunnossapidossa data-analyysimme tulos voi olla vaikkapa ennustekäppyrä, joka kertoo, milloin ennustamme jonkin kulutusosan olevan vaihtokunnossa”, Sirkiä kertoo.
Komentokehote pelottaa R-untuvikkoa
Kymmeniä R-kursseja vetäneen Sirkiän mukaan suurin hämmennys kurssilaisille on ollut R:n pelkistetty käyttöliittymä. Uutta käyttäjää tervehtii pelkkä komentokehote. Monet kurssilaisista olivat yliopistotutkijoita, jotka olivat tottuneet analysoimaan tutkimusdatansa esimerkiksi tilasto-ohjelmisto SPSS:llä helppokäyttöisten valikoiden kautta. “R ei tee sinulle mitään valmiiksi”, Sirkiä nauraa.
Kun ensijärkytyksestä pääsee yli, alkavat vahvuudet paljastua. Ensimmäinen valtti on hinta. Ilmaisohjelmisto houkuttaa lisenssimaksuihin kyllästyneitä yliopistoja. Moni tutkija taas päätyi R-kurssille kyllästyttyään SPSS:n rajoitteisiin. “R on oikea ohjelmointikieli ja -ympäristö. Sillä voi tehdä ihan mitä vaan, se taipuu myös epästandardeihin tilanteisiin.” Esimerkiksi datan esikäsittely on R:n vahvuus. “Sillä voi vapaasti muokata dataa, joka ei käytännössä koskaan ole valmiissa muodossa.”
Ohjelmointikielten puolella R:n kilpailija on Python, jota moni ammattilainen käyttää datan esikäsittelyyn. “Ne ovat koodausfilosofialtaan lähellä toisiaan. R on näihin tilastohommiin sujuvampi, siinä on valmiina moni sellainen asia, mitkä pitää tuoda Pythoniin jossain erikoiskirjastossa.”
Toisaalta nykyisissä IoT-sovelluksissa Sirkiä on törmännyt R-kielen rajoitteisiin. “Pythonilla tuotantokuntoisen koodin tekeminen onnistuu helpommin.”
Aaltonen voittaa vaalit
Seija Sirkiän Github-sivulla törmää vaaliaiheiseen analyysiin, Sirkiän sanoin “harrasteräpellykseen”. Sen tekemiseen innosti Helsingin Sanomien juttu vuoden 2017 kuntavaalien tuloksista. Pääkirjoitussivun kolumni pohti, miten kova onkaan kunnanvaltuustoon pyrkivän osa. Ankaran vaalityön jälkeen valtuustoon menee kuitenkin “joku Aaltonen”. Toimittaja oli laittanut kuntavaalien 33 000 ehdokasta aakkosjärjestykseen – ja havainnut, että aakkosten alkupää sai enemmän ääniä. “Minua alkoi tilastotieteilijänä kiinnostaa, oliko havaittu ero iso vai pieni”.
Tämän analysoimiseksi ei ole olemassa mitään standarditestiä, mutta Sirkiä oli oppinut konstin vastaavaan ongelmaan oman väitöskirjatyönsä ohessa. Nyt, pari vuotta myöhemmin, oman harrasteanalyysin koodi näyttää kömpelöltä, mutta johtopäätös on entisellään. “Ilmiö on olemassa. Se ei ole vain sattumaa, että aakkosten alkupää saa enemmän ääniä.”
Kuka?
Seija Sirkiä s.1979
Koulutus Filosofian tohtori, tilastotiede
Työpaikka Houston Analytics, Senior Data Scientist
Avoimen datan suosikkityökalut
1. R-kieli
2. Git-versionhallinta
3. Flowdock
Mitä tehnyt avoimella datalla
Analyysi ehdokkaan sukunimen alkukirjaimen vaikutuksesta vaalitulokseen.
Mikä data kiinnostaisi
”Ei mikään yksittäinen, dataa on nykyisin paljon tarjolla. Datojen luova yhdistely on se juttu.”
Mac, Windows vai Linux
”Tässä läppärissä on Windows, käytän sitä mikä minulle annetaan.”
Terveiset HRI:lle
“Jatkakaa hyvää työtä.“
LinkedIn-sivu
Todennäköinen selitys tälle on Wikipedian tuntema ankkurointivaikutus. Ilmiö on kognitiivinen vinouma, joka saa aikaan sen, että valinnan tekijä suosii ensimmäiseksi vastaan tulleita vaihtoehtoja.
Sitä, miten paljon etua aakkosten alkupään ehdokkaat absoluuttisesti saavat, on vaikea määrittää, mutta tilastotieteilijällä on vinkki wannabe-poliitikolle. “Jos voi valita, kannattaa nimi ottaa aakkosten alkupäästä.”
Ryhmätyökalut käytössä
Data-analyysien tekeminen on nykyisin ryhmätyötä. Ei siis ihme, että analyytikon suosikkityökalulistalle nousevat pikaviestisovellukset. Houstonin käyttämä Flowdock, tai Slack, ovat käteviä tapoja viestiä tiimin kesken. Toinen Sirkiän suosikki on versionhallintaohjelmisto Git. “Luulin aiemmin, että se on vain softadevaajien juttu.”
Ohjelmistoon paremmin tutustuttuaan Sirkiä oivalsi, että Git sopii ohjelmointikoodin lisäksi oikeastaan mihin tahansa tekstin tuottamiseen ryhmätyönä. Sillä voi jakaa kurssimateriaalia opiskelijoille tai kirjoittaa yhdessä tutkimusartikkeleita.
HRI-verkkopalvelu on täynnä pääkaupunkiseutua käsittelevää dataa. Mikä HRI:n kautta avattu data saa alan ammattilaisen innostumaan?
Sirkiän ehdottomia suosikkeja ovat liikenteeseen ja kaupunki-infraan liittyvät datavarannot. Esimerkiksi HRI:sta löytyvää liikennemäärädataa Sirkiä on hyödyntänytkin vetämillään R-kursseilla. Nyt mielessä on sovellusidea, joka käyttäisi HSL:n ratikoiden ja bussien todellista pysäkkien ohitusdataa.
“Busseilla on aikataulut, ja livedatan avulla voi katsoa, missä bussi todella on nyt. Menneiden havaintojen avulla voisi taas voisi luoda todellisen pysäkkiaikataulun, joka kertoo historiatiedon perusteella, kuinka todennäköisesti bussi on ajallaan, tai paljonko se todennäköisesti myöhästyy”, Seija Sirkiä pohtii.