Aineistojen matka notkuvilta hyllyiltä digiarkistoon on alkanut

Tiesitkö, että Kansallisarkiston vanhimmassa asiakirjassa vuodelta 1316 kuningas Birger Maununpoika pyytää suojelusta Viipurin linnan lähistöllä asuville naisille? Arkistoissa on piilossa myös lukuisia uudempia aarteita, ja samaan aikaan kun arkistojen fyysiset asiakaskäynnit vähenevät, ovat digitaalisten arkistojen kävijämäärät nousussa. Vuoden ensimmäinen HRI Loves Developers -kehittäjätapaaminen Arkistojen aarteet järjestettiin helmikuussa 2021 etäyhteydellä.

Arkistojen aarteista vain harva on digitoitu ja vielä harvempi avattu vapaaseen käyttöön

Arkistot ovat paikkoja, joissa on tallessa valtavat määrät historiaan ja nykypäivään liittyvää tietoa. Tietoa on säilötty niin paperille asiakirjoihin, muistiinpanoihin ja piirustuksiin kuin ääninauhoille, mikrofilmeille, kirjoihin ja julisteisiin. Aineistojen aiheet liikkuvat tuomiokirjoista potilastietoihin ja poliisilaitoksen osoiterekisteristä maistraatin pöytäkirjoihin. Aineistojen laatu ja yksityiskohtaisuus ja siten niistä saatavissa oleva tieto vaihtelee: esimerkiksi jotkin Kansallisarkistossa säilytettävät kartat ovat niin yksityiskohtaisia, että tavasta piirtää aita voi päätellä, miten se on aikanaan rakennettu.

Kansallisarkistossa ja Helsingissä aineistojen digitointia on jo tehty, ja Vantaalla digitointi on suunnitteluvaiheessa. Suunnitelmallisuutta työ nimittäin vaatii, sillä aineistojen suuren määrän takia järjestystä pitää priorisoida. Vantaan kaupunginarkistossa fyysistä aineistoa on neljä hyllykilometriä, Helsingin kaupunginarkistossa 18 hyllykilometriä, ja pisimmän korren vetävällä Kansallisarkistolla jopa 220 hyllykilometriä. Vaikka Kansallisarkisto on digitoinut 80 miljoonaa aineistoa, digitointityötä vielä riittää, sillä tämä on vain nelisen prosenttia kaikista arkiston aineistoista. Panu Haavisto puolestaan kuvasi Helsingin kaupunginarkiston tilannetta seuraavasti: “Jos kaupunginarkiston hyllymetrejä ajattelee välimatkana rautatieasemalta Tikkurilaan, ollaan digitoinnissa päästy vasta juuri ja juuri irti asemalaiturista Kaisaniemenpuiston kentän kohdalle”.

Aineistojen digitointia tehdään, jotta mahdollisimman paljon tietoa saataisiin talteen myös tuleville sukupolville. Fyysiset aineistot vievät paljon tilaa, ja osa aineistoista voidaan hävittää kun ne on saatu tallennettua sähköiseen muotoon. Digitoinnin myötä esimerkiksi Vantaalla säilytettävän fyysisen aineiston määrä tullaan laskemaan kymmenissä metreissä kilometrien sijaan.

Digitointiprojektien lisäksi arkistoissa tapahtuu paljon muutakin. Kansallisarkiston aineistoja esitellyt Tomi Ahoranta kertoi READ-projektissa kehitetystä kognitiiviseen tekoälyyn perustuvasta käsinkirjoitetun tekstin koneellisen tunnistuksen työkalusta, joka soveltuu kaikenlaisten käsinkirjoitettujen tekstityyppien tunnistukseen. Helsingin kaupunginarkiston Sinetti-järjestelmään puolestaan avataan vuoden 2021 aikana REST-rajapinta, joka mahdollistaa järjestelmässä olevien julkisten metatietojen haun ja tiedostojen noudon.

Valokuva piirustuksesta, jossa on piirretty ja väritetty metsäorvokki sekä kuvattu värien sävyt. Piirustus on luonnos Vantaan kaupungin vanhasta logosta.
Miten kuvailisit tätä piirustusta Vantaan kaupungin logon suunnitelmasta systemaattisesti? Arkistojen aineistoja on paikoin hankala kuvailla metatiedoissa yhtenäisellä tavalla, ja se hankaloittaa datan julkaisemista avoimessa, rakenteisessa muodossa.

Henkilötietojen suuri määrä vaikeuttaa arkistojen datan avaamista

Tahtotila aineistojen avaamiseen digitoinnin jälkeen on suuri. Kansallisarkisto on julkaissut avoimena datana mm. tietokantoja sotasurmista ensimmäisen ja toisen maailmansodan aikaan, ja Helsingin kaupunginarkisto esim. 1500-luvulle ulottuvan koulurekisterin sekä monia vanhoja karttoja 1800- ja 1900-luvuilta. Vantaalla datan avaaminen mahdollisimman laajasti on yksi digitointityötä seuraavista tavoitteista.

Sähköiseen muotoon vieminen eli digitointi ei kuitenkaan suoraan tarkoita, että kaikkia aineistoja voitaisiin avata. Yleiseksi esteeksi aineistojen avaamiselle muodostuu tietosuoja-asetuksen mukainen henkilötietojen, kuten nimien, käsittelyyn liittyvät määräykset. Tyypillisesti asiakirjat sisältävät paljon ihmisten nimiä, ja niiden takia aineistoja ei voi yksiselitteisesti julkaista suoraan avoimena datana, vaan asiakirjat ja niiden sisältämät nimet pitäisi käydä yksitellen läpi ja piilottaa nimet. Arkistoissa linjaus on vedetty siihen, että yli 100 vuotta vanhaa aineistoa voidaan julkaista. Linjaus voi kuitenkin tuoda mukanaan odottamattomia lopputulemia, kuten Arto Hautala Vantaan kaupunginarkistosta esityksessään pohti: “Olen miettinyt sitä, katoaako tutkijoilta yksi vuosisata: jääkö se vähemmälle tutkimukselle?

Miten arkistojen monipuolisia aineistoja on hyödynnetty?

Kuulimme tapaamisessa useita arkistojen aineistojen käyttöesimerkkejä. Suomen Sukututkimusseuraa tapaamisessa edustanut Mikko Kuitula kertoi arkistojen aineistojen käyttämisestä sukujen, henkilöhistorioiden ja paikallishistorian tutkimukseen. Sukututkijat ovat yksi arkistojen suurimmista asiakasryhmistä, ja heidän tutkimuksessaan tärkeitä peruslähteitä ovat Kansallisarkiston kirkonkirjat, henkikirjat sekä erilaiset veroluettelot. Tämän takia sukututkimuksessa ei ole perinteisesti hyödynnetty niin paljon kaupunkien ja kuntien arkistojen aineistoja: toisaalta sukututkijaa voi kiinnostaa mikä tahansa henkilö- tai paikallishistoriaan kytkeytyvä tieto, ja tällaista tietoa ovat kaupunginarkistot pullollaan.

Susanna Ånäs (Wikimedia, Avoin GLAM) painotti esityksessään avoimien aineistojen linkityksen tärkeyttä. On hienoa, että yksittäisiä aineistoja avataan, mutta niiden vahvuus tulee ilmi vasta kun ne yhdistetään ympäröivään maailmaan. Esimerkiksi Helsingin kaupunginarkiston Sinetti-palvelussa avatut historialliset kartat on viety Wikimedia Commonsiin: “Miksi viedä aineistoja kopioina toiseen palveluun? Erinomaista on se, että ne ovat yhteydessä muihin tietoihin tai Wikipedia-artikkeleihin: se on ympäristö, jossa linkitystä voi tehdä”, pohti Ånäs. Wikimedia-ympäristöön on rakennettu datojen käsittelyyn useita työkaluja, kuten Wikimaps Warper, jolla voi oikaista vanhoja piirrettyjä karttoja koordinaatistossa toimiviksi taustakartoiksi.

Ohjelmistokehittäjä Antti Kekki puolestaan esitteli harrastuspohjalta tekemäänsä muinaismuistot.info -sivustoa, jolle hän on koonnut tietokoneselaimessa ja mobiilisti toimivaan karttakäyttöliittymään avoimia aineistoja muinaisjäännöksistä sekä rakennusperinnöstä. Palveluun on myös tulossa muinaisrannat sekä Helsingin kaupungin juuri avaamat ensimmäisen maailmansodan aikaiset maalinnoitukset. Sivustoa on mobiilitoimivuuden ja paikannusominaisuuden ansiosta helppo hyödyntää myös tien päällä ja matkustaessa.

Kuvakaappaus muinaismuistot.info-sivustolta.
Kuvakaappaus muinaismuistot.info-sivulta.

Sami Liedeksen koodaama dokumentinbinärisöijä voisi olla apuna digitoinnissa: työkalun ideana on parantaa digitoitujen aineistojen laatua tunnistamalla, mikä osa dokumentista on mustetta tai muuten relevanttia sisältöä ja mikä on skannauksesta tai kuvaamisesta johtuvaa virhettä. Liedeksen arvion mukaan työkalu suoriutuu tällä hetkellä melko hyvin työstään, ja hän on kouluttanut työkalua käsinkirjoitetuilla dokumenteilla ja ruutupaperilla. Työkalu on julkaistu täysin avoimella lisenssillä ja ohjeet löytyvät tästä linkistä.

Kuvakaappaus dokumentinbinärisöijän tekemästä jäljestä sisältäen ennen ja jälkeen -kuvat.
Dokumentinbinärisöijällä pystytään häivyttämään skannauksesta tai kuvaamisesta johtuvia virheitä. Kuvat ovat peräisin Sami Liedeksen työkalun github-sivulta.

Hyödyntäjiltä ja osallistujilta rakentavaa palautetta avaajille

Arkistoissa sekä digitointi että aineistojen avaaminen ovat aineistojen määrään nähden vasta varhaisessa vaiheessa, ja sen takia nyt onkin oiva aika kerätä palautetta aineistojen potentiaalisilta hyödyntäjiltä. Aineistojen avaajat saivatkin sekä tapahtumassa esiintyneiltä hyödyntäjiltä sekä kehittäjätapaamisen osallistujilta monia toiveita sekä ehdotuksia. Datan hyödyntämistä esitelleiden tahojen mielestä tärkeää olisi nähdä, missä järjestyksessä ja millä aikataululla digitointia pyritään tekemään. Lisäksi hyödyntäjät voisivat olla mukana suunnittelemassa järjestystä. Avattavan datan sisältö tulisi kuvata mahdollisimman tarkasti, sen tulisi olla koneluettavassa muodossa ja se voitaisiin julkaista mahdollisimman laajasti: hyödyntäjä voi rajata datasta pois ne tiedot, joita hän ei tarvitse. Datan olisi myös hyvä olla linkitettävissä muihin datoihin, ja tässä auttaisi esim. Wikidatan kohdalla se, että lisenssi olisi CC0 niissä datoissa, joissa ei tarvita tekijänoikeuden suojaa.

Datanmetsästystä helpottaisi myös, jos tietäisi kuka kerää ja ylläpitää mitäkin dataa. Tähän avuksi eräs osallistuja antoi aineistolistoja kaipaaville vinkin lain nykyään edellyttämästä asiakirjajulkisuuskuvauksesta, jollaiset löytyvät myös Kansallisarkistolta, Helsingin kaupungilta ja Vantaan kaupungilta. Kuvauksessa listataan tiedonhallintayksikön, kuten kunnan, ylläpitämät tietovarannot, ja kuvauksen tarkoituksena on nimenomaan auttaa kansalaista kohdistamaan tietopyyntönsä oikealle taholle.

HRI:n tapaamisessa vetämässä työpajassa osallistujilta kerättiin suuntaviivoja digitointiin, avaamiseen, datan muotoon sekä tapoja käyttää arkistojen dataa. Osallistujat toivoivat, että arkistoissa keskityttäisiin digitoimaan etenkin henkilöihin liittyviä aineistoja, historiallisia karttoja, muuttokirjoja, rakennuslupia ja rakennusten pohjapiirustuksia, hautojen paikkoja sekä arkistonmuodostussuunnitelma. Avattavaksi toivottiin käytännössä mahdollisimman paljon datoja, esimerkiksi historiallisia valokuvia ja karttoja, ja lisäksi “sellaisia [datoja], joiden olemassaolosta ei yleisesti tiedetä”.

Kuvakaappaus. Sisältö selviää leipäteksistä.
Kuvakaappaus HRI:n työpajassa käytetystä osallistavasta Flinga-työkalusta. Osallistujat esittivät monia näkemyksiä sopivalle muodolle avattavassa datassa.

Dataa oli käytetty pääasiassa tutkimuskäyttöön, ja avattavan datan muodolle oli useita toiveita. Henkilötietojen problematiikkaan kytkeytyvässä toiveessa pyydettiin varmistamaan, että myös alkuperäiset asiakirjat säilytettäisiin niin, että henkilötietoja ei peitetä. Asiakirjojen digitointia voitaisiin tehdä joukkoistamisen avulla. Datan metatiedoissa olisi hyvä olla mukana tieto “laadusta”, eli siitä, onko esim. sisältö koneen vai ihmisen tarkastamaa, tai vaikka kuinka sijaintitarkkaa paikkatieto on. Lisäksi toivottiin dataa paikkatietomuodossa (WMS/WFS, shp) tai linkitystä paikkatietoon.

Työpajassa maalailtiin ihannetilannetta, jonka teknologia saattaa jossakin vaiheessa mahdollistaa: vaikka kaikkia aineistoja ei olisi vielä digitoitu ja sisältöä koneluettu, aineistoja voisi hakea kaikki kyseisen arkiston aineistot sisältävästä hakupalvelusta esimerkiksi hakusanalla “Kruununhaka” ja työkalu tunnistaisi ja ilmoittaisi kaikki asiakirjat, joissa hakusana esiintyy ja kertoisi vielä, miten niihin pääsee käsiksi (löytyykö julkisena tai avoimena netistä vai pitääkö mennä arkistoon paikan päälle).

Millaisena tapahtuma näyttäytyi osallistujan silmin? Lue Sukututkijan loppuvuosi -blogista yhden osallistujan kokemus tästä linkistä.