Parlamenttisampo avaa eduskunnan miljoona puhetta ja kansanedustajien verkostot kaikkien tutkittaviksi
Parlamenttisampo avaa eduskunnan miljoona puhetta ja kansanedustajien verkostot kaikkien tutkittaviksi
Lähes miljoona eduskunnan täysistunnoissa pidettyä puheenvuoroa on Parlamenttisampo-hankkeessa ensimmäistä kertaa muunnettu linkitetyksi avoimeksi dataksi (englanniksi Linked Open Data). Avoimen datapalvelun päälle on kehitetty semanttinen Parlamenttisampo-portaali, jota voivat tutkijoiden lisäksi käyttää media, poliitikot ja suuri yleisö.
Parlamenttisampo on uusi jäsen Sampo-portaalien sarjassa, joilla on ollut jopa miljoonia käyttäjiä semanttisessa webissä. Muita Sampo-portaaleja ovat esimerkiksi lainsäädäntöä ja oikeustapauksia kokoava Lakisampo.fi ja Biografiasampo.fi, joka sisältää Suomalaisen Kirjallisuuden Seuran Kansallisbiografiassa julkaistujen suomalaisten merkkihenkilöiden elämäkerrat ja heidän verkostojaan.
Eduskunnan aineistot avoimeksi FAIR-dataksi ja sovelluksiksi
Suomalaisen demokratian yksi perusta on, että eduskunnan päätöksenteko ja lainsäädäntötyö ovat avoimia ja niihin liittyvät aineistot saatavilla. Keskeinen tähän liittyvä aineisto ovat täysistuntojen pöytäkirjat niihin sisältyvine puheineen. Näitä aineistoja on kertynyt vuodesta 1907 saakka, jolloin eduskunta perustettiin.
Tähän saakka eduskunnan täysistuntojen pöytäkirjat ovat olleet saatavilla painettuina kirjoina eduskunnan kirjastosta. Nyttemmin niitä on voinut tutkia myös eduskunnan avoimen datan palvelun kautta verkossa, jossa ne ovat olleet skannattuina PDF-dokumentteina, HTML-sivuina tai XML-muodossa riippuen siitä, mitä valtiopäiviä on halunnut tutkia.
Keskeinen haaste aineistojen käytössä on ollut, että pöytäkirja-aineiston puheet eivät ole olleet saatavilla yhtenäisessä muodossa datana. Tämän vuoksi ei ole ollut mahdollista esimerkiksi hakea yksittäisiä puheita tai analysoida puheita ja puhujia kuin erittäin työläänä käsityönä. Jos käyttäjä on tiennyt, millä valtiopäivillä jokin puhe on pidetty, hän on kyennyt lataamaan verkosta jopa tuhatsivuisen skannatun pöytäkirjan. Hän on voinut etsiä siitä puhetta tai muuta tietoa yksinkertaisesti lukemalla.
Jos tutkija on halunnut selvittää vaikkapa, kuka kansanedustaja puhui eduskunnassa ensimmäisenä NATOsta tai kuka kansanedustaja on puhunut eniten ”suomettumisesta”, se on ollut liki mahdotonta dokumenttien lataamiseen ja lukemiseen perustuvassa verkkopalvelussa. Vastaukset esimerkiksi tällaisiin kysymyksiin voidaan kuitenkin selvittää laskennallisesti (Hyvönen ym. 2022).
Käytännön hankaluuksien lisäksi eduskunnan nykyisen verkkopalvelun haasteena on ollut, että vaikka eduskunnan täysistuntojen pöytäkirjat ovat olleet avoimesti saatavissa dokumentteina, niitä ei ole julkaistu datana modernien FAIR-periaatteiden mukaisesti. Ne eivät siis ole olleet löydettäviä (Findable), saavutettavia (Accessible) tai yhteentoimivassa (Interoperable) ja uudelleen käytettävässä muodossa (Re-usable) haku- ja data-analyyttisiä sovelluksia varten.
Semanttinen parlamentti -hankkeessa luotiin ensimmäistä kertaa uudenlainen linkitetyn avoimen datan infrastruktuuri ja semanttinen portaali, joka sisältää eduskunnan kaikki täysistuntojen puheenvuorot sekä tiedot kansanedustajista ja muista ihmisistä, jotka ovat käyttäneet täysistunnoissa puheenvuoroja (Sinikallio ym. 2021; Leskinen ym. 2021).
Parlamenttisammon uusi julkaisukonsepti perustuu kansalliseen linkitetyn datan infrastruktuuriin ja yhteisölliseen ”Sampo-malliin” (Hyvönen 2022a; Hyvönen 2022b). Järjestelmän ydinaineistona ovat eduskunnan avoimesti julkaistut täysistuntojen pöytäkirjat ja kansanedustajien tietokanta, joita on rikastettu kieliteknologian keinon. Dataa on rikastettu myös muista tietolähteistä, kuten valtioneuvoston verkkosivuilta, Biografiasammosta ja Wikipedian linkitetystä datasta eli Wikidatasta.
Datapalvelun tiedot on louhittu ja yhdenmukaistettu eduskunnan PDF-muotoisista pöytäkirjoista, HTML-dokumenteista sekä XML-muotoisesta datasta. Ne on muunnettu W3C-järjestön standardien ja parhaiden käytäntöjen mukaisesti semanttiseksi verkoksi (englanniksi knowledge graph) (Sinikallio ym. 2021; Leskinen ym. 2021; Drobac ym. 2022).
Aineistosta on samalla tuotettu myös CSV-muotoinen versio muun muassa taulukkolaskentaa varten, uuden Parla-CLARIN-formaatin mukainen versio ja näyte ParlaMint-muotoista dataa yleiseurooppalaisessa ParlaMint II -hankkeessa. Kyseisen hankkeen tavoite on tuottaa keskenään yhteentoimivaa ja vertailukelpoista aineistoa eri eurooppalaisten parlamenttien toiminnasta.
Eduskunnan pöytäkirjatoimiston täysistunnoista kirjaama tieto on varsin yksityiskohtaista. Pöytäkirjoihin kirjataan esimerkiksi välihuudot, joilla kansanedustajat saattavat keskeyttää pidetyn puheen. Parlamenttisampoa hyödyntämällä on mahdollista selvittää nopeasti, että esimerkiksi ministeri Krista Kiurun ja ministeri Annika Saarikon aktiivisin keskeyttäjä on ollut kansanedustaja Ben Zyskowicz, jonka vastuulla on 46 prosenttia heidän keskeytyksistään. Samoin Zyskowicz on tehnyt 39 prosenttia pääministeri Sanna Marinin puheiden keskeytyksistä. Tällaisen analyysin voi tehdä Parlamenttisammon avoimen datapalvelun SPARQL-rajapinnan avulla Google Colab -työkalulla.
Kenen tahansa on mahdollista kehittää myös sovelluksia avoimen Parlamenttisammon datapalvelun varaan. Esimerkkinä tällaisesta mahdollisuudesta hankkeessa kehitettiin Parlamenttisampo.fi-portaalin prototyyppi, joka tarjoaa julkisen avoimen verkkopalvelun tutkijoita, kansalaisia, mediaa ja valtionhallintoa varten. Sen käyttäminen ei edellytä ohjelmointitaitoa, ja järjestelmällä saatuja data-analyyttisiä tutkimustuloksia on hyödynnetty muun muassa Helsingin Sanomien Musta laatikko -esityksissä, joita järjestettiin Kansallisteatterissa vuonna 2022. Esityksissä tarkasteltiin eduskunnan puheliaimpia kansanedustajia.
Parlamenttisampo-portaali tarjoaa käyttäjälle mahdollisuuden hakea eduskunnassa pidettyjä yksittäisiä puheita ja puhejoukkoja, kuten kokoomuksen naiskansanedustajien pitämiä puheita, tietyllä ajanjaksolla. Haku tapahtuu tekemällä valintoja joukosta hakufasetteja, kuten puolue, sukupuoli, valtiopäivät ja kansanedustaja. Kun yksittäinen puhe on löydetty, siihen on mahdollista tutustua tarkemmin puheen ”kotisivulla”, johon on linkitetty puheeseen liittyvää monipuolista tietoa.
Haluttua puhejoukkoa voidaan visualisoida ja analysoida digitaalisten ihmistieteiden menetelmien avulla. On mahdollista vaikkapa piirtää kuvaaja, joka havainnollistaa, kuinka paljon kansanedustaja Veikko Vennamo (1913–1997) piti puheita eri vuosina. Vennamo on käyttänyt eduskunnan täysistunnoissa enemmän puheenvuoroja kuin kukaan muu.
Vastaavanlaiset haku- ja analyysityökalut ovat tarjolla kansanedustajien ja heidän verkostojensa hakemista ja tutkimista varten. On mahdollista kuvata kartalla esimerkiksi edesmenneiden Suomen Keskustan kansanedustajien elinkaarta heidän syntymäpaikastaan heidän kuolinpaikkaansa. Tässä hyödynnetään Sampo-UI-työkalua (Ikkala ym. 2022).
Parlamenttisammon data, datapalvelu ja portaali verkossa
Semanttinen parlamentti -hanke oli osa Suomen Akatemian rahoittamaa digitaalisten ihmistieteiden DIGIHUM 2020–2022 -ohjelmaa. Projekti liittyi myös SeCo-tutkimusryhmässä menossa olevaan työhön, jonka tavoitteena on julkaista Suomen lainsäädäntö ja oikeustapaukset avoimena linkitetyn datan palveluna. Se kulkee nimellä Semanttinen Finlex ja loppukäyttäjien Lakisampo. Työtä tehdään yhteistyössä oikeusministeriön kanssa.
Parlamenttisampo-järjestelmän ovat toteuttaneet Helsingin yliopiston Digitaalisten ihmistieteiden keskus HELDG ja Aalto-yliopiston tietotekniikan laitos. Mukana laajemmassa tutkimushankkeessa oli myös Turun yliopiston Eduskuntatutkimuksen keskus, jossa Parlamenttisammon dataa on käytetty politiikan kielen ja kulttuurin tutkimuksissa (Elo 2022; Elo ja Karimäki 2021).
Parlamenttisampo on avoin kotimainen ontologia- ja tietoinfrastruktuuri, jota hyödynnetään eduskunnan aineistojen julkaisemiseksi ja rikastamiseksi linkitettynä avoimena datana. Aineistoja on yhdistetty muun muassa täysistuntojen videotallenteisiin, eduskunnan kirjaston alkuperäisläheisiin, Lakisampoon, Biografiasampoon ja Wikipediaan.
Parlamenttisammon aineistot ja ohjelmistot ovat avoimia ja maksuttomia CC BY 4.0 -lisenssillä. Työ yhdistyy laajempaan kansalliseen, Suomen Akatemian rahoittamaan infrastruktuurihankkeeseen FIN-CLARIAH ja erityisesti sen digitaalisiin ihmistieteisiin keskittyvään osaan DARIAH-FI. Niiden tavoitteena on rakentaa ja ylläpitää digitaalisten ihmis- ja yhdyskuntatieteiden tietoinfrastruktuuria Suomessa. Sampo-järjestelmät mukaan lukien Parlamenttisampo ovat yksi osa tätä kokonaisuutta.
Tutkimusta maailmalla ja Suomessa
Parlamenttiaineistojen on arvioitu olevan käytetyin aineistotyyppi digitaalisissa ihmistieteissä sanomalehtiaineistojen jälkeen. Lukuisia laskennallisia tutkimuksia on julkaistu täysistuntojen pöytäkirjoihin perustuen niin Suomessa kuin ulkomaillakin (esimerkiksi Andrushchenko ym. 2021; Blaxill ja Beelen 2019; Guldi 2019; Ihalainen ja Sahala 2020; Makkonen ja Luokasmäki 2019).
Linkitetyn datan menetelmiä on sovellettu tähän mennessä esimerkiksi Euroopan parlamentin, Italian parlamentin ja Latvian parlamentin aineistoihin (Van Aggelen 2017; Bojars ym. 2019). Parlamenttiaineistoja on julkaistu ja saatavilla verkkopalveluina lukuisissa eri maissa, ja tietoa eri maiden parlamenttiaineistojen korpuksista on kerätty yhteen yleiseurooppalaisessa CLARIN-infrastruktuurihankkeessa.
•
Tarkempaa lisätietoa Parlamenttisammon datajulkaisuista, portaalista ja tutkimustyöstä löytyy Parlamenttisampo-hankkeen kotisivulta.
•
Artikkelin pääkuva: Pitkäaikainen kansanedustaja Veikko Vennamo (1913–1997) on käyttänyt eduskunnan täysistunnoissa enemmän puheenvuoroja kuin kukaan muu. Vuonna 1974 hänet jopa kannettiin ulos istuntosalista, kun hän ei suostunut poistumaan täysistunnosta puhemiehen kehotuksesta huolimatta. Kuvan lähde: STT-Lehtikuva.
•
Lue myös:
70 vuotta perhepolitiikkaa – Pysyvyyttä ja suuria murroksia
”Elämänkutsumukseltaan talousmies” – Risto Rytin talouspolitiikka