Parlamenttisampo avaa eduskunnan miljoona puhetta ja kansanedustajien verkostot kaikkien tutkittaviksi

Kolme mustavalkoista valokuvaa pukuun pukeutuneesta miehestä, joka pitää puhetta voimakkaasti elehtien.

Parlamenttisampo avaa eduskunnan miljoona puhetta ja kansanedustajien verkostot kaikkien tutkittaviksi

Eduskunnan täysistunnoissa on vuosina 1907–2022 pidetty lähes miljoona puheenvuoroa, ja yhteensä puhujia on ollut noin 2 800. Uusi Parlamenttisampo-palvelu tarjoaa kaiken tämän aineiston yhtenäisenä datana, mikä mahdollistaa kansanedustajien sekä poliittisen kielen, kulttuurin ja verkostojen tutkimisen entistä helpommalla tavalla.
Eero Hyvönen

Lähes miljoona eduskunnan täysistunnoissa pidettyä puheenvuoroa on Parlamenttisampo-hankkeessa ensimmäistä kertaa muunnettu linkitetyksi avoimeksi dataksi (englanniksi Linked Open Data). Avoimen datapalvelun päälle on kehitetty semanttinen Parlamenttisampo-portaali, jota voivat tutkijoiden lisäksi käyttää media, poliitikot ja suuri yleisö.

Parlamenttisampo on uusi jäsen Sampo-portaalien sarjassa, joilla on ollut jopa miljoonia käyttäjiä semanttisessa webissä. Muita Sampo-portaaleja ovat esimerkiksi lainsäädäntöä ja oikeustapauksia kokoava Lakisampo.fi ja Biografiasampo.fi, joka sisältää Suomalaisen Kirjallisuuden Seuran Kansallisbiografiassa julkaistujen suomalaisten merkkihenkilöiden elämäkerrat ja heidän verkostojaan.

Eduskunnan aineistot avoimeksi FAIR-dataksi ja sovelluksiksi

Suomalaisen demokratian yksi perusta on, että eduskunnan päätöksenteko ja lainsäädäntötyö ovat avoimia ja niihin liittyvät aineistot saatavilla. Keskeinen tähän liittyvä aineisto ovat täysistuntojen pöytäkirjat niihin sisältyvine puheineen. Näitä aineistoja on kertynyt vuodesta 1907 saakka, jolloin eduskunta perustettiin.

Tähän saakka eduskunnan täysistuntojen pöytäkirjat ovat olleet saatavilla painettuina kirjoina eduskunnan kirjastosta. Nyttemmin niitä on voinut tutkia myös eduskunnan avoimen datan palvelun kautta verkossa, jossa ne ovat olleet skannattuina PDF-dokumentteina, HTML-sivuina tai XML-muodossa riippuen siitä, mitä valtiopäiviä on halunnut tutkia.

Keskeinen haaste aineistojen käytössä on ollut, että pöytäkirja-aineiston puheet eivät ole olleet saatavilla yhtenäisessä muodossa datana. Tämän vuoksi ei ole ollut mahdollista esimerkiksi hakea yksittäisiä puheita tai analysoida puheita ja puhujia kuin erittäin työläänä käsityönä. Jos käyttäjä on tiennyt, millä valtiopäivillä jokin puhe on pidetty, hän on kyennyt lataamaan verkosta jopa tuhatsivuisen skannatun pöytäkirjan. Hän on voinut etsiä siitä puhetta tai muuta tietoa yksinkertaisesti lukemalla.

Jos tutkija on halunnut selvittää vaikkapa, kuka kansanedustaja puhui eduskunnassa ensimmäisenä NATOsta tai kuka kansanedustaja on puhunut eniten ”suomettumisesta”, se on ollut liki mahdotonta dokumenttien lataamiseen ja lukemiseen perustuvassa verkkopalvelussa. Vastaukset esimerkiksi tällaisiin kysymyksiin voidaan kuitenkin selvittää laskennallisesti (Hyvönen ym. 2022).

Image
Viivadiagrammi, joka kuvaa puheiden määrää vuodesta 1945 vuoteen 1987. Määrä vaihtelee nollasta noin alle sataan vuosien 1945 ja 1965 välillä ja lähtee sitten voimakkaaseen kasvuun. Noin vuoden 1973 paikkeilla määrä on hieman alle 700, sitten laskee hieman ja lähtee taas uudestaan kasvuun. Määrä on korkeimmillaan noin 1300 vuoden 1977 paikkeilla. Tästä määrä lähteen hiljalleen laskemaan niin, että se on taas nollassa vuonna 1985.
Veikko Vennamo käytti yli 12 600 varsinaista puheenvuoroa eduskunnan täysistunnoissa. Vastaavan visualisoinnin löytää Parlamenttisampo-portaalista.

Käytännön hankaluuksien lisäksi eduskunnan nykyisen verkkopalvelun haasteena on ollut, että vaikka eduskunnan täysistuntojen pöytäkirjat ovat olleet avoimesti saatavissa dokumentteina, niitä ei ole julkaistu datana modernien FAIR-periaatteiden mukaisesti. Ne eivät siis ole olleet löydettäviä (Findable), saavutettavia (Accessible) tai yhteentoimivassa (Interoperable) ja uudelleen käytettävässä muodossa (Re-usable) haku- ja data-analyyttisiä sovelluksia varten.

Semanttinen parlamentti -hankkeessa luotiin ensimmäistä kertaa uudenlainen linkitetyn avoimen datan infrastruktuuri ja semanttinen portaali, joka sisältää eduskunnan kaikki täysistuntojen puheenvuorot sekä tiedot kansanedustajista ja muista ihmisistä, jotka ovat käyttäneet täysistunnoissa puheenvuoroja (Sinikallio ym. 2021; Leskinen ym. 2021).

Parlamenttisammon uusi julkaisukonsepti perustuu kansalliseen linkitetyn datan infrastruktuuriin ja yhteisölliseen ”Sampo-malliin” (Hyvönen 2022a; Hyvönen 2022b). Järjestelmän ydinaineistona ovat eduskunnan avoimesti julkaistut täysistuntojen pöytäkirjat ja kansanedustajien tietokanta, joita on rikastettu kieliteknologian keinon. Dataa on rikastettu myös muista tietolähteistä, kuten valtioneuvoston verkkosivuilta, Biografiasammosta ja Wikipedian linkitetystä datasta eli Wikidatasta.

Datapalvelun tiedot on louhittu ja yhdenmukaistettu eduskunnan PDF-muotoisista pöytäkirjoista, HTML-dokumenteista sekä XML-muotoisesta datasta. Ne on muunnettu W3C-järjestön standardien ja parhaiden käytäntöjen mukaisesti semanttiseksi verkoksi (englanniksi knowledge graph) (Sinikallio ym. 2021; Leskinen ym. 2021; Drobac ym. 2022).

Aineistosta on samalla tuotettu myös CSV-muotoinen versio muun muassa taulukkolaskentaa varten, uuden Parla-CLARIN-formaatin mukainen versio ja näyte ParlaMint-muotoista dataa yleiseurooppalaisessa ParlaMint II -hankkeessa. Kyseisen hankkeen tavoite on tuottaa keskenään yhteentoimivaa ja vertailukelpoista aineistoa eri eurooppalaisten parlamenttien toiminnasta.

 

Image
Kaavio, joka kuvaa sitä, kuinka monta prosenttia kunkin puhujan puheista kukin keskeyttäjä on keskeyttänyt. Määrät vaihtelevat nollasta 46 prosenttiin.
Google Colab -työkalulla tehty data-analyysi kuvaa nykyisen eduskunnan keskeytyksiä eli väli­huutoja. Aktiivisimmat keskeyttäjät ovat x-akselilla ja keskeytetyt puhuja y-akselilla. (Hyvönen ym. 2022.)

 

Eduskunnan pöytäkirjatoimiston täysistunnoista kirjaama tieto on varsin yksityiskohtaista. Pöytäkirjoihin kirjataan esimerkiksi välihuudot, joilla kansanedustajat saattavat keskeyttää pidetyn puheen. Parlamenttisampoa hyödyntämällä on mahdollista selvittää nopeasti, että esimerkiksi ministeri Krista Kiurun ja ministeri Annika Saarikon aktiivisin keskeyttäjä on ollut kansanedustaja Ben Zyskowicz, jonka vastuulla on 46 prosenttia heidän keskeytyksistään. Samoin Zyskowicz on tehnyt 39 prosenttia pääministeri Sanna Marinin puheiden keskeytyksistä. Tällaisen analyysin voi tehdä Parlamenttisammon avoimen datapalvelun SPARQL-rajapinnan avulla Google Colab -työkalulla.

Kenen tahansa on mahdollista kehittää myös sovelluksia avoimen Parlamenttisammon datapalvelun varaan. Esimerkkinä tällaisesta mahdollisuudesta hankkeessa kehitettiin Parlamenttisampo.fi-portaalin prototyyppi, joka tarjoaa julkisen avoimen verkkopalvelun tutkijoita, kansalaisia, mediaa ja valtionhallintoa varten. Sen käyttäminen ei edellytä ohjelmointitaitoa, ja järjestelmällä saatuja data-analyyttisiä tutkimustuloksia on hyödynnetty muun muassa Helsingin Sanomien Musta laatikko -esityksissä, joita järjestettiin Kansallisteatterissa vuonna 2022. Esityksissä tarkasteltiin eduskunnan puheliaimpia kansanedustajia.

 

Image
Esimerkkikysymyksiä ja vastauksia.

 

Parlamenttisampo-portaali tarjoaa käyttäjälle mahdollisuuden hakea eduskunnassa pidettyjä yksittäisiä puheita ja puhejoukkoja, kuten kokoomuksen naiskansanedustajien pitämiä puheita, tietyllä ajanjaksolla. Haku tapahtuu tekemällä valintoja joukosta hakufasetteja, kuten puolue, sukupuoli, valtiopäivät ja kansanedustaja. Kun yksittäinen puhe on löydetty, siihen on mahdollista tutustua tarkemmin puheen ”kotisivulla”, johon on linkitetty puheeseen liittyvää monipuolista tietoa.

Haluttua puhejoukkoa voidaan visualisoida ja analysoida digitaalisten ihmistieteiden menetelmien avulla. On mahdollista vaikkapa piirtää kuvaaja, joka havainnollistaa, kuinka paljon kansanedustaja Veikko Vennamo (1913–1997) piti puheita eri vuosina. Vennamo on käyttänyt eduskunnan täysistunnoissa enemmän puheenvuoroja kuin kukaan muu.

Haluttua puhejoukkoa voidaan visualisoida ja analysoida digitaalisten ihmistieteiden menetelmien avulla.
Image
Ruutukaappaus sovelluksesta, jossa on erilaisin tiedoin muodostettu kartalle kansanedustajien elinkaaria edustava kuvaaja.
Kartassa on kuvattu Suomen Keskustan 507 kansanedustajan elinkaaria vuosina 1907−2022. Henkilöjoukon valinta on tehty vasemmalla näkyvästä puoluefasetista. Hakutuloksen visualisointiin on valittu perinteisen taulukkotulosnäkymän (”taulukko”) sijasta toista välilehteä, jolloin näytetään henkilöjoukon synnyin- ja kuolinpaikat kartalla kaarien avulla. Kaaren punainen pää osoittaa muuttajien syntymä­paikkaa ja sininen pää kuolinpaikkaa, kun vielä elossa olevia kansanedustajia ei visualisoida. Kaaren paksuus ilmaisee muuttajien määrää, ja kaarta klikkaamalla pääsee kaaren kuvaaman poliitikon kotisivulle.

Vastaavanlaiset haku- ja analyysityökalut ovat tarjolla kansanedustajien ja heidän verkostojensa hakemista ja tutkimista varten. On mahdollista kuvata kartalla esimerkiksi edesmenneiden Suomen Keskustan kansanedustajien elinkaarta heidän syntymäpaikastaan heidän kuolinpaikkaansa. Tässä hyödynnetään Sampo-UI-työkalua (Ikkala ym. 2022).

Parlamenttisammon data, datapalvelu ja portaali verkossa

Semanttinen parlamentti -hanke oli osa Suomen Akatemian rahoittamaa digitaalisten ihmistieteiden DIGIHUM 2020–2022 -ohjelmaa. Projekti liittyi myös SeCo-tutkimusryhmässä menossa olevaan työhön, jonka tavoitteena on julkaista Suomen lainsäädäntö ja oikeustapaukset avoimena linkitetyn datan palveluna. Se kulkee nimellä Semanttinen Finlex ja loppukäyttäjien Lakisampo. Työtä tehdään yhteistyössä oikeusministeriön kanssa.

Parlamenttisampo-järjestelmän ovat toteuttaneet Helsingin yliopiston Digitaalisten ihmistieteiden keskus HELDG ja Aalto-yliopiston tietotekniikan laitos. Mukana laajemmassa tutkimushankkeessa oli myös Turun yliopiston Eduskuntatutkimuksen keskus, jossa Parlamenttisammon dataa on käytetty politiikan kielen ja kulttuurin tutkimuksissa (Elo 2022; Elo ja Karimäki 2021).

Parlamenttisampo on avoin kotimainen ontologia- ja tietoinfrastruktuuri, jota hyödynnetään eduskunnan aineistojen julkaisemiseksi ja rikastamiseksi linkitettynä avoimena datana. Aineistoja on yhdistetty muun muassa täysistuntojen videotallenteisiin, eduskunnan kirjaston alkuperäisläheisiin, Lakisampoon, Biografiasampoon ja Wikipediaan.

 

Image
Parlamenttisammon osat: 1. Linkitetyn avoimen datan palvelu ja SPARQL-rajapinta Linked Data Finland -alustalla. 2. Semanttinen portaali Parlamenttisampo.fi, joka perustuu SPARQL-rajapintaan ja jonka käyttäminen ei edellytä ohjelmointitaitoa. 3. Puheista ja eduskunnan toimijoista muodostetut datajulkaisut.

 

Parlamenttisammon aineistot ja ohjelmistot ovat avoimia ja maksuttomia CC BY 4.0 -lisenssillä. Työ yhdistyy laajempaan kansalliseen, Suomen Akatemian rahoittamaan infrastruktuurihankkeeseen FIN-CLARIAH ja erityisesti sen digitaalisiin ihmistieteisiin keskittyvään osaan DARIAH-FI. Niiden tavoitteena on rakentaa ja ylläpitää digitaalisten ihmis- ja yhdyskuntatieteiden tietoinfrastruktuuria Suomessa. Sampo-järjestelmät mukaan lukien Parlamenttisampo ovat yksi osa tätä kokonaisuutta.

Tutkimusta maailmalla ja Suomessa

Parlamenttiaineistojen on arvioitu olevan käytetyin aineistotyyppi digitaalisissa ihmistieteissä sanomalehtiaineistojen jälkeen. Lukuisia laskennallisia tutkimuksia on julkaistu täysistuntojen pöytäkirjoihin perustuen niin Suomessa kuin ulkomaillakin (esimerkiksi Andrushchenko ym. 2021; Blaxill ja Beelen 2019; Guldi 2019; Ihalainen ja Sahala 2020; Makkonen ja Luokasmäki 2019).

Linkitetyn datan menetelmiä on sovellettu tähän mennessä esimerkiksi Euroopan parlamentin, Italian parlamentin ja Latvian parlamentin aineistoihin (Van Aggelen 2017; Bojars ym. 2019). Parlamenttiaineistoja on julkaistu ja saatavilla verkkopalveluina lukuisissa eri maissa, ja tietoa eri maiden parlamenttiaineistojen korpuksista on kerätty yhteen yleiseurooppalaisessa CLARIN-infrastruktuurihankkeessa.

Tarkempaa lisätietoa Parlamenttisammon datajulkaisuista, portaalista ja tutkimustyöstä löytyy Parlamenttisampo-hankkeen kotisivulta.

Artikkelin pääkuva: Pitkäaikainen kansanedustaja Veikko Vennamo (1913–1997) on käyttänyt eduskunnan täysistunnoissa enemmän puheenvuoroja kuin kukaan muu. Vuonna 1974 hänet jopa kannettiin ulos istuntosalista, kun hän ei suostunut poistumaan täysistunnosta puhemiehen kehotuksesta huolimatta. Kuvan lähde: STT-Lehtikuva.

Lue myös:

70 vuotta perhepolitiikkaa – Pysyvyyttä ja suuria murroksia

”Elämänkutsumukseltaan talousmies” – Risto Rytin talouspolitiikka

Suomettumisen historia Le Monde -lehdessä

Eero Hyvönen on Parlamenttisampo-hankeen vetäjä, Aalto-yliopiston tietotekniikan professori ja Helsingin yliopiston Digitaalisten ihmistieteiden keskuksen HELDIG:in johtaja.

Kirjallisuus

Van Aggelen, A., Hollink, L., Kemman, M., Kleppe, M. ja Beunders H. 2017. The debates of the European Parliament as Linked Open Data. Semantic Web – Interoperability, Usability, Applicability 8 (2), 271–281. DOI:10.3233/SW-160227
Andrushchenko, M., Sandberg, K., Turunen, R., Marjanen, J., Hatavara, M., Kurunmäki, J., Nummenmaa, T., Hyvärinen, M., Teräs, K., Peltonen, J. ja Nummenmaa J. 2021. Using parsed and annotated corpora to analyze parliamentarians’ talk in Finland. Journal of the Association for Information Science and Technology 73 (2), 1–15. DOI:10.1002/asi.24500C
Bojars, U., Dargis, R., Lavrinovics, U. ja Paikens P. 2019. LinkedSaeima. A linked open dataset of Latvia’s parliamentary debates. Semantic Systems. The Power of AI and Knowledge Graphs. SEMANTiCS 2019. Cham: Springer, 50–56. DOI:10.1007/978-3-030-33220-4_4
Blaxill, L. ja K. Beelen 2016. A feminized language of democracy? The representation of women at Westminster since 1945. Twentieth Century British History 27 (3), 412–449. DOI:10.1093/tcbh/hww028§
Drobac, S., Sinikallio, L. ja Hyvönen E. 2023. An OCR Pipeline for Transforming Parliamentary Debates into Linked Data. Case ParliamentSampo – Parliament of Finland on the Semantic Web. Digital Humanities in Nordic and Baltic Countries, Oslo, 2023, hyväksytty. https://seco.cs.aalto.fi/publications/2022/drobac-et-al-ocr-2022.pdf. Viitattu 30.1.2023.
Elo, K. 2022. Debates on European Integration in the Finnish Parliament (Eduskunta) 1990–2020. Digital Parliamentary Data in Action, CEUR Workshop Proceedings 3033.
Elo, K. ja Karimäki J. 2021. Luonnonsuojelusta ilmastopolitiikkaan. Ympäristöpoliittisen käsitteistön muutos parlamenttipuheessa 1960–2020. Politiikka 63 (4). https://doi.org/10.37452/politiikka.109690
Guldi, J. 2019. Parliament’s debates about infrastructure. An exercise in using dynamic topic models to synthesize historical change. Technology and Culture 60 (1), 1–33. DOI:10.1353/tech.2019.0000
Ihalainen, P. ja Sahala, A. 2020. Evolving Conceptualisations of Internationalism in the UK Parliament. Collocation Analyses from the League to Brexit. Teoksessa Digital histories. Toim. M. Fridlund, M. Oiva ja P. Paju. Helsinki: Helsinki University Press, 199–219. DOI:10.33134/HUP-5-12
Ikkala, E., Hyvönen, E., Rantala, H. ja Koho, M. 2022. Sampo-UI. A Full Stack JavaScript Framework for Developing Semantic Portal User Interfaces. Semantic Web – Interoperability, Usability, Applicability 13 (1), 69–84. https://content.iospress.com/articles/semantic-web/sw210428
Hyvönen, E. 2022a. Digital Humanities on the Semantic Web. Sampo Model and Portal Series. Semantic Web – Interoperability, Usability, Applicability, hyväksytty. https://seco.cs.aalto.fi/publications/2021/hyvonen-sampo-model-2021.pdf. Viitattu 30.1.2023.
Hyvönen, E. 2022b. How to Create a National Cross-domain Ontology and Linked Data Infrastructure and Use It on the Semantic Web. Semantic Web – Interoperability, Usability, Applicability, lähetetty arvioitavaksi. https://seco.cs.aalto.fi/publications/2022/hyvonen-infra-2022.pdf. Viitattu 30.1.2023.
Hyvönen, E., Sinikallio, L.¸ Leskinen, P., La Mela, M., Tuominen, J., Elo, K., Drobac, S., Koho, M., Ikkala, E., Tamper, M., Leal, R. ja Kesäniemi J. 2022. Finnish Parliament on the Semantic Web. Using ParliamentSampo Data Service and Semantic Portal for Studying Political Culture and Language. Digital Parliamentary Data in Action, Workshop at the 6th Digital Humanities in Nordic and Baltic Countries Conference, CEUR Workshop Proceedings 3133. https://seco.cs.aalto.fi/publications/2022/hyvonen-et-al-semparl-dhnb-2022.pdf. Viitattu 30.1.2023.
Hyvönen, E., Sinikallio, L.¸ Leskinen, P., La Mela, M., Tuominen, J., Elo, K., Drobac, S., Koho, M., Ikkala, E., Tamper, M., Leal, R. ja Kesäniemi, J. 2021. Parlamenttisampo. Eduskunnan aineistojen linkitetyn avoimen datan palvelu ja sen käyttömahdollisuudet. Informaatiotutkimus 40 (3), 216–244. https://doi.org/10.23978/inf.107899
La Mela, M., Norén, F. ja Hyvönen, E. (toim.) 2022. Proceedings of the Digital Parliamentary Data in Action (DiPaDA 2022) Workshop, CEUR Workshop Proceedings 3133. https://ceur-ws.org/Vol-3133/. Viitattu 30.1.2023.
Leskinen, P., Hyvönen, E. ja Tuominen, J. 2021. Members of Parliament in Finland Knowledge Graph and Its Linked Open Data Service. Further with Knowledge Graphs. Proceedings of the 17th International Conference on Semantic Systems. Amsterdam: IOS Press, 255–269. https://ebooks.iospress.nl/volumearticle/57420. Viitattu 30.1.2023.
Makkonen, K. ja Loukasmäki P. 2019. Eduskunnan täysistunnon puheenaiheet 1999–2014. Miten käsitellä LDA-aihemalleja? Politiikka 61 (2), 127−159. https://journal.fi/politiikka/article/view/77163
Poikkimäki, H., Leskinen, P., Tamper, M. ja Hyvönen E. 2022. Analyses of Networks of Politicians Based on Linked Data. Case ParliamentSampo. Parliament of Finland on the Semantic Web. Semantic Web and Ontology Design for Cultural Heritage (SWODCH 2022), Turin, Italia, Proceedings, CEUR WS Proceedings. https://seco.cs.aalto.fi/publications/2022/poikkimaki-et-al-2022.pdf. Viitattu 30.1.2023.
Sinikallio, L. Drobac, S., Tamper, M., Leal, R., Koho, M., Tuominen, J., La Mela, M. ja Hyvönen E. 2021. Plenary Debates of the Parliament of Finland as Linked Open Data and in Parla-CLARIN Markup. 3rd Conference on Language, Data and Knowledge, LDK 2021, Open Access Series in Informatics (OASIcs) 93. Zaragoza: Schloss Dagstuhl − Leibniz-Zentrum für Informatik GmbH, 8:1–8:17. https://drops.dagstuhl.de/opus/volltexte/2021/14544/pdf/OASIcs-LDK-2021-8.pdf. Viitattu 30.1.2023.