Siirry sisältöön
Kehittyvä sosiaaliturva
|
17.12.2021

Avoin data tuo Kelan tilastot tarjolle entistä laajemmin

Kela on alkanut julkaista tilastotietojaan avoimena datana Avoindata.fi-palvelussa. Se avaa sosiaaliturvaa koskevalle tiedolle kokonaan uusia käyttömahdollisuuksia tutkimuksessa ja digitaalisissa sovelluksissa.
Teksti Matti Remes | Kuvat iStock
Kuvassa kädet läppärin näppäimillä. Ympärillä leijuu erikokoisia kuplia joissa symboleita: suurennuslasi, euron merkki, pieni graafi jne.

Kela aikoo julkaista jatkossa avointa dataa muun muassa aineistoista, joita on jo nyt saatavilla Kelasto-palvelusta.

Kelan hoitamasta sosiaaliturvasta löytyy tilastotietoa Kelan tilastotietokanta Kelastosta, mutta jatkossa tuota tietoa saa myös Avoindata.fi-portaalista.

Avoindata.fi on Digi- ja väestötietoviraston ylläpitämä palvelu, jossa julkisen sektorin toimijat voivat julkaista keskitetysti tuottamaansa avointa tietoa.

Kelan ensimmäiset avoimen datan aineistot koskevat Kelan maksaman perustoimeentulon menoja ja palautuksia  sekä kunnan osarahoittaman työmarkkinatuen saajia ja maksettuja etuuksia.

Aineistojen julkaisu avoimena datana liittyy Kelan strategiseen tavoitteeseen palvella yhteiskuntaa tiedolla. Avoimella datalla tarkoitetaan julkista tietoa, joka on koneluettavassa muodossa vapaasti ja maksutta kaikkien hyödynnettävissä.

Kela lisää avoimen datan tarjontaa jatkossa

Ensimmäiset Kelan aineistot tulivat Avoindata.fi -palveluun elokuussa. Kelan suunnittelun asiantuntija Jaana Ruokonen kertoo, että liikkeelle lähdettiin aineistoista, joita on erityisesti kysytty.

– Esimerkiksi kunnat ovat toivoneet avointa dataa osarahoitetusta työmarkkinatuesta, kun ne tekevät selvityksiä työmarkkinatuen kokonaisuudesta, Ruokonen sanoo.

Kela aikoo julkaista jatkossa avointa dataa muun muassa aineistoista, joita on jo nyt saatavilla Kelasto-palvelusta. Suurin ero on, että Avoindata.fi -palvelussa data on koneluettavassa muodossa, jolloin sen digitaalinen hyödyntäminen sovelluksissa on helpompaa.

Ruokosen mukaan seuraavat avoimen datan aineistot tuotetaan työttömyysetuuksien, työmarkkinatuen, asumistuen ja lääkekorvausten maksuista ja saajista.

– Kasvatamme avoimen datan tarjontaa tulevaisuudessa merkittävästi. Kelassa on valmiudet julkaista lähemmäs sata erilaista ja eritasoista aineistoa avoimena datana, Ruokonen toteaa.

Kelan avoin data sisältää etuuskohtaista tietoa muun muassa saajien määrästä ja maksettujen etuuksien euromäärästä. Aineiston tieto on luokiteltu esimerkiksi ikäryhmien ja sukupuolen mukaan. Tietoa julkaistaan kuntatasoisesti, ja sitä voi tarkastella myös isompien maantieteellisten alueiden mukaan jaoteltuna.

Ruokonen korostaa tietosuojan varmistamista datan avaamisessa. Yksittäisten henkilöiden epäsuora tunnistaminen on estetty yhdistämällä liian pieniä tietoryhmiä. Jos esimerkiksi etuuden saajien määrä on jollain luokittelun tasolla liian pieni, tietoa ei ilmoiteta.

Lääkkeisiin ja sairastamiseen liittyvä data kiinnostaa

Kelan tietoaineistoon Avoindata.fissä sisältyy aina csv-muotoinen data ja json-muotoinen metadata. Tietoja voi käyttää manuaalisesti esimerkiksi Excel-tiedostoina tai sähköisesti eri ohjelmointikielillä.

Jaana Ruokosen mukaan datan avaaminen uuteen kanavaan vaatii teknisesti suhteellisen paljon työtä.

– Aineiston toimivuus ja laatu varmistetaan testeillä. Lisäksi datan yhteydessä tuotetaan tarvittava metadata eli kuvaus siitä, mitä tieto kertoo.  Alussa tehty huolellinen työ kuitenkin auttaa tulevien aineistojen muodostamisessa, kun tähän on valmiit toimintamallit.

Ruokonen toivoo, että Kelan avoimelle datalle löytyy hyötykäyttöä ja uusia käyttäjiä. Kelaston kautta dataa hyödyntävät jo nyt esimerkiksi valtakunnalliset ja alueelliset toimijat erilaisiin selvityksiin.

Kelan dataa hyödyntävät myös tutkijat ja opiskelijat. Data kiinnostaa lisäksi lääke- ja terveysalan yrityksiä, sillä Kelalta löytyvät tilastot esimerkiksi sairausvakuutuksesta korvattavista lääketoimituksista, lääkekorvausten saajista ja määrätyistä reseptilääkkeistä.

– Ennustan, että eniten Kelan avoimesta datasta haetaan jatkossa lääkkeisiin ja sairastamiseen liittyvää tietoa. Näistä aihepiireistä on tehty meille myös eniten tietopyyntöjä.

Avoindata.fistä löytyvien aineistojen ohella keskeinen tilastotieto Kelan hoitamasta sosiaaliturvasta löytyy jatkossakin Kelastosta, jossa käyttäjä voi muodostaa raportteja haluamillaan valinnoilla.

Kelaston keskeistä sisältöä ovat tiedot Kelan etuuksien saajista sekä maksetuista ja keskimääräisistä etuuksista. Lisäksi sieltä saa tietoa Kelaan saapuvista hakemuksista ja niiden ratkaisuista. Koko maan tietojen lisäksi tiedot ovat saatavissa alue- ja kuntajaotuksilla.

Kelasto

Kelasto on tilastotietokanta, jonne on koottu keskeinen tilastotieto Kelan hoitamasta sosiaaliturvasta.

Kelastossa on tietoja esimerkiksi etuuksien saajien määristä ja maksettujen etuuksien määristä. Käyttäjä voi tehdä raportteja haluamillaan valinnoilla Kelan tilastotiedoista.

Vuonna 2020 raportteja ladattiin noin 8 000 kertaa kuukaudessa.

Kela tavoittelee datalle uusia käyttäjäryhmiä

Kelan tutkija Markus Kainu on perehtynyt laajasti avoimen datan tuottamiseen ja hyödyntämiseen eri yhteyksissä. Jaana Ruokosen tavoin hänkin toivoo, että tieto Kelan tarjoamasta datasta leviää jatkossa potentiaalisille käyttäjille, kun aineistojen määrä kasvaa Avoindata.fissä.

– Pelkkä datan avaaminen ei kuitenkaan riitä. Myös tiedon käytön tulee olla teknisesti mahdollisimman helppoa.

Tutkimuksen rinnalla Kainu kehittää ohjelmistoja, joilla avointa dataa voidaan hyödyntää entistä helpommin. Tähän käytetään esimerkiksi tilastolliseen laskentaan kehitettyä R-ohjelmointikieltä.

Kainun mielestä haasteena on runsaudenpula tarjolla olevasta avoimesta datasta.

– Sitä on niin paljon tarjolla maailmassa, että Kelan tyyppisen organisaation on tehtävä kaikkensa sen eteen, jotta osaavat ohjelmistokehittäjät hyödyntäisivät aineistojamme.

Esimerkiksi Avoindata.fistä eniten ladattuihin aineistoihin kuuluvat paikka-, väestö- ja säätiedot.

Kainu huomauttaa, että sosiaaliturvaan liittyvistä aineistoista kiinnostuneiden joukko on rajallinen.

– Uusia käyttäjäryhmiä voidaan kuitenkin löytää tarjoamalla esimerkkejä siitä, miten Kelan avointa dataa voidaan yhdistää vaikkapa kartta- tai väestötietoon.

Avointa dataa hyödynnetään tutkimuksessa

Kela hyödyntää tutkimustoiminnassaan laajasti myös muiden tahojen avointa dataa, esimerkiksi kaupunkien, Digi- ja väestötietoviraston ja Tilastokeskuksen tuottamaa tietoa.

Kelan tutkimuksissa on hyödynnetty myös Maanmittauslaitoksen paikkatietoja  ja OpenStreetMap-yhteistyöprojektin karttatietoja, kun on analysoitu esimerkiksi Kelan korvaamien taksimatkojen määränpäitä ja reittejä.

– Analyysit lisäävät ymmärrystä järjestelmän toiminnasta ja antavat taustatietoa tuleviin kilpailutuksiin, Kainu sanoo.

Suomen ympäristökeskuksen vyöhyketietoja käytetään puolestaan Kelan ja THL:n hankkeessa, jossa selvitetään muuttoliikettä ja sosiaalipolitiikkaa lähiöiden väestörakenteen ja sosiaalisten ongelmien muokkaajana. Hanke on osa ympäristöministeriön lähiöohjelmaa.

Ilmatieteen laitoksen tuottamaa säädataakin on Kelassa hyödynnetty. Kainun mukaan sitä käytettiin pari vuotta sitten taksimatkojen sääolosuhteiden selvittämisessä.

– Tieto oli apuna arvioitaessa sähköautojen soveltuvuutta Kelan korvaamiin kuljetuksiin Suomen sääoloissa.

Avoimella datalla on paljon käyttökohteita

Avoin data on digitaalisessa muodossa olevaa informaatiota, joka on kaikkien vapaasti käytettävissä mihin tahansa käyttöön, kunhan sen alkuperäinen lähde mainitaan. Data voi olla esimerkiksi väestötietoja, karttatietoja tai vaikkapa reaaliaikaista dataa bussien sijainneista.

Avoindata.fi-palvelu kokoaa yhteen yhteiskunnallisesti ja taloudellisesti arvokasta avointa dataa, jota julkisen sektorin toimijat keräävät ensisijaisesti omaa käyttöään varten. Dataa voidaan julkaista, mikäli se ei sisällä yksityisyyden suojan piiriin kuuluvaa henkilötietoa tai muusta syystä arkaluonteista tai salassa pidettävää aineistoa.

Avoimella datalla tarkoitetaan digitaalisesti tallennettua, merkeistä ja symboleista koostuvaa informaatiota, jota voidaan lukea koneellisesti. Kyse on eräänlaisesta raaka-aineesta, jota kuka tahansa voi ladata omaan käyttöönsä ja hyödyntää esimerkiksi tutkimuksissa ja sovelluskehityksessä.

Lähde: Avoindata.fi

Seuraa sosiaaliturvan kehityksen isoja ja pieniä aiheita, tutkimuksia ja tilastoanalyysejä.

Tilaa uutiskirje