Rekisteriaineistoihin perustuva tutkimus on Suomessa merkittävää ja kansainvälisestikin arvostettua. Data-analytiikkaa hyödyntämällä olisi mahdollista myös kohdentaa erilaisia palveluita ja etuuksia entistä tehokkaammin.
”Ihmisillä on erilaisia elämäntilanteita ja palveluntarpeita. Osa selviää helpolla ja löytää tarvitsemansa, osa tarvitsee enemmän neuvontaa. Tärkeätä on, että löydettäisiin niitä asiakkaita, jotka eivät muuten osaa tarvitsemiaan palveluita ja etuuksia hakea”, sanoo tutkimuspäällikkö Karoliina Koskenvuo Kelan tutkimuksesta.
Ennakoivalla datankäytöllä apua ajoissa
Yhtenä ennakoivan datankäytön hyödyntämisen kohderyhmänä on tuotu esille nuoret, joilla on korostunut riski yhteiskunnassa normaalina pidettyjen toimintojen ulkopuolelle jäämiseen sekä ongelmien kasautumiseen ja pitkittymiseen. Putoaminen tyystin koulutuksen ja työelämän ulkopuolelle on usein monien tekijöiden summa, jolla on vakavia ja kalliita seurauksia sekä yksilölle että yhteiskunnalle.
Nuoren tilanteen pitkittyessä ongelmat syvenevät. Työn tai opintojen syrjään on entistä vaikeampi päästä. Mitä aikaisemmin tilanteeseen voidaan puuttua, sitä paremmin voidaan ehkäistä pitkäaikaisia vaikutuksia.
Tekoälyn hyödyntämistä sosiaalisen syrjäytymisen riskiarvioinnissa on tutkittu muun muassa Jyväskylän yliopistossa vuonna 2018 ja Fujitsun ja Eksoten yhteisessä vuonna 2019 aloitetussa hankkeessa. THL ja Me-säätiö ovat tuottaneet mallin, joka tunnisti datasta kymmenen tärkeintä syrjäytymisen riskitekijää.
Viime vuodesta lähtien myös Kelan Data science -tiimi on kehittänyt vastaavaa mallia Kelan datan pohjalta.
”Ideana on löytää nuoria, jotka olisivat tehostetumman palvelun ja tuen tarpeessa. Olemme tehneet noin kuukausittain uusia ennusteita uusimman tiedon varassa”, kertoo ryhmään vuonna 2020 liittynyt Sanna Hemminki.
Tietojenkäsittelytiedettä Englannissa opiskellut Hemminki tuli Kelaan ohjelmistoalalta.
Ennakoiva datankäyttö tunnistaa riskitekijöitä
Vuonna 2019 perustettu Kelan Data science -tiimi on kasvanut talon sisäiseksi kuuden hengen palveluntarjoajaksi. Se kehittää ratkaisuja erilaisten riskitekijöiden tunnistamiseksi kymmenien tai jopa satojen tuhansien asiakkaiden joukosta.
Tiimi tuottaa tilastollisia ennustemalleja ja louhii dataa suunnittelun tueksi. Käytännössä koneelle syötetään oppimateriaaliksi tietoa aikaisemmilta vuosilta. Sen pohjalta malli laskee tekijöitä, jotka ennakoivat tiettyä lopputulosta eli vastetta.
”Suurimmat haasteet liittyvät oikean tiedon poimimiseen valtavasta datamassasta. On tiedettävä, mitä muuttujia halutaan tarkastella ja mikä on vaste, jota etsitään”, Hemminki sanoo.
Missään tietokannoissa ei ole sellaista merkintää kuin ”syrjäytynyt”. Malli tunnistaa sen sijaan esimerkiksi nuoria, joilla on suuri riski päätyä pitkäkestoisesti toimeentulotuen saajaksi seuraavan puolen vuoden aikana. Muuttujina on taustatietoja sukupuolesta ja iästä siviilisäätyyn ja asuinpaikkaan sekä muun muassa tietoja etuuksista ja niiden perusteista, Kelan asiointimääristä ja esimerkiksi opintojen keskeytymisestä.
Pääasiallinen datan lähde on Kelan tietovarasto, johon yhdistettiin vuonna 2013 noin 120 tilastotietokannan aineistot. Niistä löytyy tietoa esimerkiksi etuuspäätöksistä ja niiden perusteista.
Tarkoituksena on löytää erityispalvelun, kuten moniammatillisen palvelun, tarpeessa olevia nuoria.
”Mallin tulokset ovat hyviä. Mutta koska se ennustaa riskiä, osumatarkkuus huononee sitä mukaa, mitä suurempi lista otetaan. Jos koko otos on satoja tuhansia asiakkaita, niin listan ensimmäiset 50 ovat hyvin suurella todennäköisyydellä erityispalvelun tarpeessa”, Hemminki sanoo.
Tutkimusnäyttö syrjäytymisen riskitekijöistä on vankkaa
Malleja myös parannetaan jatkuvasti käytännön kokemusten mukaan. Tietovarastosta voidaan seurata, kuinka moni mallin tunnistamista päätyy esimerkiksi eri etuuksien ja palvelujen piiriin.
Karoliina Koskenvuon mukaan tutkimusnäyttö terveyden ja hyvinvoinnin riskitekijöistä on vankkaa, mutta ennustemallien käytöstä on vielä paljon opittavaa.
Elämänkaariepidemiologia kartoittaa erilaisten tekijöiden vaikutusta elämään aina sikiöajasta lähtien. Kun tietyt riskitekijät osuvat yhteen, ne ennakoivat kasvanutta todennäköisyyttä joutua tiettyihin ongelmatilanteisiin.
Monet syrjäytymisen riskitekijöistä, kuten yksinäisyys tai kuormittavat elämänkokemukset, eivät näy suoraan rekisteriaineistosta. Tietoa on osattava tulkita oikein.
”Kelan datassa on tietoa muun muassa sairausperusteisista etuuksista. Päätyminen jollekin etuudelle ei aina kerro riskin laukeamisesta. Sehän voi olla myös positiivinen käänne: ihminen on saanut etuutta tai palvelua, jota hän tarvitsee”, Koskenvuo sanoo.
Tietosuoja ei vaarannu
Toinen keskeinen kysymys on, miten mallin löytämiä ihmisiä lähestytään ja miten he reagoivat yhteydenottoihin. Käynnissä olevassa pilottihankkeessa Kelan asiantuntija soittaa ennustemallin löytämälle asiakkaalle ja kartoittaa asiakkaan tilanteen, arvioi tämän palvelutarvetta ja tarjoaa asiakkaalle tämän tarvitsemia palveluita. Ennusteet eivät johda automaattisesti toimenpiteisiin vaan toimivat tukena oikeiden palvelujen tarjoamisessa.
Samalla pilotissa selvitetään ennustemallin oikeellisuutta ja verrataan mallia siihen, mitä palveluita asiakkaalle lopulta tarjotaan. Ovatko ennustemallin löytämät asiakkaat erityisen tuen tarpeessa?
”Kehitystyöhön kannattaa liittää tutkimus ja vaikutusten seuranta. Miten ennustemallit onnistuvat löytämään ihmisiä, joita halutaan löytää, ja mitä siitä seuraa? Saadaanko nuoria ohjattua oikeiden tukitoimien ääreen oikeaan aikaan”, Koskenvuo pohtii.
Tähän kytkeytyvät myös tekoälyyn ja ennakoivaan dataan liittyvät uhkakuvat profiloinnista ja yksityisyyden suojasta.
”Data science -tiimin käyttämä opetusdata esimerkiksi on tarkkaan pseudonymisoitu, Hemminki toteaa.
”On myös selvää, ettei monipuolinenkaan rekisteriaineisto välttämättä anna kovin tarkkaa kuvaa ihmisen elämäntilanteesta. Vaikka saisi jotain sairausperusteista etuutta, ei voida tietää kuinka sairaaksi henkilö itsensä kokee”, Koskenvuo huomauttaa.
Positiivinen elämänkierre voi alkaa oikea-aikaisesta avusta
”Kiinnostus ennakoivaan datan käyttöön on kovassa kasvussa”, Hemminki kertoo.
Hemminki on ollut kehittämässä myös esimerkiksi mallia, joka ennakoi Kelan tietovaraston datan perusteella asiakkaan riskiä joutua työkyvyttömyyseläkkeelle. Jos heille voidaan tarjota ajoissa esimerkiksi kuntoutusta, voi työkyky pysyä parempana pidempään.
”Oikea-aikainen apu ja tuki voi johtaa positiiviseen elämänkierteeseen. Se on ennakoivan datan suuri lupaus yhteiskunnalle”, Koskenvuo sanoo.