Aineenvaihduntadatan käyttäminen diabetesriskin ennustamisessa

Tässä blogitekstissä väitöskirjatutkija Eetu Kiviniemi kertoo vastajulkaistusta tutkimuksestaan, jossa selvitettiin, voivatko metaboliset muuttujat parantaa tyypin 2 diabeteksen riskilaskurin erottelukykyä.
Risk_prediction_illustration
Mikä on riskiennustemalli?

Suomessa vuonna 2003 kehitetty FINDRISC-riskiennustemalli on tilastollinen malli, joka laskee henkilöille riskin, eli todennäköisyyden, sairastua tyypin 2 diabetekseen seuraavien viiden vuoden aikana. Malli perustuu pieneen joukkoon kliinisiä ja kyselymuuttujia, kuten sukupuoli, ikä, painoindeksi, tai lääkärin toteama koholla oleva verensokeri. Malli on kansainvälisestikin laajasti käytössä, ja sen toimintaa voi itse kokeilla Diabetesliiton sivuilla. Pienestä selittävien muuttujien joukosta huolimatta malli kykenee erottelemaan korkean ja matalan riskin henkilöt toisistaan hyvällä tarkkuudella.

Parempi riskiennustemalli?

Voisiko mallia kuitenkin parantaa, jos hyödynnettäisiin tarkempaa mittaustietoa? Verinäytteestä mitattavat metaboliset eli aineenvaihdunnan muuttujat liittyvät ihmisen aineenvaihduntaan, ja sisältävät yksityiskohtaista tietoa erilaisten aminohappojen ja lipidien konsentraatioista veressä. Yksinkertaistetusti kyseessä on siis hyvin tarkka verikoe. Jos FINDRISC-mallin muuttujien lisäksi hyödynnetään myös metabolisia muuttujia, saadaanko mallin erottelukykyä parannettua entisestään? Tätä selvitimme vastikään julkaistussa tutkimuksessamme.

Miten riskiennustemalli tehdään?

Pohjimmiltaan riskiennustemalli on vain parhaaksi katsottu lineaarikombinaatio käytetyistä muuttujista. Jokainen muuttuja kerrotaan kukin omalla (regressio-)kertoimellaan ja lasketaan yhteen. Mallin rakentaminen tarkoittaa käytännössä näiden regressiokertoimien arvojen määrittämistä. Tilastollinen malli rakennetaan opetusaineistossa, ja mallin erottelukykyä voidaan arvioida testiaineistossa.

Opetusaineistona käytimme suomalaista FINRISK2002-kohorttia, joka koostuu noin 5000 henkilöstä. Tulosten yleistettävyyden arvioimiseksi hyödynsimme useita testiaineistoja: FINRISK-kohortteja vuosilta 1997, 2007 ja 2012, sekä oululaista NFBC1966-kohortin 46-vuotiskeräystä (noin 17000 henkilöä). Suuri joukko keskenään riippumattomia testikohortteja tarjoaa kiinnostavan asetelman, jossa samassa tutkimuksessa saadaan sekä rakennettua ennustemalleja, että arvioitua niiden yleistettävyyttä.

Aluksi tarvitaan vertailukohta eli pohjamalli, johon parempia malleja voidaan verrata. Pohjamalli rakennettiin 15 kliinisestä muuttujasta: näihin kuuluivat ikä, sukupuoli, alkoholinkäyttö, tupakointi, vyötärönympärys, BMI, systolinen ja diastolinen verenpaine, HDL ("hyvä kolesteroli"), kokonaiskolesteroli, triglyseridit, verensokeri, verenpainelääkitys, lipidilääkitys ja diabeteksen perhehistoria. Pohjamalli perustuu siis muuttujiin, jotka voidaan mitata tavallisessa terveystarkastuksessa. Pohjamalli sisältää enemmän ja hiukan erilaisia muuttujia kuin FINDRISC, ja toimii testiaineistoissa oikein hyvin.

Metabolisia muuttujia oli mukana aineistoissa reilut 150. Riskinä suuren selittävien muuttujien joukon kanssa on ylisovitus, jolloin rakennettu malli noudattaa opetusaineiston rakenteita niin tarkasti, ettei se enää kykene yleistymään testiaineistoon. Ylisovituksen välttämiseksi hyödynnetään erilaisia tilastollisia menetelmiä, kuten mallinvalintaa(=menetelmiä, jotka rajoittavat malliin mukaan otettavien selittävien muuttujien joukkoa, esim. askeltava regressio) ja/tai sakotusta (=menetelmiä, jotka rajoittavat selittävien muuttujien regressiokertoimien suuruutta, esim. harjanneregressio). Jotkin menetelmät tekevät sekä mallinvalintaa että sakotusta, kuten LASSO-regressio sekä elastinen verkko.

Lisäksi testasimme, onko mallin toiminnan kannalta vaikutusta sillä, lisätäänkö metaboliset muuttujat kliinisten muuttujien lisäksi, vai mahdollisesti niiden sijasta. Mallien rakentamiseksi kokeiltiin useita erilaisia menetelmiä, siten että lopulta verrattavia malleja oli yhteensä 18 kappaletta. Mallien toimintaa arvioitiin vertailemalla erottelukykyä (=laskeeko malli korkeamman riskin niille, jotka oikeasti sairastuvat kuin niille, jotka eivät sairastu) sekä kalibraatiota (=ovatko mallin laskemat riskit linjassa havaittujen riskien kanssa).

Metaboliset muuttujat eivät parantaneet pohjamallia

Tutkimuksen lopputulos oli jokseenkin negatiivinen: metabolisten muuttujien ei havaittu tuottavan sellaista parannusta pohjamalliin verrattuna, jolla olisi käytännön merkitystä. Yksittäisissä kohorteissa havaittiin pientä tilastollisesti merkitsevää parannusta erottelukyvyssä joillakin malleilla, mutta sama ei toistunut muissa kohorteissa. Kalibraation osalta selvää parannusta ei havaittu missään testikohortissa.

Miksi metaboliset muuttujat eivät parantaneet pohjamallia?

Ennakkoon ajatus oli, että jotain parannusta saataisiin kyllä aikaan; aiemmissa tutkimuksissa on havaittu assosiaatioita monien metabolisten muuttujien ja diabetesriskin välillä. Miksi metaboliset muuttujat eivät kuitenkaan johtaneet selvästi parempiin malleihin?

Suurin ongelma on datan multikollineaarisuus. Metaboliset muuttujat korreloivat voimakkaasti kliinisten muuttujien kanssa, eli metaboliset ja kliiniset muuttujat ovat tavallaan liian samanlaisia. Metaboliset muuttujat eivät siis sisällä tarpeeksi uutta tietoa, jotta niitä käyttävän mallin erottelukyky selvästi paranisi pohjamalliin verrattuna. Useitakin metabolisia muuttujia voisi hyvin käyttää joidenkin kliinisten muuttujien sijasta, mutta mallit eivät niiden lisäyksellä parane.

Kirjoittaja:

Eetu Kiviniemi

Tutkimusjulkaisu: Kiviniemi et al. 2025. Developing risk prediction models for type 2 diabetes and assessing the role of circulating metabolic biomarkers in five independent Finnish cohorts with over 22,000 individuals. Journal of Clinical Epidemiology, 188, 111978.

Luotu 31.10.2025 | Muokattu 31.10.2025