Predicting disease-specific survival of colorectal cancer patients using serum and tissue data : a comparison of statistical and machine learning techniques for survival analysis, imputation, and feature selection
Lunttila, Jenni (2022)
Diplomityö
Lunttila, Jenni
2022
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022042931595
https://urn.fi/URN:NBN:fi-fe2022042931595
Tiivistelmä
Globally colorectal cancer (CRC) is the third most common cancer. The incidence rates of CRC are rising, especially in high-income countries. In Finland CRC has one of the highest mortality rates compared to other cancers. Earlier diagnosis helps to achieve better prognosis for patients. Thus, creating demand for improving diagnosis methods. Through enhanced computational capabilities the possibilities for a shift towards more patient-centred care can be developed. Advanced statistical and machine learning applications could provide as helpful in identification of biomarkers with high prognostic value and resulting in novel prospects for cancer therapy.
This thesis aims to identify variables with predictive potential and estimate survival of CRC patients. The state-of-art of survival analysis literature in the field of oncology is discussed. The issue with incomplete data is addressed using three different imputation techniques: listwise deletion, median imputation, and kNN-imputation. From those imputed datasets the important variables are identified by applying three different feature selection techniques. The sample size is artificially increased using MICE. The survival analysis is conducted utilizing Cox proportional hazards (CPH) model and random survival forests (RSF). The models are validated by holdout method and semi-stratified k-fold cross-validation (cv). The RSF models slightly outperformed CPH models. The highest performance according to c-index is obtained from kNN-imputed RSF model with log-rank splitting rule (0.751 on test data, 10-fold cv). Paksu- ja peräsuolisyövät (suolistosyöpä) ovat kolmanneksi yleisin syöpä maailmanlaajuisesti. Näiden syöpien esiintyvyys kasvaa erityisesti teollistuneissa maissa. Yksi korkeimmista syöpäkuolleisuuksista Suomessa ilmenee suolistosyöpäpotilailla. Potilaan ennuste on sitä parempi mitä aiemmin syöpä diagnosoidaan. Tämä luo kriittisen tarpeen diagnosointimenetelmien kehittämiselle. Laskentakapasiteetin kehittymisen myötä mahdollistuu muutos kohti potilaskeskeisempää hoitoa. Edistyneet tilastolliset ja koneoppimisen sovellukset auttavat ennustavien biomarkkereiden tunnistamisessa ja täten johtavat uusien syöpäterapioiden kehittämiseen.
Tämän diplomityön tavoitteena on tunnistaa ennustamiseen soveltuvia muuttujia ja arvioida suolistosyöpäpotilaiden elinaikaa. Työssä tarkastellaan aiempaa onkologista elinaika-analyysikirjallisuutta. Epätäydellisen aineiston haasteisiin vastataan kolmella imputointimetodilla: epätäydellisten rivien poisto, mediaani-imputointi ja kNN-imputointi. Täydennetyistä aineistoista tärkeimmät muuttujat tunnistetaan kolmella piirteenvalintatekniikalla. Aineistokokoa laajennetaan keinotekoisesti MICE-tekniikalla. Elinaika-analyysiin käytetään Coxin mallia (CPH) sekä satunnaiselossaolometsiä (RSF). Mallit validoidaan holdout -menetelmällä ja ositetulla k-kertaisella ristiinvalidoinnilla (rv). RSF-mallit suoriutuvat elinajan ennustamisessa CPH-malleja hieman paremmin. Paras suorituskyky c-indeksillä mitattuna saavutetaan RSF-mallilla käyttäen log-rank jakosäännöstä ja kNN-imputoitua aineistoa (0.751 testiaineistolla, 10-kertainen rv).
This thesis aims to identify variables with predictive potential and estimate survival of CRC patients. The state-of-art of survival analysis literature in the field of oncology is discussed. The issue with incomplete data is addressed using three different imputation techniques: listwise deletion, median imputation, and kNN-imputation. From those imputed datasets the important variables are identified by applying three different feature selection techniques. The sample size is artificially increased using MICE. The survival analysis is conducted utilizing Cox proportional hazards (CPH) model and random survival forests (RSF). The models are validated by holdout method and semi-stratified k-fold cross-validation (cv). The RSF models slightly outperformed CPH models. The highest performance according to c-index is obtained from kNN-imputed RSF model with log-rank splitting rule (0.751 on test data, 10-fold cv).
Tämän diplomityön tavoitteena on tunnistaa ennustamiseen soveltuvia muuttujia ja arvioida suolistosyöpäpotilaiden elinaikaa. Työssä tarkastellaan aiempaa onkologista elinaika-analyysikirjallisuutta. Epätäydellisen aineiston haasteisiin vastataan kolmella imputointimetodilla: epätäydellisten rivien poisto, mediaani-imputointi ja kNN-imputointi. Täydennetyistä aineistoista tärkeimmät muuttujat tunnistetaan kolmella piirteenvalintatekniikalla. Aineistokokoa laajennetaan keinotekoisesti MICE-tekniikalla. Elinaika-analyysiin käytetään Coxin mallia (CPH) sekä satunnaiselossaolometsiä (RSF). Mallit validoidaan holdout -menetelmällä ja ositetulla k-kertaisella ristiinvalidoinnilla (rv). RSF-mallit suoriutuvat elinajan ennustamisessa CPH-malleja hieman paremmin. Paras suorituskyky c-indeksillä mitattuna saavutetaan RSF-mallilla käyttäen log-rank jakosäännöstä ja kNN-imputoitua aineistoa (0.751 testiaineistolla, 10-kertainen rv).