Predicting sepsis in the intensive care unit using machine learning
Junter, Einari (2020)
Diplomityö
Junter, Einari
2020
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2020051335414
https://urn.fi/URN:NBN:fi-fe2020051335414
Tiivistelmä
Sepsis is a major burden to modern hospitals in terms of cost and death. Sepsis is a condition that lacks a diagnostic test making it hard to detect timely even for experienced medical professionals. The objective of this thesis is to examine different machine learning models and their performance to help in predicting patients in risk of sepsis.
The topic of this thesis is predicting sepsis in the intensive care unit using machine learning. Relevant literature of the medical and machine learning background was examined. Related work studying predicting sepsis with machine learning was observed.
This thesis uses the MIMIC-III dataset and the currently latest definition of sepsis, Sepsis-3. Heart rate, respiratory rate, systolic and diastolic blood pressures, SpO2, temperature, bilirubin, creatinine, glucose, lactate, age and gender are used to make the predictions. A six-hour data window was used.
Models of four different types were developed during this thesis project. A random forest model, two different gradient tree boosting models and a LSTM deep learning model were trained and tested. This thesis also compares the clinical setting performance of a model using all the data available from the patients’ intensive care unit stays during the training compared to a model that uses only a fixed window close to the onset of sepsis.
The study cohort consisted of 6218 ICU stays. The patient-wise prevalence of sepsis in the study cohort was 9.2%. The best performing model, XGBoost, achieved 0.924 AUROC and 0.700 AUPRC at onset, 0.860 AUROC and 0.431 AUPRC at six hours before onset. Sepsis on suuri taakka modernille terveydenhuololle kustannuksissa ja potilaskuolemissa mitattuna. Diagnostisen testin puuttuminen tekee sepsiksestä vaikean tunnistaa potilaassa kokeneellekin terveydenhuollon ammattilaiselle. Tämän diplomityön tavoite on tutkia eri koneoppimismalleja ja niiden suorituskykyä ennustamaan teho-osaston potilaat, joilla on riski sepsikseen.
Diplomityön aihe on sepsiksen ennustaminen teho-osastolla koneoppimisen avulla. Terveydenhuollon ja koneoppimiseen liittyvää kirjallisuutta on tutkittu työtä varten. Aiemmin toteutettuja tutkimuksia sepsiksen ennustamisesta koneoppimisen avulla on käyty läpi.
Tämä työ käyttää datana MIMIC-III potilasdataa. Sepsiksen määritelmänä käytössä on työn kirjoitushetkellä viimeisin määritelmä, Sepsis-3. Potilaan syke, hengitystiheys, systolinen ja diastolinen verenpaine, SpO2, lämpötila, bilirubiini, kreatiniini, glukoosi, laktaatti, ikä ja sukupuoli ovat käytössä ennustusten tekemiseen. Kuuden tunnin dataikkunaa käytettiin.
Neljä erilaista mallia kehitettiin työn aikana. Random forest, kaksi eri gradient tree boosting mallia, sekä LSTM-syväoppimismalli opetettiin ja testattiin. Työ tarkastelee myös kliinisen asetelman suorituskykyä vertaillen kahta XGBoost mallia, jotka kehitettiin potilasdataa eri tavoin hyödyntäen. Ensimmäinen vertailun malleista kehitettiin käyttäen dataa potilaiden koko teho-osastokäynnin ajalta, kun taas toinen käyttäen vain yksittäistä dataikkunaa jokaiselle potilaalle.
Tutkimuskohortti sisälsi 6218 teho-osastokäyntiä. Potilaskohtainen sepsiksen prevalenssi kohortissa oli 9.2%. Parhaiten suoriutunut malli, XGBoost, saavutti 0.924 AUROC- ja 0.700 AUPRC-tuloksen kun ennustus tehtiin juuri ennen sepsiksen alkua, sekä 0.860 AUROC- ja 0.431 AUPRC-tuloksen kun ennustus tehtiin kuusi tuntia ennen sepsiksen ilmenemistä.
The topic of this thesis is predicting sepsis in the intensive care unit using machine learning. Relevant literature of the medical and machine learning background was examined. Related work studying predicting sepsis with machine learning was observed.
This thesis uses the MIMIC-III dataset and the currently latest definition of sepsis, Sepsis-3. Heart rate, respiratory rate, systolic and diastolic blood pressures, SpO2, temperature, bilirubin, creatinine, glucose, lactate, age and gender are used to make the predictions. A six-hour data window was used.
Models of four different types were developed during this thesis project. A random forest model, two different gradient tree boosting models and a LSTM deep learning model were trained and tested. This thesis also compares the clinical setting performance of a model using all the data available from the patients’ intensive care unit stays during the training compared to a model that uses only a fixed window close to the onset of sepsis.
The study cohort consisted of 6218 ICU stays. The patient-wise prevalence of sepsis in the study cohort was 9.2%. The best performing model, XGBoost, achieved 0.924 AUROC and 0.700 AUPRC at onset, 0.860 AUROC and 0.431 AUPRC at six hours before onset.
Diplomityön aihe on sepsiksen ennustaminen teho-osastolla koneoppimisen avulla. Terveydenhuollon ja koneoppimiseen liittyvää kirjallisuutta on tutkittu työtä varten. Aiemmin toteutettuja tutkimuksia sepsiksen ennustamisesta koneoppimisen avulla on käyty läpi.
Tämä työ käyttää datana MIMIC-III potilasdataa. Sepsiksen määritelmänä käytössä on työn kirjoitushetkellä viimeisin määritelmä, Sepsis-3. Potilaan syke, hengitystiheys, systolinen ja diastolinen verenpaine, SpO2, lämpötila, bilirubiini, kreatiniini, glukoosi, laktaatti, ikä ja sukupuoli ovat käytössä ennustusten tekemiseen. Kuuden tunnin dataikkunaa käytettiin.
Neljä erilaista mallia kehitettiin työn aikana. Random forest, kaksi eri gradient tree boosting mallia, sekä LSTM-syväoppimismalli opetettiin ja testattiin. Työ tarkastelee myös kliinisen asetelman suorituskykyä vertaillen kahta XGBoost mallia, jotka kehitettiin potilasdataa eri tavoin hyödyntäen. Ensimmäinen vertailun malleista kehitettiin käyttäen dataa potilaiden koko teho-osastokäynnin ajalta, kun taas toinen käyttäen vain yksittäistä dataikkunaa jokaiselle potilaalle.
Tutkimuskohortti sisälsi 6218 teho-osastokäyntiä. Potilaskohtainen sepsiksen prevalenssi kohortissa oli 9.2%. Parhaiten suoriutunut malli, XGBoost, saavutti 0.924 AUROC- ja 0.700 AUPRC-tuloksen kun ennustus tehtiin juuri ennen sepsiksen alkua, sekä 0.860 AUROC- ja 0.431 AUPRC-tuloksen kun ennustus tehtiin kuusi tuntia ennen sepsiksen ilmenemistä.