Predicting bankruptcy using logistic regression, decision tree and support vector machine : evidence from Nordic manufacturing companies
Nikkanen, Miia (2026)
Pro gradu -tutkielma
Nikkanen, Miia
2026
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2026060160737
https://urn.fi/URN:NBN:fi-fe2026060160737
Tiivistelmä
The aim of this research is to examine logistic regression, support vector machine and decision tree in predicting bankruptcy and the financial variables predicting power. The study utilizes financial data of Finnish manufacturing companies collected from the Bureau van Dijk’s Orbis Europe database, covering the years from 2015 to 2022. The dataset was balanced by selecting an equal number of active and bankruptcy firms, resulting in total 2976 observations.
To address multicollinearity, highly correlated variables were identified through correlation analysis and univariate AUC evaluation, and redundant variables were removed prior to modelling. Logistic regression coefficients showed that most variables were statistically significant, but profitability measures showed the strongest predictive power. However, decision tree identified long-term debt as the most informative predictor. Variable analysis indicated that profitability, leverage and liability variables key drivers when predicting bankruptcy.
The models were evaluated using 5-fold cross-validation and a further tested on a separate test set using classification performance metrics. Decision tree achieved highest performance while logistic regression demonstrated weak classification performance compared to the support vector machine and decision tree models. This study provides a comparative evaluation of model performance among Nordic manufacturing companies, offering evidence on predictive behaviour of sector. Tämän tutkimuksen tavoitteena on tarkastella logistisen regression, tukivektorikoneen ja päätöspuun käyttöä konkurssin ennustamisessa sekä taloudellisten muuttujien ennustusvoimaa. Tutkimuksessa hyödynnetään suomalaisen valmistusteollisuuden taloudellisia tietoja, jotka on kerätty Bureau van Dijk’s Orbis Europe tietokannasta vuosilta 2015–2022. Aineisto tasapainotettiin valitsemalla yhtä monta aktiivista ja konkurssissa olevaa yhtiötä, datasetissä on yhteensä 2976 havaintoa.
Monikollineaarisuuden huomioon ottamiseksi korrelaatioanalyysin ja yksimuuttujaisen AUC-arvioinnin avulla tunnistettiin voimakkaasti korreloivia muuttujia, ja tarpeettomat muuttujat poistettiin ennen mallinnusta. Logistisen regression kertoimet osoittivat, että useimmat muuttujat olivat tilastollisesti merkitseviä, mutta kannattavuusmittarit osoittivat vahvimman ennustusvoiman. Päätöspuu kuitenkin tunnisti pitkäaikaisen velan informatiivisimmaksi ennustajaksi. Muuttuja-analyysi osoitti, että kannattavuus-, velkaantumisaste- ja velkamuuttujat olivat keskeisiä ajureita konkurssin ennustamisessa.
Malleja arvioitiin käyttämällä 5-kertaista ristivalidointia ja testattiin erillisellä testijoukolla luokittelun suorituskykymittareita käyttäen. Päätöspuu saavutti parhaan suorituskyvyn, kun taas logistinen regressio osoitti heikkoa luokittelun suorituskykyä verrattuna tukivektorikone ja päätöspuu menetelmään. Tämä tutkimus tarjoaa vertailevan arvion mallien suorituskyvystä pohjoismaisissa teollisuusyrityksissä ja tarjoaa näyttöä toimialan ennustettavasta käyttäytymisestä.
To address multicollinearity, highly correlated variables were identified through correlation analysis and univariate AUC evaluation, and redundant variables were removed prior to modelling. Logistic regression coefficients showed that most variables were statistically significant, but profitability measures showed the strongest predictive power. However, decision tree identified long-term debt as the most informative predictor. Variable analysis indicated that profitability, leverage and liability variables key drivers when predicting bankruptcy.
The models were evaluated using 5-fold cross-validation and a further tested on a separate test set using classification performance metrics. Decision tree achieved highest performance while logistic regression demonstrated weak classification performance compared to the support vector machine and decision tree models. This study provides a comparative evaluation of model performance among Nordic manufacturing companies, offering evidence on predictive behaviour of sector.
Monikollineaarisuuden huomioon ottamiseksi korrelaatioanalyysin ja yksimuuttujaisen AUC-arvioinnin avulla tunnistettiin voimakkaasti korreloivia muuttujia, ja tarpeettomat muuttujat poistettiin ennen mallinnusta. Logistisen regression kertoimet osoittivat, että useimmat muuttujat olivat tilastollisesti merkitseviä, mutta kannattavuusmittarit osoittivat vahvimman ennustusvoiman. Päätöspuu kuitenkin tunnisti pitkäaikaisen velan informatiivisimmaksi ennustajaksi. Muuttuja-analyysi osoitti, että kannattavuus-, velkaantumisaste- ja velkamuuttujat olivat keskeisiä ajureita konkurssin ennustamisessa.
Malleja arvioitiin käyttämällä 5-kertaista ristivalidointia ja testattiin erillisellä testijoukolla luokittelun suorituskykymittareita käyttäen. Päätöspuu saavutti parhaan suorituskyvyn, kun taas logistinen regressio osoitti heikkoa luokittelun suorituskykyä verrattuna tukivektorikone ja päätöspuu menetelmään. Tämä tutkimus tarjoaa vertailevan arvion mallien suorituskyvystä pohjoismaisissa teollisuusyrityksissä ja tarjoaa näyttöä toimialan ennustettavasta käyttäytymisestä.
