Predicting bankruptcy with machine learning models : a comparison between the construction and restaurant industries
Laine, Renea (2025)
Pro gradu -tutkielma
Laine, Renea
2025
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025052855508
https://urn.fi/URN:NBN:fi-fe2025052855508
Tiivistelmä
The accurate prediction of corporate bankruptcy is crucial for mitigating financial risks for companies, investors, and financial institutions. This thesis examines the effectiveness of five machine learning models Support Vector Machine (SVM), Random Forest (RF), AdaBoost, Bagging, and Artificial Neural Networks (ANN) in predicting bankruptcy in two industries: construction and restaurant. The research uses financial data from Finnish companies, collected from the Orbis database, up to three years prior to bankruptcy, covering the period from 2016 to 2022. A balanced dataset was formed by including equal numbers of bankrupt and active companies, and variables were selected based on prior research and categorized into financial groups.
The models were evaluated using 10-fold cross-validation and tested on a separate test set using classification performance metrics such as F1-score and accuracy. The findings emphasize the effectiveness of ensemble methods. In the restaurant dataset, ANN and Bagging achieved the highest performance, while in the construction dataset, AdaBoost and Random Forest outperformed others. SVM consistently showed weaker performance results. Feature importance analysis highlighted industry-specific patterns: profitability and growth were most relevant in the restaurant dataset, while size and productivity variables were dominant in construction dataset. The results support the use of domain-specific features and models for bankruptcy prediction. Additionally, the findings underscore the benefit of including size and growth variables alongside traditional financial ratios. This thesis contributes to the academic literature through a comparative evaluation of model performance and feature relevance between two industries. It also offers practical insights for selecting appropriate machine learning models and financial indicators in industry-specific bankruptcy prediction. Konkurssien ennustaminen on keskeistä taloudellisten riskien hallinnassa yrityksille, sijoittajille ja rahoituslaitoksille. Tämä tutkielma tarkastelee viiden koneoppimismallin Support Vector Machine (SVM), Random Forest (RF), AdaBoost, Bagging ja Artificial Neural Networks (ANN) toimivuutta konkurssien ennustamisessa kahdella toimialalla: rakennus- ja ravintola-alalla. Tutkimuksessa käytettiin suomalaisten yritysten taloudellisia tunnuslukuja, jotka ovat kerätty Orbis-tietokannasta, yhdestä kolmeen vuoteen ennen konkurssia, kattaen ajanjakson 2016–2022. Data-aineisto tasapainotettiin sisällyttämällä yhtä monta konkurssiin ajautunutta ja aktiivista yritystä, ja muuttujat valittiin aiempien tutkimusten perusteella ja luokiteltiin eri kategorioihin.
Koneoppimismallit arvioitiin käyttämällä 10-kertaista ristiinvalidointi ja testattiin erillisellä testijoukolla. Tuloksia tarkasteltiin erilaisilla luokittelumetriikoilla, kuten tarkkuudella ja F1-pisteytyksellä. Tulokset korostavat ensemble mallien tehokkuutta. Ravintolan data-aineistossa ANN ja Bagging saavuttivat parhaimmat tulokset, kun taas rakennusalan data-aineistossa AdaBoost ja Random Forest osoittautuivat tehokkaimmiksi. SVM-malli osoitti johdonmukaisesti heikompaa suoriutumista. Muuttujien tärkeys -analyysi paljasti toimialakohtaisia eroja: ravintola-alan aineistossa koroistuivat kannattavuuteen ja kasvuun liittyvät muuttujat, kun taas rakennusalalla tärkeimpiä olivat koko- ja tuottavuusmuuttujat. Tulokset tukevat toimialakohtaisten piirteiden ja mallien käyttöä konkurssien ennustamisessa. Lisäksi tutkimus osoittaa, että perinteisten taloudellisten tunnuslukujen rinnalle kannattaa sisällyttää myös kokoon sekä kasvuun liittyviä muuttujia.
The models were evaluated using 10-fold cross-validation and tested on a separate test set using classification performance metrics such as F1-score and accuracy. The findings emphasize the effectiveness of ensemble methods. In the restaurant dataset, ANN and Bagging achieved the highest performance, while in the construction dataset, AdaBoost and Random Forest outperformed others. SVM consistently showed weaker performance results. Feature importance analysis highlighted industry-specific patterns: profitability and growth were most relevant in the restaurant dataset, while size and productivity variables were dominant in construction dataset. The results support the use of domain-specific features and models for bankruptcy prediction. Additionally, the findings underscore the benefit of including size and growth variables alongside traditional financial ratios. This thesis contributes to the academic literature through a comparative evaluation of model performance and feature relevance between two industries. It also offers practical insights for selecting appropriate machine learning models and financial indicators in industry-specific bankruptcy prediction.
Koneoppimismallit arvioitiin käyttämällä 10-kertaista ristiinvalidointi ja testattiin erillisellä testijoukolla. Tuloksia tarkasteltiin erilaisilla luokittelumetriikoilla, kuten tarkkuudella ja F1-pisteytyksellä. Tulokset korostavat ensemble mallien tehokkuutta. Ravintolan data-aineistossa ANN ja Bagging saavuttivat parhaimmat tulokset, kun taas rakennusalan data-aineistossa AdaBoost ja Random Forest osoittautuivat tehokkaimmiksi. SVM-malli osoitti johdonmukaisesti heikompaa suoriutumista. Muuttujien tärkeys -analyysi paljasti toimialakohtaisia eroja: ravintola-alan aineistossa koroistuivat kannattavuuteen ja kasvuun liittyvät muuttujat, kun taas rakennusalalla tärkeimpiä olivat koko- ja tuottavuusmuuttujat. Tulokset tukevat toimialakohtaisten piirteiden ja mallien käyttöä konkurssien ennustamisessa. Lisäksi tutkimus osoittaa, että perinteisten taloudellisten tunnuslukujen rinnalle kannattaa sisällyttää myös kokoon sekä kasvuun liittyviä muuttujia.
