Default prediction modeling of Swedish SMEs with machine learning
Kaipio, Jori (2020)
Pro gradu -tutkielma
Kaipio, Jori
2020
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2020120499478
https://urn.fi/URN:NBN:fi-fe2020120499478
Tiivistelmä
The purpose of the study is to evaluate and compare machine learning models against logistic regression in default prediction of Swedish based small and medium-sized enterprises. Machine learning models are modern approach for classification problems and have proved significant performance compared to statistical models in previous studies. The study consists of literature review on default prediction and an empirical analysis where the default prediction models are built using selected machine learning algorithms. The models selected to the study were logistic regression, Support Vector Machines, bagged decision trees and AdaBoost decision trees. Using equal samples of defaulted and non-defaulted Swedish SMEs, this study showed that the machine learning models slightly outperformed the logistic regression in terms of overall efficiency. The best performing models in this study are found to be AdaBoost decision tree and Support Vector Machine. The findings of this study conclude that Machine Learning models can perform better than the logistic regression model in default pre-diction of small and medium-sized companies. Tutkimuksen tarkoituksena on arvioida ja vertailla koneoppimismallien ja logistisen regression ennustuskyvykkyyttä ruotsalaisten pienten ja keskisuurten yritysten luottoriskin mallintamisessa. Koneoppimismallit ovat moderni lähestymistapa luokitteluongelmiin ja aikaisemmissa tutkimuksissa luottoriskin mallintamisessa on löydetty merkittäviä suorituskykyeroja tilastollisiin malleihin verrattuna. Tutkimus sisältää kirjallisuuskatsauksen luottoriskin ennustamisesta sekä empiirisen osuuden, jossa luottoriskin ennustusmallit luodaan. Tutkimukseen valitut mallit ovat logistinen regressio, tukivektorikone, AdaBoost -tehostettu päätöspuu ja Satunnainen metsä bootstrap-aggregoitu päätöspuu. Käyttämällä tasapainoista otosta terveitä ja maksukyvyttömiä yrityksiä tutkimustulokset osoittavat, että koneoppimismallit pystyvät ennustamaan yritysten luottoriskiä hieman logistista regressiota tarkemmin, kun näiden mallien ennustamiskykyä vertaillaan kokonaisuudessaan. AdaBoost-tehostettu päätöspuu ja tukivektori-kone olivat parhaat mallit luottoriskin ennustamiseen tässä tutkimuksessa. Tutkimustulokset osoittavat, että koneoppimismalleilla pystytään ennustamaan pienten ja keskisuurten yritysten konkurssiriskiä tarkemmin kuin logistisen regression avulla.