Machine learning system for credit rating prediction
Andersson, Ville (2023)
Pro gradu -tutkielma
Andersson, Ville
2023
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2023072590961
https://urn.fi/URN:NBN:fi-fe2023072590961
Tiivistelmä
The prediction of credit ratings using machine learning methods has been a topic of growing interest in the academic world. Credit rating prediction is a continuum of earlier fields of studies, first predicting corporate bond ratings with statistical methods, then applying statistical methods to probability of default prediction, credit score and credit rating forecasting and recently approaching these topics with machine learning applications. In this research, a model is created to predict company credit ratings with machine learning methods for a Finnish company. The study compares the performance of Random Forest, Multilayer Neural Network, Gradient Boosting and Extra Tree classification models in prediction of credit ratings. 5-fold Cross validation is applied in the thesis to ensure robustness of the models. The study further enables the comparison of different credit rating agencies in terms of credit rating predictability based on company financial information. The accuracy, recall and f-score of the models are assessed by comparing the predicted credit rating values with the actual credit ratings of the companies.
The research bases on 3 million rows of corporate financial data consisting of over forty numeric variables like equity ratio, total assets and net income. Gradient Boosting machine learning method performed superiorly in the study with almost all datasets. Random forest achieved the greatest generality achieving robust performance with all datasets. The prediction performance on Standard & Poor's, Moody's and Fitch, the largest rating agencies, was significantly higher than that of smaller rating agencies inspected in the paper. As a result of the study, the Gradient Boosting method indicates a prediction accuracy of around 90%, for the largest credit rating agencies, which is in line with previous academic research. Luottoluokitusten ennustaminen koneoppimisen menetelmin on kohdannut kasvavaa kiinnostusta akateemisessa maailmassa yritysten velkapaperien luokitusten ennustamisen jatkumona. Akatemiassa siirryttiin velkapaperien ennustamisesta yritysten luottoluokitusten sekä konkurssitodennäköisyyden ennustamiseen tilastollisin menetelmin ja viimevuosina koneoppimisen menetelmiä on alettu hyödyntämään yritysten riskisyyden ennustamisessa. Tässä tutkimuksessa luodaan suomalaiselle yritykselle luottoluokituksia ennustava koneoppimisen malli. Koneoppimisen menetelmistä tutkimuksessa käytetään Random Forest-, Extra Tree- ja Gradient Boosting -menetelmää sekä monikerroksista neuroverkkoa ja niiden suoriutumista vertaillaan kolmen metriikan perusteella: tarkkuus (accuracy), herkkyys (recall) ja f-score. Mallien testaamiseksi tutkimuksessa käytetään viisinkertaista ristiin validointia. Tutkimus mahdollistaa eri luottoluokituslaitosten luottoluokitusten vertailun taloudellisen datan selitysvoiman perusteella. Ennustustarkkuus lasketaan vertaamalla ennustettuja luottoluokituksia yritysten todellisiin luottoluokituksiin.
Datana tutkimuksessa on kolme miljoonaa riviä yritysten taloudellista dataa sisältäen yli neljäkymmentä numeerista muuttujaa, kuten omavaraisuusaste, kokonaisvarallisuus ja nettotulos. Gradient Boosting suoriutui koneoppimisen menetelmistä parhaiten luottoluokitusten ennustamisessa lähes kaikilla luottoluokituslaitosten eriytetyillä dataseteillä. Random Forest menetelmä puolestaan oli kautta tasainen suoriutuja, sillä pystyi suoriutumaan hyvin myös dataseteillä, joilla Gradient Boosting -menetelmä ei kyennyt yhtä hyviin tuloksiin. Isojen luottoluokituslaitosten Standard & Poor’s:in, Moody’s:in ja Fitch:in ennustamistarkkuus oli huomattavasti parempi, kuin pienempien luottoluokituslaitosten. Tutkimuksen tuloksena Gradient Boosting saavutti noin 90 % tarkkuuden, 80-85 % herkkyys-arvon sekä 80-85 % f-score-arvon suurimmille luottoluokituslaitoksille.
The research bases on 3 million rows of corporate financial data consisting of over forty numeric variables like equity ratio, total assets and net income. Gradient Boosting machine learning method performed superiorly in the study with almost all datasets. Random forest achieved the greatest generality achieving robust performance with all datasets. The prediction performance on Standard & Poor's, Moody's and Fitch, the largest rating agencies, was significantly higher than that of smaller rating agencies inspected in the paper. As a result of the study, the Gradient Boosting method indicates a prediction accuracy of around 90%, for the largest credit rating agencies, which is in line with previous academic research.
Datana tutkimuksessa on kolme miljoonaa riviä yritysten taloudellista dataa sisältäen yli neljäkymmentä numeerista muuttujaa, kuten omavaraisuusaste, kokonaisvarallisuus ja nettotulos. Gradient Boosting suoriutui koneoppimisen menetelmistä parhaiten luottoluokitusten ennustamisessa lähes kaikilla luottoluokituslaitosten eriytetyillä dataseteillä. Random Forest menetelmä puolestaan oli kautta tasainen suoriutuja, sillä pystyi suoriutumaan hyvin myös dataseteillä, joilla Gradient Boosting -menetelmä ei kyennyt yhtä hyviin tuloksiin. Isojen luottoluokituslaitosten Standard & Poor’s:in, Moody’s:in ja Fitch:in ennustamistarkkuus oli huomattavasti parempi, kuin pienempien luottoluokituslaitosten. Tutkimuksen tuloksena Gradient Boosting saavutti noin 90 % tarkkuuden, 80-85 % herkkyys-arvon sekä 80-85 % f-score-arvon suurimmille luottoluokituslaitoksille.
