Detecting earnings management with random forest : a machine learning approach based on financial statement data
Tammisto, Vilma (2025)
Pro gradu -tutkielma
Tammisto, Vilma
2025
School of Business and Management, Kauppatieteet
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20251101104719
https://urn.fi/URN:NBN:fi-fe20251101104719
Tiivistelmä
The recent developments in artificial intelligence and machine learning have allowed for utilisation of increasingly advanced analysis methods for financial statement analysis. The purpose of this thesis was to examine whether earnings management can be detected from financial statement data with more success using modern machine learning algorithms rather than traditional statistical models. The thesis utilised random forest algorithm and compared its performance against logistic regression model. Earnings management was studied through agency theory and positive accounting theory explaining the foundation and incentives influencing the phenomenon. The thesis utilised recent financial statement data of Nordic companies between the years 2020 and 2024. Earnings management proxy variables were formed utilising foundational estimation models from previous literature, and explanatory variables were formed based on financial statement data. Accrual-based earnings management and real earnings management were examined with separate analyses.
The results showed that random forest is a superior tool to detect earnings management from financial statement data compared to logistic regression. Random forest provided higher predictive accuracy, was able to handle data class imbalance prevalent in earnings management detection with more success, and was able to flag more relevant financial predictors for earnings management detection. The most important financial features influencing earnings management detection identified were CFO and profitability measured through EBITDA, ROA, and ROE. The findings of this thesis contribute to a stream of earnings management detection literature and are highly relevant for various parties such as researchers and regulators as well as firm stakeholders such as investors, creditors, auditors, and suppliers. The findings highlight the advantages of more advanced tools in earnings management detection. Tekoälyn ja koneoppimismenetelmien kehitys on mahdollistanut edistyneempien analyysimenetelmien käytön tilinpäätösanalyyseissä. Tämän tutkielman tarkoituksena oli selvittää, voidaanko tuloksenohjausta tunnistaa tilinpäätösdatasta tehokkaammin moderneilla koneoppimismenetelmillä kuin perinteisillä tilastollisilla malleilla. Tutkimuksessa tarkasteltiin random forest -algoritmin suoriutumista tuloksenohjauksen tunnistamisessa verrattuna logistiseen regressiomenetelmään. Tuloksenohjausta tarkasteltiin agenttiteorian ja positiivisen laskentatoimen teorian näkökulmista, jotka selittävät ilmiön taustalla olevia tekijöitä ja kannustimia. Tutkimuksessa hyödynnettiin pohjoismaisten listattujen yhtiöiden tilinpäätöstietoja vuosilta 2020–2024. Tuloksenohjauksen sijaismuuttujat muodostettiin aiempaan kirjallisuuteen perustuvien estimointimallien avulla, ja selittävät muuttujat johdettiin tilinpäätösdatasta.
Tulokset osoittivat, että random forest -algoritmi on logistiseen regressioon verrattuna ylivoimainen menetelmä tuloksenohjauksen tunnistamisessa, sillä se saavutti korkeamman ennustetarkkuuden, kykeni hallitsemaan tuloksenohjausdatassa esiintyvää luokkien välistä epätasapainoa paremmin ja onnistui tunnistamaan tuloksenohjauksen kannalta keskeisimmät taloudelliset muuttujat. Keskeisimmiksi tuloksenohjauksen tunnistamiseen vaikuttaneiksi muuttujiksi havaittiin CFO sekä kannattavuus (EBITDA, ROA, ROE). Tutkielman tulokset täydentävät tuloksenohjauksen tunnistamisen tutkimuskirjallisuutta ja ovat merkityksellisiä useille tahoille, kuten tutkijoille ja lainsäätäjille, sekä yritysten eri sidosryhmille, kuten sijoittajille, velkojille, tilintarkastajille ja toimittajille. Tutkielman tulokset korostavat edistyksellisempien menetelmien hyötyjä tuloksenohjauksen tunnistamisessa.
The results showed that random forest is a superior tool to detect earnings management from financial statement data compared to logistic regression. Random forest provided higher predictive accuracy, was able to handle data class imbalance prevalent in earnings management detection with more success, and was able to flag more relevant financial predictors for earnings management detection. The most important financial features influencing earnings management detection identified were CFO and profitability measured through EBITDA, ROA, and ROE. The findings of this thesis contribute to a stream of earnings management detection literature and are highly relevant for various parties such as researchers and regulators as well as firm stakeholders such as investors, creditors, auditors, and suppliers. The findings highlight the advantages of more advanced tools in earnings management detection.
Tulokset osoittivat, että random forest -algoritmi on logistiseen regressioon verrattuna ylivoimainen menetelmä tuloksenohjauksen tunnistamisessa, sillä se saavutti korkeamman ennustetarkkuuden, kykeni hallitsemaan tuloksenohjausdatassa esiintyvää luokkien välistä epätasapainoa paremmin ja onnistui tunnistamaan tuloksenohjauksen kannalta keskeisimmät taloudelliset muuttujat. Keskeisimmiksi tuloksenohjauksen tunnistamiseen vaikuttaneiksi muuttujiksi havaittiin CFO sekä kannattavuus (EBITDA, ROA, ROE). Tutkielman tulokset täydentävät tuloksenohjauksen tunnistamisen tutkimuskirjallisuutta ja ovat merkityksellisiä useille tahoille, kuten tutkijoille ja lainsäätäjille, sekä yritysten eri sidosryhmille, kuten sijoittajille, velkojille, tilintarkastajille ja toimittajille. Tutkielman tulokset korostavat edistyksellisempien menetelmien hyötyjä tuloksenohjauksen tunnistamisessa.
