Forecasting the Finnish stock exchange with advanced machine learning methods : a feature importance analysis on stock market anomalies
Härkönen, Eppu Benjamin (2023)
Pro gradu -tutkielma
Härkönen, Eppu Benjamin
2023
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024050727285
https://urn.fi/URN:NBN:fi-fe2024050727285
Tiivistelmä
The aim of this thesis is to study the predictability of individual stocks at the Helsinki stock exchange. The research is carried out by utilizing machine learning algorithms to predict stock direction and excess return on a 1-week, 2-month and 1-year timeframes. Support Vector Machine (SVM), Random Forest (RF) and Neural Network (NN) are chosen due to their proven effectiveness in academic literature. The data used for forecasting is a combination of technical and fundamental data, based on the existing stock market anomalies of momentum, value, size, volatility, and quality.
The data used in forecasting is collected from a sample period of 2016-2021, where data mining is used to acquire financial statement data from half-a-year reports, from which the predicting variables are calculated. The daily price data of the OMXHPI is gathered for benchmarking, and the data is normalized and split by k-fold cross validation to avoid overfitting, whereafter hyperparameter optimization is conducted to each model separately. The forecasting performance is evaluated via performance metrics, obtained from a confusion metrics. In addition to this, feature importance evaluation is done to examine the predictive power of anomalies.
The results indicate that stock direction and excess return can be forecasted successfully with SVM being the best model. Accuracies of 61.2, 62.5, and 67.1 % were acquired on direction and 59.2, 63.9, and 66.9 % on excess return, on 1-week, 2-month and 1-year timeframes respectively. The anomalies with the highest predicative powers were momentum and volatility on shorter time periods, and quality and value with longer time frames coinciding, which is similar to former results in different markets. Tämän tutkielman tarkoituksena on tutkia yksittäisten osakkeiden ennustettavuutta Helsingin pörssissä. Tutkimus toteutetaan hyödyntämällä koneoppimisalgoritmeja osakkeen suunnan ja ylimääräisen tuoton ennustamiseksi 1 viikon, 2 kuukauden ja 1 vuoden aikaväleillä. Tukivektorikonetta, Satunnaista metsää ja neuroverkostoa hyödynnetään aiemman tutkimusnäytön pohjalta. Ennustamiseen käytetty data on yhdistelmä teknistä ja fundamentaalista dataa, joka perustuu olemassa oleviin markkina anomalioihin, kuten momentumiin, arvoon, kokoon, volatiliteettiin ja laatuun.
Ennustamiseen käytetty data kerätään vuosien 2016–2021 jaksolta, jossa ennakoivat muuttujat tietolouhitaan puolivuosiraporteista. Päivittäiset hintatiedot kerätään OMXHPI:sta vertailuarvoksi, ja tämä data normalisoidaan sekä jaetaan k-taitosten ristiinvalidointia hyödyntäen ylisovittamisen välttämiseksi. Ennusteiden onnistuneisuutta arvioidaan suorituskykymittarien avulla, jotka on saatu sekaannusmatriiseista. Näiden lisäksi, ennustavien ominaisuuksien merkityksen arviointi tehdään anomalioita ennustavan voiman tutkimiseksi.
Tulokset osoittavat, että osakkeen suunta ja ylimääräinen tuotto voidaan ennustaa onnistuneesti SVM:n ollessa paras malli. Ennusteiden suunnan osalta saavutettiin tarkkuuksiksi 61,2, 62,5 ja 67,1 % ja ylimääräisen tuoton osalta 59,2, 63,9 ja 66,9 % 1 viikon, 2 kuukauden ja 1 vuoden aikaväleillä. Suurimman ennustevoiman omaavat anomaliat olivat momentum ja volatiliteetti lyhyemmillä aikaväleillä ja laatu sekä arvo pidemmillä aikaväleillä. Tämä vastaa aikaisempia tuloksia, jotka on saavutettu eri markkinoilla.
The data used in forecasting is collected from a sample period of 2016-2021, where data mining is used to acquire financial statement data from half-a-year reports, from which the predicting variables are calculated. The daily price data of the OMXHPI is gathered for benchmarking, and the data is normalized and split by k-fold cross validation to avoid overfitting, whereafter hyperparameter optimization is conducted to each model separately. The forecasting performance is evaluated via performance metrics, obtained from a confusion metrics. In addition to this, feature importance evaluation is done to examine the predictive power of anomalies.
The results indicate that stock direction and excess return can be forecasted successfully with SVM being the best model. Accuracies of 61.2, 62.5, and 67.1 % were acquired on direction and 59.2, 63.9, and 66.9 % on excess return, on 1-week, 2-month and 1-year timeframes respectively. The anomalies with the highest predicative powers were momentum and volatility on shorter time periods, and quality and value with longer time frames coinciding, which is similar to former results in different markets.
Ennustamiseen käytetty data kerätään vuosien 2016–2021 jaksolta, jossa ennakoivat muuttujat tietolouhitaan puolivuosiraporteista. Päivittäiset hintatiedot kerätään OMXHPI:sta vertailuarvoksi, ja tämä data normalisoidaan sekä jaetaan k-taitosten ristiinvalidointia hyödyntäen ylisovittamisen välttämiseksi. Ennusteiden onnistuneisuutta arvioidaan suorituskykymittarien avulla, jotka on saatu sekaannusmatriiseista. Näiden lisäksi, ennustavien ominaisuuksien merkityksen arviointi tehdään anomalioita ennustavan voiman tutkimiseksi.
Tulokset osoittavat, että osakkeen suunta ja ylimääräinen tuotto voidaan ennustaa onnistuneesti SVM:n ollessa paras malli. Ennusteiden suunnan osalta saavutettiin tarkkuuksiksi 61,2, 62,5 ja 67,1 % ja ylimääräisen tuoton osalta 59,2, 63,9 ja 66,9 % 1 viikon, 2 kuukauden ja 1 vuoden aikaväleillä. Suurimman ennustevoiman omaavat anomaliat olivat momentum ja volatiliteetti lyhyemmillä aikaväleillä ja laatu sekä arvo pidemmillä aikaväleillä. Tämä vastaa aikaisempia tuloksia, jotka on saavutettu eri markkinoilla.
