Forecasting stock index trend with Support Vector Machine and Long- Short term memory : a case study of models fitted on OMXH25 data
Härkönen, Emilia (2021)
Pro gradu -tutkielma
Härkönen, Emilia
2021
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021052631691
https://urn.fi/URN:NBN:fi-fe2021052631691
Tiivistelmä
The aim of this thesis is to investigate the predictability of financial markets. The research is conducted by using machine learning and deep learning techniques to predict the next day’s direction of the stock index return. Support Vector Machine (SVM) is chosen as a machine learning model and Long Short-Term Memory (LSTM) as a deep learning model. The chosen models have proved their stock market predicting capability in previous studies. The studies have pointed out the superiority of deep learning models in stock market forecasting. This study involves to the debate by conducting a case study of the Finnish stock index – OMXH25. The LSTM and SVM models are trained for the OMXH25 data, but the models are tested for the three correlated datasets, namely: OMXH25, S&P 500, and FTSE 100.
The sample data is collected from the period 2009-2019. The data sets included the opening, high, low, closing, and adjusted closing price of the indices. The indices' daily returns are calculated from the adjusted closing price and transformed to binary variables indicating positive and negative returns. The empirical part consists of preprocessing of data where input variables are transformed to percentage returns and standardized. The data of OMXH25 was divided into training (80%), validation (10%), and testing data (10%). Parameter optimization of both models was conducted by predicting the validation set and based on these results, the optimal parameter combinations were chosen. The optimized models were used to predict testing sets of all three indices. Predicting performance was evaluated by using accuracies, confusion matrices, and precisions. The results of the LSTM and SVM models were also benchmarked with a random guess.
The LSTM model outperformed the SVM model and a random guess when predicting the OMXH25, S&P 500, and FTSE 100 testing sets. The results of LSTM were the most promising ones, and the LSTM model can increase the predicting accuracy over a random guess up to five percent. The SVM models' accuracy was over 50%, but the confusion matrices revealed that the predictions were overweighted to positives due to the overfitting problem. However, also the SVM model outperformed a random guess. The accuracy of the LSTM model was the highest for the OMXH25. The results still evince that the other similar indices’ predictability does not significantly decrease when the model is trained with one index. Tämän tutkielman tarkoituksena on tutkia rahoitusmarkkinoiden ennustettavuutta. Tutkimus on toteutettu hyödyntämällä koneoppimisen sekä syväoppimisen tekniikoita ja tutkimuksessa ennustetaan seuraavan päivän osakeindeksin suuntaa. Koneoppimisen tekniikaksi on valittu Support Vector Machine ja syväoppimisen tekniikaksi Long-Short term memory. Nämä mallit ovat esittäneet todisteita osakemarkkinan ennustamiskyvystä aiemmissa tutkimuksissa. Tutkimuksissa on osoitettu syväoppimisen mallien olevan parempia osakemarkkinoiden ennustamisessa, ja tässä tutkimuksessa otetaan kantaa aiheeseen tapaustutkimuksella OMX Helsinki 25 -indeksistä. LSTM ja SVM mallit opetetaan OMXH25 aineistolla, mutta samoja malleja käytetään ennustamaan seuraavia kolmea keskenään korreloituneita indeksejä: OMXH25, S&P 500 ja FTSE 100.
Tutkimusaineisto on ajanjaksolta 2009–2019. Aineistot sisältävät avaus-, korkeimman, alimman, päätös- ja oikaistun päätöskurssin indekseistä. Indeksien päivätuotot on laskettu oikaistusta päätöskurssista ja ne on muutettu binäärisiksi muuttujiksi, jotka viittaavat positiivisiin tai negatiivisiin tuottoihin. Tutkimuksen empiirisen osuuden datan käsittelyssä muuttajat muutetaan tuottoprosenteiksi ja standardisoidaan. OMXH25:n data on jaettu opetusdataan (80 %), validointidataan (10 %) ja testausdataan (10 %). Molempien mallien parametrioptimoinnissa ennustetaan validointidataa, minkä tuloksien pohjalta valitaan paras yhdistelmä parametreista. Optimoiduilla malleilla ennustettiin jokaisen kolmen indeksin testausdataa. Ennustamistehokkuutta on arvioitu käyttämällä tarkkuutta, confusion matriiseja ja täsmällisyyttä. LSTM ja SVM mallien tuloksia verrataan myös satunnaisarvaukseen.
LSTM malli suoriutui SVM mallia ja satunnaisarvausta paremmin ennustamaan OMXH25, S&P 500 ja FTSE 100 indeksien testausdataa. LSTM mallin tulokset olivat lupaavimmat ja malli pystyy kasvattamaan ennustustarkkuutta viiteen prosenttiin asti yli satunnaisarvauksen. SVM mallin tarkkuudet olivat myös yli 50 %, mutta confusion matriisit paljastivat ennusteiden painottuvan positiivisiin johtuen mallin ylisovittamisongelmasta. SVM malli suoriutui kuitenkin satunnaisarvausta paremmin. LSTM mallin tarkkuus oli korkein OMXH25:n dataa ennustettaessa. Tulokset osoittavat silti, että toisen samankaltaisen indeksin ennustettavuus ei merkitsevästi laske, vaikka malli on opetettu toisella indeksillä.
The sample data is collected from the period 2009-2019. The data sets included the opening, high, low, closing, and adjusted closing price of the indices. The indices' daily returns are calculated from the adjusted closing price and transformed to binary variables indicating positive and negative returns. The empirical part consists of preprocessing of data where input variables are transformed to percentage returns and standardized. The data of OMXH25 was divided into training (80%), validation (10%), and testing data (10%). Parameter optimization of both models was conducted by predicting the validation set and based on these results, the optimal parameter combinations were chosen. The optimized models were used to predict testing sets of all three indices. Predicting performance was evaluated by using accuracies, confusion matrices, and precisions. The results of the LSTM and SVM models were also benchmarked with a random guess.
The LSTM model outperformed the SVM model and a random guess when predicting the OMXH25, S&P 500, and FTSE 100 testing sets. The results of LSTM were the most promising ones, and the LSTM model can increase the predicting accuracy over a random guess up to five percent. The SVM models' accuracy was over 50%, but the confusion matrices revealed that the predictions were overweighted to positives due to the overfitting problem. However, also the SVM model outperformed a random guess. The accuracy of the LSTM model was the highest for the OMXH25. The results still evince that the other similar indices’ predictability does not significantly decrease when the model is trained with one index.
Tutkimusaineisto on ajanjaksolta 2009–2019. Aineistot sisältävät avaus-, korkeimman, alimman, päätös- ja oikaistun päätöskurssin indekseistä. Indeksien päivätuotot on laskettu oikaistusta päätöskurssista ja ne on muutettu binäärisiksi muuttujiksi, jotka viittaavat positiivisiin tai negatiivisiin tuottoihin. Tutkimuksen empiirisen osuuden datan käsittelyssä muuttajat muutetaan tuottoprosenteiksi ja standardisoidaan. OMXH25:n data on jaettu opetusdataan (80 %), validointidataan (10 %) ja testausdataan (10 %). Molempien mallien parametrioptimoinnissa ennustetaan validointidataa, minkä tuloksien pohjalta valitaan paras yhdistelmä parametreista. Optimoiduilla malleilla ennustettiin jokaisen kolmen indeksin testausdataa. Ennustamistehokkuutta on arvioitu käyttämällä tarkkuutta, confusion matriiseja ja täsmällisyyttä. LSTM ja SVM mallien tuloksia verrataan myös satunnaisarvaukseen.
LSTM malli suoriutui SVM mallia ja satunnaisarvausta paremmin ennustamaan OMXH25, S&P 500 ja FTSE 100 indeksien testausdataa. LSTM mallin tulokset olivat lupaavimmat ja malli pystyy kasvattamaan ennustustarkkuutta viiteen prosenttiin asti yli satunnaisarvauksen. SVM mallin tarkkuudet olivat myös yli 50 %, mutta confusion matriisit paljastivat ennusteiden painottuvan positiivisiin johtuen mallin ylisovittamisongelmasta. SVM malli suoriutui kuitenkin satunnaisarvausta paremmin. LSTM mallin tarkkuus oli korkein OMXH25:n dataa ennustettaessa. Tulokset osoittavat silti, että toisen samankaltaisen indeksin ennustettavuus ei merkitsevästi laske, vaikka malli on opetettu toisella indeksillä.