Forecasting stock market returns : a comparison between traditional econometric models and modern machine learning models
Laksola, Joni (2025)
Kandidaatintutkielma
Laksola, Joni
2025
School of Business and Management, Kauppatieteet
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025060962827
https://urn.fi/URN:NBN:fi-fe2025060962827
Tiivistelmä
Financial time series data is inherently stochastic and non-linear, making traditional econometric models less suitable for forecasting tasks due to their linear nature. In contrast, machine learning models can capture complex, non-linear relationships. This thesis provides an empirical comparison between traditional econometric and modern machine learning models in forecasting long-term U.S. stock market returns.
In contrast to prior studies, this thesis proposes a customized cross-validation technique designed for training forecasting models and addresses the look-ahead bias issue in training and testing the models. The models are evaluated using two feature subsets: a comprehensive macroeconomic feature set and a simpler set using only the inverse of the cyclically adjusted price-to-earnings (CAPE) ratio, often considered a superior long-term predictor. Moreover, this study uses linear, ridge, support vector, and random forest regression as the forecasting models. As a benchmark for the forecasting models, this study uses the naïve historical average.
Results show that models based solely on the inverse CAPE ratio consistently outperform those using multiple macroeconomic features. Although none of the models statistically outperforms the historical average, their evaluation metrics are notably better. Among the models, ridge regression performs slightly better than linear regression. Furthermore, the proposed cross-validation method improves the performance of machine learning models. Rahoitusalan aikasarjat ovat luonteeltaan stokastisia ja epälineaarisia, mikä tekee perinteisistä ekonometrisistä malleista vähemmän sopivia ennustamiseen, koska ne pohjautuvat lineaarisiin oletuksiin. Koneoppimismallit sen sijaan kykenevät mallintamaan monimutkaisia epälineaarisia suhteita. Tämä kandidaatintyö tarjoaa empiirisen vertailun perinteisten ekonometristen ja modernien koneoppimismallien välillä Yhdysvaltain osakemarkkinoiden pitkän aikavälin tuottojen ennustamisessa.
Aiemmista tutkimuksista poiketen tämä työ esittelee ennustemalleille räätälöidyn ristiinvalidointimenetelmän ja käsittelee mallien kouluttamiseen ja testaukseen liittyvää ”look-ahead bias” -ongelmaa. Mallien arviointi perustuu kahteen selittävien muuttujien osajoukkoon: makrotalouden muuttujia sisältävään monimuuttujamalliin ja yksinkertaisempaan malliin, joka käyttää vain syklisesti oikaistun hinta-tuotto-luvun (CAPE) käänteislukua, jota pidetään vahvana pitkän aikavälin tuottojen ennustajana. Tutkimuksessa käytetään lineaarista regressiota, ridge-regressiota, tukivektoriregressiota ja satunnaismetsäregressiota. Mallien vertailun kohteena toimii historiallinen keskiarvo.
Tulokset osoittavat, että mallit, jotka käyttävät pelkästään CAPE-luvun käänteislukua, suoriutuvat johdonmukaisesti paremmin kuin useita makrotaloudellisia muuttujia hyödyntävät mallit. Vaikka mikään malli ei tilastollisesti merkitsevästi suoriudu paremmin kuin historiallinen keskiarvo, niiden arviointimetriikat ovat merkittävästi parempia. Malleista ridge-regressio suoriutuu hieman paremmin kuin lineaarinen regressio. Lisäksi työssä esitelty ristiinvalidointimenetelmä parantaa koneoppimismallien ennustekykyä.
In contrast to prior studies, this thesis proposes a customized cross-validation technique designed for training forecasting models and addresses the look-ahead bias issue in training and testing the models. The models are evaluated using two feature subsets: a comprehensive macroeconomic feature set and a simpler set using only the inverse of the cyclically adjusted price-to-earnings (CAPE) ratio, often considered a superior long-term predictor. Moreover, this study uses linear, ridge, support vector, and random forest regression as the forecasting models. As a benchmark for the forecasting models, this study uses the naïve historical average.
Results show that models based solely on the inverse CAPE ratio consistently outperform those using multiple macroeconomic features. Although none of the models statistically outperforms the historical average, their evaluation metrics are notably better. Among the models, ridge regression performs slightly better than linear regression. Furthermore, the proposed cross-validation method improves the performance of machine learning models.
Aiemmista tutkimuksista poiketen tämä työ esittelee ennustemalleille räätälöidyn ristiinvalidointimenetelmän ja käsittelee mallien kouluttamiseen ja testaukseen liittyvää ”look-ahead bias” -ongelmaa. Mallien arviointi perustuu kahteen selittävien muuttujien osajoukkoon: makrotalouden muuttujia sisältävään monimuuttujamalliin ja yksinkertaisempaan malliin, joka käyttää vain syklisesti oikaistun hinta-tuotto-luvun (CAPE) käänteislukua, jota pidetään vahvana pitkän aikavälin tuottojen ennustajana. Tutkimuksessa käytetään lineaarista regressiota, ridge-regressiota, tukivektoriregressiota ja satunnaismetsäregressiota. Mallien vertailun kohteena toimii historiallinen keskiarvo.
Tulokset osoittavat, että mallit, jotka käyttävät pelkästään CAPE-luvun käänteislukua, suoriutuvat johdonmukaisesti paremmin kuin useita makrotaloudellisia muuttujia hyödyntävät mallit. Vaikka mikään malli ei tilastollisesti merkitsevästi suoriudu paremmin kuin historiallinen keskiarvo, niiden arviointimetriikat ovat merkittävästi parempia. Malleista ridge-regressio suoriutuu hieman paremmin kuin lineaarinen regressio. Lisäksi työssä esitelty ristiinvalidointimenetelmä parantaa koneoppimismallien ennustekykyä.