Forecasting univariate time series – comparison of statistical methods and software resources available to undergraduate students
Kohvakka, Sami (2017)
Kandidaatintutkielma
Kohvakka, Sami
2017
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe201705196677
https://urn.fi/URN:NBN:fi-fe201705196677
Tiivistelmä
Four statistical software were compared in this thesis in terms of performance and usability. Comparison focuses on forecasting capabilities of the selected software in univariate time series and does not consider usefulness of the software in other fields of econometrics, statistical analysis or applied mathematics. SAS is widely used in social sciences due to ANOVA capabilities and MATLAB is popular in engineering sciences because of capabilities in matrix calculus and machine learning. Python is technically not a software, because it is more of a generic programming language. Because of the ease of learning and wide applicability, it is often the first programming language modern IT students take. In terms of forecasting, R was selected the best choice for most undergraduate students.
This thesis also compared performance of different forecasting methods in two econometric time series. First of the series represents demand of new passenger cars in the United States from 1980 to 2016. It has a seasonal pattern and a time trend. Second of the series is S&P 500 index, which represents stock markets. Series does not have a clear pattern and it seems to follow random walk. ARIMA models were applied in addition to simple methods. Support vector machines, neural networks and GARCH models were excluded, because they are part of master’s course in advanced business analytics, not undergraduate education in econometrics.
In general, ARIMA models performed well and could accurately capture seasonality in demand data. ARIMA(0,1,0) model was able to capture linear trend in S&P 500 but was not able to predict sudden drop in the index. Key findings are in line with previous research and suggest that a) Performance of a forecasting method depends on measure of error used. b) Undergraduate education provides knowledge required to forecast seasonal demand. c) More complex methods are required to forecast stock markets. d) Simple methods perform surprisingly well. e) Model identifying and selection of learning set might influence forecasting accuracy. f) Combining forecasts might improve forecasting accuracy. Tässä kandidaatintyössä vertailtiin neljää tilastollista ohjelmaa suorituskyvyn ja käytettävyyden osalta. Vertailu keskittyi ohjelmistojen käytettävyyteen yhden muuttujan aikasarjojen ennustamisessa eikä ota huomioon hyödyllisyyttä muilla ekonometrian, tilastotieteen tai soveltavan matematiikan aloilla. SAS on yleisesti käytetty yhteiskuntatieteissä sen tarjoamien ANOVA mahdollisuuksien vuoksi. MATLAB on insinööritieteissä yleisesti käytössä matriisilaskennan ja koneoppimisen sovellutuksien ansiosta. Python ei varsinaisesti ole tilastollinen ohjelma, vaan pikemminkin ohjelmointikieli. Monipuolisuuden ja yksinkertaisuuden ansiosta Python on usein ensimmäinen ohjelmointikieli, jonka tietotekniikan opiskelijat oppivat. Ennustamisen kannalta R kuitenkin osoittautui parhaaksi vaihtoehdoksi useimmille kandidaattiopiskelijoille.
Tässä työssä vertailtiin myös eri ennustusmenetelmien tarkkuutta kahdessa aikasarjassa. Ensimmäinen aikasarjoista edustaa henkilöautojen kysyntää Yhdysvalloissa vuosina 19802016 ja siinä voidaan havaita kausittainen vaihtelu ja trendi. Toinen aikasarjoista on S&P 500 indeksi, joka edustaa osakemarkkinoita. Tässä sarjassa ei ole selvää kuviota vaan se vaikuttaa noudattavan satunnaiskävelyä. Ennustamiseen käytettiin yksinkertaisten menetelmien lisäksi ARIMA-malleja. Tukivektorikoneet, neuroverkot ja GARCH-mallit jätettiin vertailun ulkopuolelle, koska ne eivät kuulu kandidaatinopintoihin ekonometriassa vaan maisterikurssille syvennetyssä liiketoiminta-analytiikassa.
Yleisesti ARIMA-mallit suoriutuivat hyvin ja onnistuivat ennustamaan tarkasti kausittaisen vaihtelun kysynnässä. ARIMA(0,1,0) malli poimi lineaarisen trendin S&P 500 indeksistä, mutta ei kyennyt ennustamaan äkkinäistä pudotusta indeksin arvossa. Tutkielman löydökset ovat linjassa aikaisemman tutkimuksen kanssa ja väittävät, että: a) Menetelmän tarkkuus riippuu käytetystä virheen mittaamisen menetelmästä. b) Kandidaatin opinnot mahdollistavat kausittaisen kysynnän ennustamisen. c) Monimutkaisempia menetelmiä tarvitaan osakemarkkinoiden ennustamiseen. d) Yksinkertaiset menetelmät ovat yllättävän hyviä. e) Mallin määritys ja oppimisdatan valinta voi vaikuttaa ennustustarkkuuteen. f) Menetelmien yhdistäminen voi parantaa ennustustarkkuutta.
This thesis also compared performance of different forecasting methods in two econometric time series. First of the series represents demand of new passenger cars in the United States from 1980 to 2016. It has a seasonal pattern and a time trend. Second of the series is S&P 500 index, which represents stock markets. Series does not have a clear pattern and it seems to follow random walk. ARIMA models were applied in addition to simple methods. Support vector machines, neural networks and GARCH models were excluded, because they are part of master’s course in advanced business analytics, not undergraduate education in econometrics.
In general, ARIMA models performed well and could accurately capture seasonality in demand data. ARIMA(0,1,0) model was able to capture linear trend in S&P 500 but was not able to predict sudden drop in the index. Key findings are in line with previous research and suggest that a) Performance of a forecasting method depends on measure of error used. b) Undergraduate education provides knowledge required to forecast seasonal demand. c) More complex methods are required to forecast stock markets. d) Simple methods perform surprisingly well. e) Model identifying and selection of learning set might influence forecasting accuracy. f) Combining forecasts might improve forecasting accuracy.
Tässä työssä vertailtiin myös eri ennustusmenetelmien tarkkuutta kahdessa aikasarjassa. Ensimmäinen aikasarjoista edustaa henkilöautojen kysyntää Yhdysvalloissa vuosina 19802016 ja siinä voidaan havaita kausittainen vaihtelu ja trendi. Toinen aikasarjoista on S&P 500 indeksi, joka edustaa osakemarkkinoita. Tässä sarjassa ei ole selvää kuviota vaan se vaikuttaa noudattavan satunnaiskävelyä. Ennustamiseen käytettiin yksinkertaisten menetelmien lisäksi ARIMA-malleja. Tukivektorikoneet, neuroverkot ja GARCH-mallit jätettiin vertailun ulkopuolelle, koska ne eivät kuulu kandidaatinopintoihin ekonometriassa vaan maisterikurssille syvennetyssä liiketoiminta-analytiikassa.
Yleisesti ARIMA-mallit suoriutuivat hyvin ja onnistuivat ennustamaan tarkasti kausittaisen vaihtelun kysynnässä. ARIMA(0,1,0) malli poimi lineaarisen trendin S&P 500 indeksistä, mutta ei kyennyt ennustamaan äkkinäistä pudotusta indeksin arvossa. Tutkielman löydökset ovat linjassa aikaisemman tutkimuksen kanssa ja väittävät, että: a) Menetelmän tarkkuus riippuu käytetystä virheen mittaamisen menetelmästä. b) Kandidaatin opinnot mahdollistavat kausittaisen kysynnän ennustamisen. c) Monimutkaisempia menetelmiä tarvitaan osakemarkkinoiden ennustamiseen. d) Yksinkertaiset menetelmät ovat yllättävän hyviä. e) Mallin määritys ja oppimisdatan valinta voi vaikuttaa ennustustarkkuuteen. f) Menetelmien yhdistäminen voi parantaa ennustustarkkuutta.