Quantifying success in the NHL : statistical measures and predictive modeling
Viljakainen, Jonna (2025)
Kandidaatintyö
Viljakainen, Jonna
2025
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025090193338
https://urn.fi/URN:NBN:fi-fe2025090193338
Tiivistelmä
The importance of data analytics in professional sports has grown rapidly over the last years. Technological advances in different fields have enabled this change. The fundamental purpose of sports analytics is to gain an advantage over the opponent. Different analytical methods can be used to enhance athletes’ performance, improve organizations’ decision making and increase marketing profits.
The objective of this study is to find statistically significant variables that could used as success measures. Second objective is to study how the significant variables found have evolved over the years and based on this to predict values for future seasons. This research uses public data that consists of NHL regular season team statistics from twelve different seasons.
Based on Pearson correlation coefficient values and their number of occurrences in different seasons, the variables statistical significance is studied. Linear regression is used to demonstrate the change in the statistics over the years. From the regression the possible values for the next to seasons is predicted. The accuracy of the predictions is studied with cross-validation.
Eighteen different variables were found to be statistically significant and many of them were noted to be good measures of success. For most of the statistics a clear change over the years was detected. The predicted values could be thought of as realistic based on the cross-validation. Data analytiikan tärkeys ammattiurheilussa on kasvanut nopeaa tahtia viime vuosien aikana. Teknologinen kehitys eri osa-alueilla on mahdollistanut tämän muutoksen. Urheiluanalytiikan perimmäinen tarkoitus on saavuutta etua vastustajaan nähden. Eri analyyttisiä menetelmiä voidaan käyttää kehittämään urheilijoiden suorituskykyä, parantamaan organisaatioiden päätöksentekoa tai lisäämään markkinoinnin tuottavuutta.
Tämän tutkimuksen tarkoitus on löytää tilastollisesti merkittäviä muuttujia jotka voisivat toimia menestyksen mittareina. Toinen tavoite on tutkia miten löydetyt merkittävät muuttujat ovat kehittyneet vuosien aikana ja ennustaa tulevien kausien arvoja tähän perustuen. Tutkimuksessa käytetään julkista dataa joka koostuu NHL:n runkosarjan joukkuetilastoista kahdeltatoista eri kaudelta.
Pearsonin korrelaatiokertoimien arvoihin sekä näiden esiintymismääriin eri kausina perustuen tutkitaan mitkä muuttujat ovat tilastollisesti merkittäviä. Tilastojen muuttumista vuosien aikana havainnollistetaan lineaariregression avulla. Regression perusteella ennustetaan kahden tulevan kauden mahdollisista arvoista. Ennustusten tarkkuutta tutkitaan ristiinvalidoinnilla.
Kahdeksantoista eri muuttujaa todettiin tilastollisesti merkittäviksi ja useimmat niistä voitiin myös todeta olevan hyviä menestyksen mittareita. Suurimmalla osalla tilastoista havaittiin selkeää muutosta niiden arvoissa vuosien aikana. Ennustetut arvot voitiin todeta realistisiksi ristiinvalidoinnin tukemana.
The objective of this study is to find statistically significant variables that could used as success measures. Second objective is to study how the significant variables found have evolved over the years and based on this to predict values for future seasons. This research uses public data that consists of NHL regular season team statistics from twelve different seasons.
Based on Pearson correlation coefficient values and their number of occurrences in different seasons, the variables statistical significance is studied. Linear regression is used to demonstrate the change in the statistics over the years. From the regression the possible values for the next to seasons is predicted. The accuracy of the predictions is studied with cross-validation.
Eighteen different variables were found to be statistically significant and many of them were noted to be good measures of success. For most of the statistics a clear change over the years was detected. The predicted values could be thought of as realistic based on the cross-validation.
Tämän tutkimuksen tarkoitus on löytää tilastollisesti merkittäviä muuttujia jotka voisivat toimia menestyksen mittareina. Toinen tavoite on tutkia miten löydetyt merkittävät muuttujat ovat kehittyneet vuosien aikana ja ennustaa tulevien kausien arvoja tähän perustuen. Tutkimuksessa käytetään julkista dataa joka koostuu NHL:n runkosarjan joukkuetilastoista kahdeltatoista eri kaudelta.
Pearsonin korrelaatiokertoimien arvoihin sekä näiden esiintymismääriin eri kausina perustuen tutkitaan mitkä muuttujat ovat tilastollisesti merkittäviä. Tilastojen muuttumista vuosien aikana havainnollistetaan lineaariregression avulla. Regression perusteella ennustetaan kahden tulevan kauden mahdollisista arvoista. Ennustusten tarkkuutta tutkitaan ristiinvalidoinnilla.
Kahdeksantoista eri muuttujaa todettiin tilastollisesti merkittäviksi ja useimmat niistä voitiin myös todeta olevan hyviä menestyksen mittareita. Suurimmalla osalla tilastoista havaittiin selkeää muutosta niiden arvoissa vuosien aikana. Ennustetut arvot voitiin todeta realistisiksi ristiinvalidoinnin tukemana.
