Data-analyyttinen malli maalimäärän ennustamisessa jalkapallon huippusarjassa
Liinkangas, Otso (2022)
Kandidaatintutkielma
Liinkangas, Otso
2022
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022032324583
https://urn.fi/URN:NBN:fi-fe2022032324583
Tiivistelmä
Tämän kandidaatintutkielman tavoitteena on tarkastella jalkapallossa käytettävän tilaston, maaliodottaman, tarkkuutta tehtyjen maalien ennustamisessa. Samalla selvennetään data-analytiikan käyttöä urheilussa ja erityisesti jalkapallossa. Tutkimuksen kohteena ovat kolme viimeisintä päättynyttä kautta Englannin jalkapallon pääsarjassa. Tutkimus suoritetaan lineaarisella regressioanalyysilla, ja ennen regressioanalyysin suorittamista tutkimuksen aineistoa kuvaillaan ja testataan regressioanalyysin taustaoletuksien mukaan.
Tulokset viittaavat maaliodottaman olevan tarkka malli tehtyjen maalien selittäjänä käsiteltävässä aineistossa. Maaliodottaman ylittäminen tai alittaminen on myös vaikuttanut menestykseen sarjassa. Tuloksia tarkasteltaessa tulee kuitenkin ottaa huomioon yhtenä käsiteltävänä kautena aineistossa esiintyvä autokorrelaatio ja jalkapallolle ominainen satunnaisuus, joka ilmenee tarkkuuden merkittävänä vaihteluna kausien välillä. Kolmen kauden otoksesta yhdessä pääsarjassa ei voida vetää yleistäviä johtopäätöksiä maaliodottaman tarkkuudesta. Jatkotutkimuksia vaaditaan, mutta maaliodottaman käyttökelpoisuutta ja tulevaisuutta ajatellen tulokset voidaan kuitenkin nähdä positiivisina. The goal of this bachelor’s thesis is to study the accuracy of expected goals, an advanced statistic predicting the number of goals scored in a football match. The data used in this research is from the past three seasons of England’s top-flight football league, the Premier League. Linear regression analysis is used for testing the accuracy of expected goals. Before applying linear regression to the data, the data is described and tested under the assumptions of linear regression.
The results of the linear regression imply heavy correlation between goals scored and expected goals in the dataset. Scoring significantly more or less goals than the expected goals calculated by the expected goals model also seems to influence the success of the team. Looking at the results, the autocorrelation existing especially in one season of the data and the variation of r-squared between the seasons must be acknowledged. In general, a sample of three seasons in just one football league isn’t enough to make general assumptions from the results of the regression. The subject requires further research, but the results can be seen as positive for the usability and the future of expected goals models.
Tulokset viittaavat maaliodottaman olevan tarkka malli tehtyjen maalien selittäjänä käsiteltävässä aineistossa. Maaliodottaman ylittäminen tai alittaminen on myös vaikuttanut menestykseen sarjassa. Tuloksia tarkasteltaessa tulee kuitenkin ottaa huomioon yhtenä käsiteltävänä kautena aineistossa esiintyvä autokorrelaatio ja jalkapallolle ominainen satunnaisuus, joka ilmenee tarkkuuden merkittävänä vaihteluna kausien välillä. Kolmen kauden otoksesta yhdessä pääsarjassa ei voida vetää yleistäviä johtopäätöksiä maaliodottaman tarkkuudesta. Jatkotutkimuksia vaaditaan, mutta maaliodottaman käyttökelpoisuutta ja tulevaisuutta ajatellen tulokset voidaan kuitenkin nähdä positiivisina.
The results of the linear regression imply heavy correlation between goals scored and expected goals in the dataset. Scoring significantly more or less goals than the expected goals calculated by the expected goals model also seems to influence the success of the team. Looking at the results, the autocorrelation existing especially in one season of the data and the variation of r-squared between the seasons must be acknowledged. In general, a sample of three seasons in just one football league isn’t enough to make general assumptions from the results of the regression. The subject requires further research, but the results can be seen as positive for the usability and the future of expected goals models.