Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Predicting ATP match outcomes : a comparison of logistic regression and random forest models

Sokka, Arttu (2026)

Katso/Avaa
Bachelorsthesis_Sokka_Arttu.pdf (702.9Kb)
Lataukset: 


Kandidaatintutkielma

Sokka, Arttu
2026

School of Business and Management, Kauppatieteet

Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2026051545593

Tiivistelmä

This thesis compares logistic regression and random forest models for predicting men's ATP tennis match outcomes. The study uses Jeff Sackmann's ATP match data from 2000 to 2019, containing over 60,000 match observations. The models are trained on engineered features based on prior research and evaluated using a rolling training-testing window. The models' hyperparameters are optimized using time-series cross-validation, and predictive performance is measured with accuracy, log-loss, and the Brier score. In addition to predictive performance, the study examines feature importance and presents ways to interpret individual features under multicollinear conditions.

The results show that logistic regression achieved slightly higher classification accuracy (0.683) than random forest (0.678). This slight advantage can mainly be explained by the informative feature design and the rolling training-testing evaluation procedure. The leave-one-feature-out (LOFO) analysis further showed that the surface-specific Elo rating was the least replaceable feature, highlighting the importance of performance-related features in predicting match outcomes. Overall, the results demonstrate that carefully designed predictive features can yield competitive predictions with a simple logistic regression model in a rolling forecast setting.
 
Tämä tutkielma vertailee logistisen regressiomallin sekä satunnaismetsämallin (random forest) suorituskykyä miesten ATP-tennisotteluiden ennustamisessa. Tutkimus perustuu Jeff Sackmannin ATP-otteludataan vuosilta 2000-2019, joka sisältää yli 60 000 otteluhavaintoa. Mallit koulutetaan aiempiin tutkimuksiin perustuvilla muodostetuilla ennustemuuttujilla ja arvioidaan rullaavalla koulutus-testausikkunalla. Mallien hyperparametrit optimoidaan aikasarjallisella ristiinvalidoinnilla, ja ennustekykyä mitataan tarkkuudella sekä log-loss- ja Brier-arvoilla. Tutkimus tarkastelee myös merkittävimpiä ennustemuuttujia ja esittää tapoja tulkita yksittäisten muuttujien tärkeyttä multikollineaarisissa olosuhteissa.

Tulokset osoittavat, että logistinen regressio saavutti hieman korkeamman luokittelutarkkuuden (0,683) kuin satunnaismetsä (0,678). Tämä pieni etu selittyy pääasiassa informatiivisella muuttujien muodostamisella sekä rullaavalla koulutus-testausmenetelmällä. Leave-one-feature-out-analyysi (LOFO) osoitti lisäksi, että alustakohtainen Elo-luokitus oli vähiten korvattava muuttuja, mikä korostaa pelaajan suorituskykyä kuvaavien muuttujien tärkeyttä ottelutulosten ennustamisessa. Kokonaisuudessaan tulokset osoittavat, että huolellisesti suunnitelluilla ennustemuuttujilla voidaan saavuttaa kilpailukykyisiä ennusteita yksinkertaisella logistisella regressiomallilla rullaavassa ennustamisympäristössä.
 
Kokoelmat
  • Kandidaatin tutkintojen opinnäytetyöt [7149]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste