Predicting ATP match outcomes : a comparison of logistic regression and random forest models
Sokka, Arttu (2026)
Kandidaatintutkielma
Sokka, Arttu
2026
School of Business and Management, Kauppatieteet
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2026051545593
https://urn.fi/URN:NBN:fi-fe2026051545593
Tiivistelmä
This thesis compares logistic regression and random forest models for predicting men's ATP tennis match outcomes. The study uses Jeff Sackmann's ATP match data from 2000 to 2019, containing over 60,000 match observations. The models are trained on engineered features based on prior research and evaluated using a rolling training-testing window. The models' hyperparameters are optimized using time-series cross-validation, and predictive performance is measured with accuracy, log-loss, and the Brier score. In addition to predictive performance, the study examines feature importance and presents ways to interpret individual features under multicollinear conditions.
The results show that logistic regression achieved slightly higher classification accuracy (0.683) than random forest (0.678). This slight advantage can mainly be explained by the informative feature design and the rolling training-testing evaluation procedure. The leave-one-feature-out (LOFO) analysis further showed that the surface-specific Elo rating was the least replaceable feature, highlighting the importance of performance-related features in predicting match outcomes. Overall, the results demonstrate that carefully designed predictive features can yield competitive predictions with a simple logistic regression model in a rolling forecast setting. Tämä tutkielma vertailee logistisen regressiomallin sekä satunnaismetsämallin (random forest) suorituskykyä miesten ATP-tennisotteluiden ennustamisessa. Tutkimus perustuu Jeff Sackmannin ATP-otteludataan vuosilta 2000-2019, joka sisältää yli 60 000 otteluhavaintoa. Mallit koulutetaan aiempiin tutkimuksiin perustuvilla muodostetuilla ennustemuuttujilla ja arvioidaan rullaavalla koulutus-testausikkunalla. Mallien hyperparametrit optimoidaan aikasarjallisella ristiinvalidoinnilla, ja ennustekykyä mitataan tarkkuudella sekä log-loss- ja Brier-arvoilla. Tutkimus tarkastelee myös merkittävimpiä ennustemuuttujia ja esittää tapoja tulkita yksittäisten muuttujien tärkeyttä multikollineaarisissa olosuhteissa.
Tulokset osoittavat, että logistinen regressio saavutti hieman korkeamman luokittelutarkkuuden (0,683) kuin satunnaismetsä (0,678). Tämä pieni etu selittyy pääasiassa informatiivisella muuttujien muodostamisella sekä rullaavalla koulutus-testausmenetelmällä. Leave-one-feature-out-analyysi (LOFO) osoitti lisäksi, että alustakohtainen Elo-luokitus oli vähiten korvattava muuttuja, mikä korostaa pelaajan suorituskykyä kuvaavien muuttujien tärkeyttä ottelutulosten ennustamisessa. Kokonaisuudessaan tulokset osoittavat, että huolellisesti suunnitelluilla ennustemuuttujilla voidaan saavuttaa kilpailukykyisiä ennusteita yksinkertaisella logistisella regressiomallilla rullaavassa ennustamisympäristössä.
The results show that logistic regression achieved slightly higher classification accuracy (0.683) than random forest (0.678). This slight advantage can mainly be explained by the informative feature design and the rolling training-testing evaluation procedure. The leave-one-feature-out (LOFO) analysis further showed that the surface-specific Elo rating was the least replaceable feature, highlighting the importance of performance-related features in predicting match outcomes. Overall, the results demonstrate that carefully designed predictive features can yield competitive predictions with a simple logistic regression model in a rolling forecast setting.
Tulokset osoittavat, että logistinen regressio saavutti hieman korkeamman luokittelutarkkuuden (0,683) kuin satunnaismetsä (0,678). Tämä pieni etu selittyy pääasiassa informatiivisella muuttujien muodostamisella sekä rullaavalla koulutus-testausmenetelmällä. Leave-one-feature-out-analyysi (LOFO) osoitti lisäksi, että alustakohtainen Elo-luokitus oli vähiten korvattava muuttuja, mikä korostaa pelaajan suorituskykyä kuvaavien muuttujien tärkeyttä ottelutulosten ennustamisessa. Kokonaisuudessaan tulokset osoittavat, että huolellisesti suunnitelluilla ennustemuuttujilla voidaan saavuttaa kilpailukykyisiä ennusteita yksinkertaisella logistisella regressiomallilla rullaavassa ennustamisympäristössä.
