Machine learning in public tender processes : classification Approach for predicting future tenders in Finnish municipalities
Nyström, Justus (2023)
Pro gradu -tutkielma
Nyström, Justus
2023
School of Business and Management, Kauppatieteet
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe202401021043
https://urn.fi/URN:NBN:fi-fe202401021043
Tiivistelmä
This paper aimed to utilize state-of-the-art machine learning algorithms to predict and identify potential municipalities and time periods in Finland where tender processes for Adapteo's solutions would likely be initiated. The study also sought to identify influential factors affecting demand for Adapteo's solutions within Finnish municipalities and evaluate the performance of different machine learning models. Three classifier algorithms—Support Vector Machines, Random Forest ensemble decision trees, and XGBoost boosted decision trees—were selected for analysis.
Among the models evaluated, the Random Forest models demonstrated the most balanced and stable predictions across both datasets. XGBoost models followed in performance, while Support Vector Machines did not fit well with the datasets. Despite model evaluations, the overall performance of the algorithms lacked reliability and predictive power. The data's representative nature and explanatory potential for predicting tender initiation in municipalities appeared limited.
Population changes, both future projections and past figures, emerged as the most relevant predictors of demand, although they were not highly potent predictors on their own. SQM (Square Meter) to population ratios demonstrated some explanatory power, while building age also exhibited relevance but was overshadowed by population change and SQM ratios. Migration movement was found to be an insignificant driver.
The paper identified probable municipalities and time periods for initiating school and daycare tender processes using ensemble prediction methods. However, the study recognized several limitations in data quality, model imbalance, and the data's lack of correlation with tender initiation processes. Despite these challenges, the study highlighted the potential utility of the developed methodology and model training and optimization pipeline, which could find application in business-relevant classification problems beyond tender predictions. Tässä tutkielmassa tavoitteena oli hyödyntää edistyneimpiä koneoppimisalgoritmeja ennustamaan ja tunnistamaan potentiaaliset kunnat ja ajanjaksot Suomessa, joissa Adapteolle relevantteja tarjousprosesseja todennäköisesti käynnistetään. Tutkimus pyrki myös tunnistamaan vaikuttavia tekijöitä Adapteon ratkaisujen kysynnässä suomalaisten kuntien keskuudessa ja arvioimaan erilaisten koneoppimismallien suorituskykyä. Kolme luokittelualgoritmia - Support Vector Machines (SVM), Random Forest, ja XGBoost -mallit valittiin analyysiä varten.
Mallien arvioinnissa Random Forest -mallit osoittivat tasapainoisimmat ja vakaimmat ennusteet molemmilla aineistoilla. XGBoost-mallit suoriutuivat samantasoisesti, kun taas SVM mallit eivät soveltuneet yhtä hyvin data aineistoon. Algoritmien yleinen suorituskyky oli kuitenkin puutteellinen luotettavuuden ja ennustetehon suhteen. Aineiston selittävä voima tarjousten käynnistämisen ennustamiseen kunnissa vaikutti rajoittuneelta.
Väestönmuutokset, niin tulevat ennusteet kuin menneet luvutkin, nousivat esiin vaikuttavimpina kysynnän ennustajina, vaikka ne eivät olleetkaan erityisen tehokkaita ennustajia yksinään. Neliömetrit per väestö -suhteet osoittivat jonkin verran selittävää voimaa. Rakennusten ikä oli myös relevantti tekijä, mutta jäi väestönmuutoksen ja neliömetrit väestöä kohti -suhdelukujen varjoon. Muuttoliike osoittautui merkityksettömäksi tekijäksi.
Tutkielmassa tunnistettiin todennäköisiä kuntia ja ajanjaksoja koulujen ja päiväkotien tarjouskilpailuprosessien käynnistämiselle ensemble-ennustusmenetelmien avulla. Tutkimuksessa tunnistettiin kuitenkin useita rajoituksia, jotka liittyivät tietojen laatuun, mallien epätasapainoon ja siihen, että tiedot eivät korreloi vahvasti tarjouskilpailujen aloittamisprosessien kanssa. Näistä haasteista huolimatta tutkimus tunnisti kehitetyn metodologian ja mallien koulutus- ja optimointiputken potentiaalisen käyttökelpoisuuden, jota voitaisiin soveltaa liiketoiminnalle merkityksellisissä luokitteluongelmissa tarjouskilpailujen ennustamisen ulkopuolella.
Among the models evaluated, the Random Forest models demonstrated the most balanced and stable predictions across both datasets. XGBoost models followed in performance, while Support Vector Machines did not fit well with the datasets. Despite model evaluations, the overall performance of the algorithms lacked reliability and predictive power. The data's representative nature and explanatory potential for predicting tender initiation in municipalities appeared limited.
Population changes, both future projections and past figures, emerged as the most relevant predictors of demand, although they were not highly potent predictors on their own. SQM (Square Meter) to population ratios demonstrated some explanatory power, while building age also exhibited relevance but was overshadowed by population change and SQM ratios. Migration movement was found to be an insignificant driver.
The paper identified probable municipalities and time periods for initiating school and daycare tender processes using ensemble prediction methods. However, the study recognized several limitations in data quality, model imbalance, and the data's lack of correlation with tender initiation processes. Despite these challenges, the study highlighted the potential utility of the developed methodology and model training and optimization pipeline, which could find application in business-relevant classification problems beyond tender predictions.
Mallien arvioinnissa Random Forest -mallit osoittivat tasapainoisimmat ja vakaimmat ennusteet molemmilla aineistoilla. XGBoost-mallit suoriutuivat samantasoisesti, kun taas SVM mallit eivät soveltuneet yhtä hyvin data aineistoon. Algoritmien yleinen suorituskyky oli kuitenkin puutteellinen luotettavuuden ja ennustetehon suhteen. Aineiston selittävä voima tarjousten käynnistämisen ennustamiseen kunnissa vaikutti rajoittuneelta.
Väestönmuutokset, niin tulevat ennusteet kuin menneet luvutkin, nousivat esiin vaikuttavimpina kysynnän ennustajina, vaikka ne eivät olleetkaan erityisen tehokkaita ennustajia yksinään. Neliömetrit per väestö -suhteet osoittivat jonkin verran selittävää voimaa. Rakennusten ikä oli myös relevantti tekijä, mutta jäi väestönmuutoksen ja neliömetrit väestöä kohti -suhdelukujen varjoon. Muuttoliike osoittautui merkityksettömäksi tekijäksi.
Tutkielmassa tunnistettiin todennäköisiä kuntia ja ajanjaksoja koulujen ja päiväkotien tarjouskilpailuprosessien käynnistämiselle ensemble-ennustusmenetelmien avulla. Tutkimuksessa tunnistettiin kuitenkin useita rajoituksia, jotka liittyivät tietojen laatuun, mallien epätasapainoon ja siihen, että tiedot eivät korreloi vahvasti tarjouskilpailujen aloittamisprosessien kanssa. Näistä haasteista huolimatta tutkimus tunnisti kehitetyn metodologian ja mallien koulutus- ja optimointiputken potentiaalisen käyttökelpoisuuden, jota voitaisiin soveltaa liiketoiminnalle merkityksellisissä luokitteluongelmissa tarjouskilpailujen ennustamisen ulkopuolella.
