AutoML performance in model fitting : a comparative study of selected machine learning competitions in 2012-2019
Jääskeläinen, Juho Antti (2022)
Pro gradu -tutkielma
Jääskeläinen, Juho Antti
2022
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022020111624
https://urn.fi/URN:NBN:fi-fe2022020111624
Tiivistelmä
AutoML (automated machine learning) offers multiple benefits to the user. It can create a very powerful model without any interactions or technical expertise. The focus of the thesis is to benchmark four open-source AutoML tools against human experts by making them compete in data science competitions. Benchmark is then used to describe how AutoML could be applied to machine learning pipelines.
Based on previous studies four best-performing AutoML-tools were chosen for this study: TPOT, Auto-Sklearn 2, H2O AutoML and AutoGluon. They are put to compete in ten past data science competitions in Kaggle.com, using two-hour training time with Google Colab. The achieved ranks are compared against the competition’s leaderboard. In this research, the best performing tool was AutoGluon followed by H2O AutoML. Together they beat 85% of human teams in competitions held before 2017. After 2017, the performance seems to have decreased which is probably due to competitions becoming more competitive and the competitions having problems that cannot be solved with only modelling. Compared to previous studies TPOT and Auto-Sklearn 2 were unable to perform well with strict computing resources used in this study.
The results of this study show that AutoML can create very competitive models in a short amount of time with low-end computing. This implies that machine learning is becoming more accessible as powerful models can be created without technical expertise. AutoML (automatisoitu koneoppiminen) antaa käyttäjälle monta etua. Se pystyy rakentamaan tehokkaan koneoppimis mallin automaattisesti eikä vaadi tietotaitoa. Tutkimuksen tavoitteena on vertailla neljää avoimen lähdekoodin AutoML työkalua ihmisasiantuntijoihin. Työkalut laitettiin kilpailemaan datatiede kilpailussa. Tähän perustuen ehdotetaan miten AutoML:ää voidaan hyödyntää tekoäly projekteissa.
Kirjallisuuteen perustuen valittiin neljä parhaiten pärjännyttä työkalua, jotka ovat: TPOT, Auto-Sklearn 2, H2O AutoML ja AutoGluon. Työkalut laitetaan kilpailemaan jo päättyneissä koneoppimis kilpailuissa Kaggle.com:issa. Ajoaika oli kaksi tuntia ja ajoihin käytetään Googlen Colab palvelua. Työkalujen tuloksia verrataan kilpailun tuloksiin. Paras työkalu oli AutoGluon, jota seurasi H2O AutoML. Yhdessä ne voittivat 85 % ihmisjoukkueista ennen vuotta 2017 järjestetyissä kilpailuissa. Sen jälkeen suorituskyky näytti laskevan, syynä on todennäköisesti, se että kilpailut olivat yhä tiukempia sekä niiden ratkaiseminen vaati muutakin kuin pelkkää mallinnusta. Verrattuna edellisiin tutkimuksiin käytettiin pienempää laskenta tehoa, tästä johtuen TPOT ja Auto-Sklearn 2 eivät pärjänneet.
Tulokset näyttävät, että AutoML voi rakentaa hyvin tehokkaan koneoppimis mallin lyhyessä ajassa pienelläkin laskentateholla. Tästä johtuen koneoppimisesta on tulossa yhä helppokäyttöisempää, kun tehokkaita malleja voidaan tehdä ilman teknistä asiantuntemusta.
Based on previous studies four best-performing AutoML-tools were chosen for this study: TPOT, Auto-Sklearn 2, H2O AutoML and AutoGluon. They are put to compete in ten past data science competitions in Kaggle.com, using two-hour training time with Google Colab. The achieved ranks are compared against the competition’s leaderboard. In this research, the best performing tool was AutoGluon followed by H2O AutoML. Together they beat 85% of human teams in competitions held before 2017. After 2017, the performance seems to have decreased which is probably due to competitions becoming more competitive and the competitions having problems that cannot be solved with only modelling. Compared to previous studies TPOT and Auto-Sklearn 2 were unable to perform well with strict computing resources used in this study.
The results of this study show that AutoML can create very competitive models in a short amount of time with low-end computing. This implies that machine learning is becoming more accessible as powerful models can be created without technical expertise.
Kirjallisuuteen perustuen valittiin neljä parhaiten pärjännyttä työkalua, jotka ovat: TPOT, Auto-Sklearn 2, H2O AutoML ja AutoGluon. Työkalut laitetaan kilpailemaan jo päättyneissä koneoppimis kilpailuissa Kaggle.com:issa. Ajoaika oli kaksi tuntia ja ajoihin käytetään Googlen Colab palvelua. Työkalujen tuloksia verrataan kilpailun tuloksiin. Paras työkalu oli AutoGluon, jota seurasi H2O AutoML. Yhdessä ne voittivat 85 % ihmisjoukkueista ennen vuotta 2017 järjestetyissä kilpailuissa. Sen jälkeen suorituskyky näytti laskevan, syynä on todennäköisesti, se että kilpailut olivat yhä tiukempia sekä niiden ratkaiseminen vaati muutakin kuin pelkkää mallinnusta. Verrattuna edellisiin tutkimuksiin käytettiin pienempää laskenta tehoa, tästä johtuen TPOT ja Auto-Sklearn 2 eivät pärjänneet.
Tulokset näyttävät, että AutoML voi rakentaa hyvin tehokkaan koneoppimis mallin lyhyessä ajassa pienelläkin laskentateholla. Tästä johtuen koneoppimisesta on tulossa yhä helppokäyttöisempää, kun tehokkaita malleja voidaan tehdä ilman teknistä asiantuntemusta.