Classifying customer companies in an enterprise resource planning system using machine learning methods
Kauppala, Juho (2022)
Diplomityö
Kauppala, Juho
2022
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022103163873
https://urn.fi/URN:NBN:fi-fe2022103163873
Tiivistelmä
Information systems such as smart phone applications collect large amounts of data about their users. The data is used mostly for the system’s primary task, but machine learning methods can be used to get additional value out of the collected data. The goal of the thesis is to use customer data of an enterprise resource planning (ERP) system to classify customer companies based on which plugins they have selected, to create a plugin recommender model and increase plugin usage in the system. A review to customer data analysis and machine learning classification is presented. A method to classify the companies is proposed. Neural network, random forest, support vector machine forest, and metric learning models are compared with a dataset consisting of the ERP’s data. Multi-label classification model’s output is interpreted using top-k and threshold functions. The models are evaluated using the mean of plugin-specific F1-scores. The highest mean (0.558) is achieved by a support vector machine forest. The result is considered promising, perhaps good enough for a plugin recommender, but currently insufficient for business-critical applications. Testing alternative solutions, such as smaller decision trees and top-1 interpretation, might improve results. Informaatiojärjestelmät, kuten älypuhelinsovellukset, keräävät suuria datamääriä käyttäjistään. Tätä dataa käytetään enimmäkseen järjestelmien varsinaiseen toimintatarkoitukseen, mutta koneoppimisen avulla kerätystä datasta voidaan saada entistä enemmän hyötyä. Tämän työn tavoitteena on käyttää taloushallinnon ohjelmiston asiakasdataa asiakasyritysten luokitteluun heidän valitsemiensa lisäosien perusteella, jotta järjestelmään voitaisiin kehittää lisäosien suosittelija ja kasvattaa lisäosien käyttöä. Työssä esitetään kirjallisuuskatsaus asiakasdatan analysointiin ja koneoppimiseen, ehdotetaan mallia yritysten luokittelutehtävään ja vertaillaan neuroverkkoa, päätösmetsää, tukivektorikonetta sekä metriikkaoppimismallia käyttäen taloushallinnon ohjelmiston dataa. Usean luokan luokittimen tulosta tulkittiin valiten parhaat tai raja-arvon ylittävät luokat positiivisiksi. Mallien tarkkuudet laskettiin lisäosakohtaisten F1-score-arvojen keskiarvona. Tukivektorikonemetsä tuotti parhaan keskiarvon (0.558). Tulosta voidaan pitää lupaavana, ehkä jopa riittävänä lisäosasuosittelijalle, mutta riittämättömänä bisneskriittisille sovelluksille. Vaihtoehtoisten ratkaisujen, kuten pienempien päätöspuiden ja top-1-tulkinnan, kokeileminen saattaisi tuottaa parempia tuloksia.