Clustering and classification of material suppliers using machine learning algorithms
Lahtinen, Joel (2021)
Diplomityö
Lahtinen, Joel
2021
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021050328621
https://urn.fi/URN:NBN:fi-fe2021050328621
Tiivistelmä
The purpose of this thesis is to serve as a feasibility study to investigate the usage of machine learning algorithms to enhance daily operations of procurement function. It seeks to find suitable variables from the given supplier dataset, clustering the suppliers into coherent categories, understand characteristics of each category and choosing a better classifier from two options for supplier classification. The thesis presents a supplier relationship management process and framework where the machine learning algorithms are used to create efficiencies in sourcing operations towards different suppliers. The studied dataset composed of technical material supplier data of a Finnish listed company.
The algorithms used in feature selection phase are Principal component analysis (PCA) and Pearson’s correlation coefficient (PCC). Algorithms for cluster quantity determination are the elbow method, Calinski-Harabaz index and Silhouette width. Used machine learning algorithm for clustering is K-means algorithm and classifier algorithms compared are Artificial neural network (ANN) and Random forest (RF). The evaluation of classifier algorithms was done by comparing firstly the accuracy and secondly the true positive rate (TPR) of classification performance.
The research results indicate that given supplier data has some redundancy which were identified and removed in feature selection phase. The optimal and practical quantity of clusters for given data was five clusters with distinctive characteristics to be used. As comparing ANN and RF with different hyperparameter settings as classifiers for supplier data, the RF was found to be the more accurate and more suitable for the purpose. The thesis gave indication that supplier data could be clustered in meaningful categories and a classifier can classify clustering data with over 95 % accuracy into those pre-defined categories. Tämän työ toimi tutkimuksena, jossa tutkittiin koneoppimisalgoritmien soveltuvuutta hankintafunktion päivittäisen toiminnan tehostamiseen. Työssä etsittiin soveltuvia muuttujia toimeksiantajalta kerätystä toimittajadatasta, klusteroitiin toimittajat yhtenäisiin kategorioihin, selvitettiin kategorioiden ominaispiirteet ja valittiin parempi luokittelualgoritmi kahdesta vaihtoehdosta toimittajien luokitteluun. Lisäksi työ esitteli toimittajasuhdehallinnan prosessin sekä viitekehyksen, jossa koneoppimisalgoritmeja hyödynnetään tehokkuuden lisäämisessä hankintaoperaatioissa eri toimittajien kanssa. Tutkittu data koostui teknisten materiaalien toimittajadatasta, joka oli saatu suomalaiselta pörssiyhtiöltä.
Työssä piirteenvalinnassa käytettiin pääkomponenttianalyysia sekä Pearsonin korrelaatiokerrointa. Klusterien määrän määrittämiseen käytettiin nk. kyynärpäämetodia, Calinski-Harabaz indeksiä sekä Siluettipisteytystä. Käytetyt koneoppimisalgoritmit olivat klusteroinnissa K:n keskiarvon klusterointimenetelmä ja luokittelussa Neuroverkko sekä Satunnainen metsä. Luokittelualgoritmeja arvioitiin niiden luokittelutarkkuuden sekä sensitiivisyyden perusteella.
Tutkimus osoitti, että tutkitussa datassa on tarpeettomia muuttujia, jotka tunnistettiin ja poistettiin piirteenvalinnan aikana. Optimaaliseksi kategorioiden määräksi valikoitui viisi kategoriaa, joista jokaisella oli selvästi yksilölliset ominaispiirteet. Neuroverkkoa sekä satunnaismetsää tarkasteltaessa eri asetuksilla, työssä osoitettiin, että satunnaismetsä oli tarkempi ja sensitiivisempi toimittajien luokittelussa. Tutkimus osoitti, että koneoppimismenetelmillä toimittajadata oli klusteroitavissa käytettäviin kategorioihin sekä luokiteltavissa yli 95 % tarkkuudella.
The algorithms used in feature selection phase are Principal component analysis (PCA) and Pearson’s correlation coefficient (PCC). Algorithms for cluster quantity determination are the elbow method, Calinski-Harabaz index and Silhouette width. Used machine learning algorithm for clustering is K-means algorithm and classifier algorithms compared are Artificial neural network (ANN) and Random forest (RF). The evaluation of classifier algorithms was done by comparing firstly the accuracy and secondly the true positive rate (TPR) of classification performance.
The research results indicate that given supplier data has some redundancy which were identified and removed in feature selection phase. The optimal and practical quantity of clusters for given data was five clusters with distinctive characteristics to be used. As comparing ANN and RF with different hyperparameter settings as classifiers for supplier data, the RF was found to be the more accurate and more suitable for the purpose. The thesis gave indication that supplier data could be clustered in meaningful categories and a classifier can classify clustering data with over 95 % accuracy into those pre-defined categories.
Työssä piirteenvalinnassa käytettiin pääkomponenttianalyysia sekä Pearsonin korrelaatiokerrointa. Klusterien määrän määrittämiseen käytettiin nk. kyynärpäämetodia, Calinski-Harabaz indeksiä sekä Siluettipisteytystä. Käytetyt koneoppimisalgoritmit olivat klusteroinnissa K:n keskiarvon klusterointimenetelmä ja luokittelussa Neuroverkko sekä Satunnainen metsä. Luokittelualgoritmeja arvioitiin niiden luokittelutarkkuuden sekä sensitiivisyyden perusteella.
Tutkimus osoitti, että tutkitussa datassa on tarpeettomia muuttujia, jotka tunnistettiin ja poistettiin piirteenvalinnan aikana. Optimaaliseksi kategorioiden määräksi valikoitui viisi kategoriaa, joista jokaisella oli selvästi yksilölliset ominaispiirteet. Neuroverkkoa sekä satunnaismetsää tarkasteltaessa eri asetuksilla, työssä osoitettiin, että satunnaismetsä oli tarkempi ja sensitiivisempi toimittajien luokittelussa. Tutkimus osoitti, että koneoppimismenetelmillä toimittajadata oli klusteroitavissa käytettäviin kategorioihin sekä luokiteltavissa yli 95 % tarkkuudella.