Analysis of production testing data and detecting abnormal behavior
Lehtonen, Oskari (2020)
Diplomityö
Lehtonen, Oskari
2020
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2020120499491
https://urn.fi/URN:NBN:fi-fe2020120499491
Tiivistelmä
This thesis presents methods to improve production testing methods by applying unsupervised machine learning to find anomalies from the data collected during testing. These methods are applied to a real-world case with the company ABB and their product Alpha an industrial electronic product. The goal is to create a tool to detect these deviating samples that can be used together with the current testing process.
The literature review reveals multiple promising methods and algorithms to be used for detecting anomalies in unsupervised manner. For feature extraction purposes different variations of Principal Component Analysis and Autoencoders are used to separate the anomalous samples from the normal. These methods have also been used to detect the anomalous samples by measuring how well they re-construct the data samples. For actual anomaly detection clustering and one-class classifiers are mainly used.
For the actual tool to be created four methods were selected: Hotelling’s T2 statistic, Q residual statistic, a clustering algorithm called HDBSCAN and one-class support vector machine classifier. Results from these methods are combined to determine which samples are determined to be anomalous. It is decided that when three or more methods agree on the sample being anomalous it is taken into further analysis. From the 1436 samples used for the actual analysis 14 samples were deemed anomalous, which corresponds to the expected rate of these products breaking down in the field use. Further analysis of these samples reveals variables that contribute the most to the reason they are deemed abnormal. The research, methods and the tool created in this thesis will in the future be incorporated to improve the production testing process at ABB. Tämä diplomityö esittää metodeja tuotetestauksen kehittämiseen soveltamalla ohjaamattoman oppimisen menetelmiä havaitsemaan poikkeamia tuotteiden testaamisesta kerätystä datasta. Näitä metodeja käytetään case-tutkimuksessa ABB:n tarjoamaan testausdataan heidän Alpha tuotteestaan, joka on teollisuudessa käytetty sähköä käyttävä tuote. Työn tavoitteena on luoda työkalu, jota voidaan käyttää poikkeavien yksilöiden havaitsemiseen yhdessä nykyisen testausprosessin kanssa.
Aikaisemmista tutkimuksista selviää monia lupaavia metodeja ja algoritmeja, joita voidaan hyödyntää poikkeamien tunnistamiseen ohjaamattoman oppimisen menetelmillä. Muuttujien käsittelyyn usein käytetään erilaisia versioita Pääkomponentti analyysistä (PCA) ja Autoenkoodaajista, jotta poikkeavat yksilöt erottuvat selkeämmin normaaleista. Myös näitä metodeja voidaan soveltaa poikkeamien tunnistamiseen mittaamalla, kuinka hyvin ne mallintavat alkuperäistä dataa. Itse poikkeamien tunnistamiseen useimmiten käytetään erilaisia klusterointi-algoritmeja tai yhden luokan luokittimia.
Lopulliseen työkaluun valittiin neljä metodia: Hotelling’s T2 ja Q-residuaali statistiikat, sekä HDBSCAN klusterointi-algoritmi sekä yhden luokan tukivektorikone. Näiden metodien yhteistuloksen perusteella valitaan yksilöt, jotka todetaan poikkeaviksi vähintään kolmella metodilla, poimitaan jatkoanalyysiin. Analyyseihin käytetyistä 1436 yksilöstä 14 todetaan olevan poikkeavia, joka vastaa viallisten tuotteiden odotettua määrää. Näitä yksilöitä tutkimalla voidaan löytää muuttujia, jotka aiheuttavat eroavaisuuksia normaaleihin verrattuna. Tässä työssä tehtyä tutkimusta, metodeja ja kehitettyä työkalua tullaan tulevaisuudessa hyödyntämään ABB:n tuotetestauksen kehittämisessä.
The literature review reveals multiple promising methods and algorithms to be used for detecting anomalies in unsupervised manner. For feature extraction purposes different variations of Principal Component Analysis and Autoencoders are used to separate the anomalous samples from the normal. These methods have also been used to detect the anomalous samples by measuring how well they re-construct the data samples. For actual anomaly detection clustering and one-class classifiers are mainly used.
For the actual tool to be created four methods were selected: Hotelling’s T2 statistic, Q residual statistic, a clustering algorithm called HDBSCAN and one-class support vector machine classifier. Results from these methods are combined to determine which samples are determined to be anomalous. It is decided that when three or more methods agree on the sample being anomalous it is taken into further analysis. From the 1436 samples used for the actual analysis 14 samples were deemed anomalous, which corresponds to the expected rate of these products breaking down in the field use. Further analysis of these samples reveals variables that contribute the most to the reason they are deemed abnormal. The research, methods and the tool created in this thesis will in the future be incorporated to improve the production testing process at ABB.
Aikaisemmista tutkimuksista selviää monia lupaavia metodeja ja algoritmeja, joita voidaan hyödyntää poikkeamien tunnistamiseen ohjaamattoman oppimisen menetelmillä. Muuttujien käsittelyyn usein käytetään erilaisia versioita Pääkomponentti analyysistä (PCA) ja Autoenkoodaajista, jotta poikkeavat yksilöt erottuvat selkeämmin normaaleista. Myös näitä metodeja voidaan soveltaa poikkeamien tunnistamiseen mittaamalla, kuinka hyvin ne mallintavat alkuperäistä dataa. Itse poikkeamien tunnistamiseen useimmiten käytetään erilaisia klusterointi-algoritmeja tai yhden luokan luokittimia.
Lopulliseen työkaluun valittiin neljä metodia: Hotelling’s T2 ja Q-residuaali statistiikat, sekä HDBSCAN klusterointi-algoritmi sekä yhden luokan tukivektorikone. Näiden metodien yhteistuloksen perusteella valitaan yksilöt, jotka todetaan poikkeaviksi vähintään kolmella metodilla, poimitaan jatkoanalyysiin. Analyyseihin käytetyistä 1436 yksilöstä 14 todetaan olevan poikkeavia, joka vastaa viallisten tuotteiden odotettua määrää. Näitä yksilöitä tutkimalla voidaan löytää muuttujia, jotka aiheuttavat eroavaisuuksia normaaleihin verrattuna. Tässä työssä tehtyä tutkimusta, metodeja ja kehitettyä työkalua tullaan tulevaisuudessa hyödyntämään ABB:n tuotetestauksen kehittämisessä.