Anomaly detection system framework for error detection
Rautiainen, Aleksi (2024)
Pro gradu -tutkielma
Rautiainen, Aleksi
2024
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024061150008
https://urn.fi/URN:NBN:fi-fe2024061150008
Tiivistelmä
Data quality issues can have major implications for companies, especially in industries that heavily utilize data, for not only decision making but in daily operations in general. This thesis aims to find an answer to a problem faced by the case company: How can errors both in data source systems as well as errors generated in some part of the data pipeline be de-tected, fixed, and avoided in the future? Anomaly detection in studies often concentrates on using machine learning models on specific datasets. The problem faced by the case company is much broader than implementing a machine learning based anomaly detection model on a specific dataset, which is why this thesis focuses on more of a holistic ap-proach, which is a framework for doing anomaly detection on any type of data. This starts with a prioritization of datasets or data columns that may have errors in them. The prioriti-zation is done with Weighted Sum Method (WSM) for the simplicity and transparency of the model. Once datasets are prioritized the next step is approach and model selection. Un-like in many studies, in real world business cost-effectiveness is very important, which is why, if possible, rule-based, or threshold-based anomaly detection is used where possible. The next option from cost-effectiveness viewpoint are statistical methods and only as a final option should machine learning models be considered, as they often require more time and money to implement. The chosen anomaly detection method is implemented into the company data-platform and run for a chosen period to find anomalies or errors. Any errors are diagnosed, fixed, and documented. Once these steps are finished a validation period starts where the chosen dataset is validated to make sure that the same errors that have been fixed do not resurface. Datan laadun ongelmat voivat aiheuttaa merkittäviä ongelmia, erityisesti toimialoilla, jotka käyttävät paljon dataa päätöksenteossa ja päivittäisissä toiminnoissa. Tämä tutkielma pyrkii vastaamaan yrityksen ongelmaan: Miten virheitä voidaan löytää, korjata ja välttää tule-vaisuudessa, riippumatta siitä, ovatko virheet peräisin lähdejärjestelmästä vai dataputkesta. Poikkeamien tunnistaminen keskittyy tutkimuksissa pääosin koneoppimismalleihin, joita käytetään rajattuihin data-aineistoihin. Yrityksen ongelma on kuitenkin laajempi kuin yksit-täisen poikkeamien tunnistusmallin käyttäminen tiettyyn tietoaineistoon, minkä takia tämä tutkielma keskittyy holistisempaan lähestymistapaan, joka on viitekehys poikkeamien tun-nistamiseen missä tahansa tietoaineistossa. Viitekehyksen ensimmäinen askel on mahdollis-esti virheitä sisältävien data-aineistojen ja datasarakkeiden priorisointi. Priorisointi tehdään käyttäen mallin yksinkertaisuuden ja läpinäkyvyyden takia Weighted Sum Method (WSM) -mallia. Data-aineistojen tai datasarakkeiden priorisoinnin jälkeen seuraava askel viiteke-hyksessä on lähestymistavan ja mallin valinta. Toisin kuin monissa tutkimuksissa, liiketoiminnassa kustannustehokkuuden merkitys korostuu, minkä takia säännöstöjä tai raja-arvoja hyödyntävä poikkeamien tunnistus on ensimmäinen harkittava vaihtoehto. Seuraava vaihtoehto on tilastotieteelliset menetelmät ja vasta viimeisenä vaihtoehtona koneoppimis-mallit, koska niiden implementointiin menee usein enemmän aikaa ja rahaa. Valittu poikkeamien tunnistamismalli toteutetaan yrityksen data-alustalle, ja mallia ajetaan määri-tellyn ajanjakson ajan poikkeamien ja virheiden etsimiseksi. Kaikki tunnistetut virheet diag-nosoidaan, korjataan ja dokumentoidaan. Kun nämä askeleet on tehty, alkaa validointivaihe, jonka aikana varmistetaan, ettei tunnistettuja ja korjattuja virheitä tule lisää data-aineistoon.