Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Anomaly detection system framework for error detection

Rautiainen, Aleksi (2024)

Katso/Avaa
mastersthesis_rautiainen_aleksi.pdf (2.015Mb)
Lataukset: 


Pro gradu -tutkielma

Rautiainen, Aleksi
2024

School of Business and Management, Kauppatieteet

Kaikki oikeudet pidätetään.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024061150008

Tiivistelmä

Data quality issues can have major implications for companies, especially in industries that heavily utilize data, for not only decision making but in daily operations in general. This thesis aims to find an answer to a problem faced by the case company: How can errors both in data source systems as well as errors generated in some part of the data pipeline be de-tected, fixed, and avoided in the future? Anomaly detection in studies often concentrates on using machine learning models on specific datasets. The problem faced by the case company is much broader than implementing a machine learning based anomaly detection model on a specific dataset, which is why this thesis focuses on more of a holistic ap-proach, which is a framework for doing anomaly detection on any type of data. This starts with a prioritization of datasets or data columns that may have errors in them. The prioriti-zation is done with Weighted Sum Method (WSM) for the simplicity and transparency of the model. Once datasets are prioritized the next step is approach and model selection. Un-like in many studies, in real world business cost-effectiveness is very important, which is why, if possible, rule-based, or threshold-based anomaly detection is used where possible. The next option from cost-effectiveness viewpoint are statistical methods and only as a final option should machine learning models be considered, as they often require more time and money to implement. The chosen anomaly detection method is implemented into the company data-platform and run for a chosen period to find anomalies or errors. Any errors are diagnosed, fixed, and documented. Once these steps are finished a validation period starts where the chosen dataset is validated to make sure that the same errors that have been fixed do not resurface.
 
Datan laadun ongelmat voivat aiheuttaa merkittäviä ongelmia, erityisesti toimialoilla, jotka käyttävät paljon dataa päätöksenteossa ja päivittäisissä toiminnoissa. Tämä tutkielma pyrkii vastaamaan yrityksen ongelmaan: Miten virheitä voidaan löytää, korjata ja välttää tule-vaisuudessa, riippumatta siitä, ovatko virheet peräisin lähdejärjestelmästä vai dataputkesta. Poikkeamien tunnistaminen keskittyy tutkimuksissa pääosin koneoppimismalleihin, joita käytetään rajattuihin data-aineistoihin. Yrityksen ongelma on kuitenkin laajempi kuin yksit-täisen poikkeamien tunnistusmallin käyttäminen tiettyyn tietoaineistoon, minkä takia tämä tutkielma keskittyy holistisempaan lähestymistapaan, joka on viitekehys poikkeamien tun-nistamiseen missä tahansa tietoaineistossa. Viitekehyksen ensimmäinen askel on mahdollis-esti virheitä sisältävien data-aineistojen ja datasarakkeiden priorisointi. Priorisointi tehdään käyttäen mallin yksinkertaisuuden ja läpinäkyvyyden takia Weighted Sum Method (WSM) -mallia. Data-aineistojen tai datasarakkeiden priorisoinnin jälkeen seuraava askel viiteke-hyksessä on lähestymistavan ja mallin valinta. Toisin kuin monissa tutkimuksissa, liiketoiminnassa kustannustehokkuuden merkitys korostuu, minkä takia säännöstöjä tai raja-arvoja hyödyntävä poikkeamien tunnistus on ensimmäinen harkittava vaihtoehto. Seuraava vaihtoehto on tilastotieteelliset menetelmät ja vasta viimeisenä vaihtoehtona koneoppimis-mallit, koska niiden implementointiin menee usein enemmän aikaa ja rahaa. Valittu poikkeamien tunnistamismalli toteutetaan yrityksen data-alustalle, ja mallia ajetaan määri-tellyn ajanjakson ajan poikkeamien ja virheiden etsimiseksi. Kaikki tunnistetut virheet diag-nosoidaan, korjataan ja dokumentoidaan. Kun nämä askeleet on tehty, alkaa validointivaihe, jonka aikana varmistetaan, ettei tunnistettuja ja korjattuja virheitä tule lisää data-aineistoon.
 
Kokoelmat
  • Diplomityöt ja Pro gradu -tutkielmat [15063]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste