Generalizing distance and averaging methods in unsupervised KNN anomaly detection
Heikkinen, Matias (2024)
Diplomityö
Heikkinen, Matias
2024
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20241211101138
https://urn.fi/URN:NBN:fi-fe20241211101138
Tiivistelmä
This thesis studies how generalizing distance and averaging methods affect unsupervised KNN-based anomaly detection. KNN-based anomaly detection models commonly rely on Euclidean distance and arithmetic mean for scoring anomalies, which often fail to show the best performance. Adjusting the scoring method increases the models' adaptability to practical problems. The results show that different distances and averages can significantly influence the detection outcomes. The results also provide evidence supporting the effectiveness of non-metric distance in high-dimensional data anomaly detection. Additionally, we introduce a novel validation method, the Outlier Detection Threshold (ODT), designed for datasets with significant class imbalances. The generalizations are evaluated through three experimental settings: (1) a chaotic system, the Lorenz attractor, where parameter changes are used to identify the locations of differences between systems. (2) a synthetic dataset with introduced outliers and its rotated variant, and (3) real-world datasets with labeled anomalies to test the model's applicability in practice. Tässä tutkielmassa tarkastellaan, kuinka etäisyysksien ja keskiarvojen yleistys vaikuttaa valvomattomaan lähimpiin naapureihin (KNN) perustuvaan poikkeavuuksien havaitsemiseen. KNN-pohjaiset poikkeavuuksien havaitsemismallit perustuvat yleensä euklidiseen etäisyyteen ja aritmeettiseen keskiarvoon poikkeamien arvioinnissa. Nämä eivät kuitenkaan usein tuota parasta mahdollista lopputulosta. Arviointimenetelmän mukauttaminen parantaa mallien soveltuvuutta käytännön ongelmiin. Tulokset osoittavat, että erilaiset etäisyydet ja keskiarvot voivat merkittävästi vaikuttaa poikkeavaisuuksien havaitsemiseen. Lisäksi tulokset osoittavat että jopa ei-metriset etäisyyden saattavat soveltua korkean ulottuvuuksisen data-aineiston poikkeavuuksien havaitsemisessa. Esittelemme myös uuden validointimenetelmän, Outlier Detection Thresholdin (ODT), joka on suunniteltu data-aineistoille joiden luokkajakaumat ovat vahvasti epätasapainoiset. Yleistysten vaikutuksia arvioidaan kolmessa kokeellisessa ympäristössä: (1) kaoottisessa järjestelmässä, Lorenzin attraktorissa, jossa parametrimuutosten avulla tunnistetaan järjestelmien välisiä eroja; (2) synteettisessä aineistossa, jossa on lisätty poikkeavuuksia ja sen muunnoksessa; ja (3) reaalimaailman aineistoissa, joissa on merkittyjä poikkeavuuksien perusteella testataan mallin soveltuvuudtta käytännössä.
