Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Generalizing distance and averaging methods in unsupervised KNN anomaly detection

Heikkinen, Matias (2024)

Katso/Avaa
diplomityo_heikkinen_matias.pdf (3.363Mb)
Lataukset: 


Diplomityö

Heikkinen, Matias
2024

School of Engineering Science, Laskennallinen tekniikka

Kaikki oikeudet pidätetään.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20241211101138

Tiivistelmä

This thesis studies how generalizing distance and averaging methods affect unsupervised KNN-based anomaly detection. KNN-based anomaly detection models commonly rely on Euclidean distance and arithmetic mean for scoring anomalies, which often fail to show the best performance. Adjusting the scoring method increases the models' adaptability to practical problems. The results show that different distances and averages can significantly influence the detection outcomes. The results also provide evidence supporting the effectiveness of non-metric distance in high-dimensional data anomaly detection. Additionally, we introduce a novel validation method, the Outlier Detection Threshold (ODT), designed for datasets with significant class imbalances. The generalizations are evaluated through three experimental settings: (1) a chaotic system, the Lorenz attractor, where parameter changes are used to identify the locations of differences between systems. (2) a synthetic dataset with introduced outliers and its rotated variant, and (3) real-world datasets with labeled anomalies to test the model's applicability in practice.
 
Tässä tutkielmassa tarkastellaan, kuinka etäisyysksien ja keskiarvojen yleistys vaikuttaa valvomattomaan lähimpiin naapureihin (KNN) perustuvaan poikkeavuuksien havaitsemiseen. KNN-pohjaiset poikkeavuuksien havaitsemismallit perustuvat yleensä euklidiseen etäisyyteen ja aritmeettiseen keskiarvoon poikkeamien arvioinnissa. Nämä eivät kuitenkaan usein tuota parasta mahdollista lopputulosta. Arviointimenetelmän mukauttaminen parantaa mallien soveltuvuutta käytännön ongelmiin. Tulokset osoittavat, että erilaiset etäisyydet ja keskiarvot voivat merkittävästi vaikuttaa poikkeavaisuuksien havaitsemiseen. Lisäksi tulokset osoittavat että jopa ei-metriset etäisyyden saattavat soveltua korkean ulottuvuuksisen data-aineiston poikkeavuuksien havaitsemisessa. Esittelemme myös uuden validointimenetelmän, Outlier Detection Thresholdin (ODT), joka on suunniteltu data-aineistoille joiden luokkajakaumat ovat vahvasti epätasapainoiset. Yleistysten vaikutuksia arvioidaan kolmessa kokeellisessa ympäristössä: (1) kaoottisessa järjestelmässä, Lorenzin attraktorissa, jossa parametrimuutosten avulla tunnistetaan järjestelmien välisiä eroja; (2) synteettisessä aineistossa, jossa on lisätty poikkeavuuksia ja sen muunnoksessa; ja (3) reaalimaailman aineistoissa, joissa on merkittyjä poikkeavuuksien perusteella testataan mallin soveltuvuudtta käytännössä.
 
Kokoelmat
  • Diplomityöt ja Pro gradu -tutkielmat [14571]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste