Modular framework for outlier detection
Reunanen, Niko (2014)
Diplomityö
Reunanen, Niko
2014
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2014042925236
https://urn.fi/URN:NBN:fi-fe2014042925236
Tiivistelmä
Outlier detection is an important form of data analysis because outliers in several cases contain the interesting and important pieces of information. In the recent years, many different outlier detection algorithms have been devised for finding different kinds of outliers in varying contexts and environments. Some effort has been put to study how to effectively combine different outlier detection methods. The combination of outlier detection algorithms as an ensemble was studied in this thesis by designing a modular framework for outlier detection, which combines arbitrary outlier detection techniques. This work resulted in an example implementation of the framework. Outlier detection capability of the ensemble method was validated using datasets and methods found in outlier detection research. The framework achieved better results than the individual outlier algorithms. Future research includes how to handle large datasets effectively and the possibilities for real-time outlier monitoring. Poikkeamien tunnistaminen on tärkeä data-analyysin muoto, koska poikkeamat sisältävät useissa tapauksissa mielenkiintoista ja tärkeätä informaatiota. Monta erilaista poikkeaman tunnistusalgoritmia on kehitetty viimeisten vuosien aikana löytämään poikkeamia erilaisissa konteksteissa ja ympäristöissä. Poikkeamien tunnistusalgoritmien yhdistämistä on myös hieman tutkittu. Tässä diplomityössä algoritmien yhdistämistä tutkittiin kehittämällä modulaarinen menetelmäkehys poikkeamien tunnistamiseen yhdistämällä valittuja tunnistusalgoritmeja ja toteutettiin esimerkkitoteutus. Menetelmäkehyksen suorituskyky validoitiin käyttämällä poikkeamatutkimuksessa esiintyviä menetelmiä ja aineistoja. Toteutuksen suorituskyky oli parempi kuin yksittäisten poikkeamien tunnistusalgoritmien. Jatkotutkimuksen kannalta tutkimusongelmiin sisältyvät esimerkiksi suurten aineistojen tehokas käsittely ja reaaliaikainen poikkeamantunnistaminen.