Plankton image clustering using similarity metric learning
Ylijoki, Joona (2022)
Kandidaatintyö
Ylijoki, Joona
2022
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022051335140
https://urn.fi/URN:NBN:fi-fe2022051335140
Tiivistelmä
Technological advancement has evolved the imaging equipment used in plankton imaging. Nowadays it is possible to take images more efficiently. Due to the increased amount of images the processing time is longer. The recognition process has been automatized, for example, with neural networks but the requirement to train the new species into the model is slowing the process. One of the proposed solutions for this problem is open-set plankton recognition which utilizes similarity metric learning and embedding vectors to recognize the species in the image. The embedding vectors for the same species are closer to each other than the embedding vectors of two different species. Open-set classification is enabled by a set threshold value which indicates the probability for the images to belong to one of the existing classes.
Clustering is grouping of the data based on the similarities of the data points. It can be utilized to analyze data sets without previous knowledge about the labels in the data. In this thesis K-Medoids clustering method was used to group the embedding vectors of the plankton species based on their cosine distances. The clustering was visualized by using smaller subsets that contained embedding vectors from only three classes. The performance of the clustering was evaluated by calculating the purity for the clusters. The purity of the cluster indicates the percentage of the dominant class in the cluster. The clustering purity was calculated for the visualized clusters and the whole data. The data contained 37 840 embedding vectors and 50 different plankton species. The whole data was clustered with purity of slightly over 82%. The results were promising for using clustering to group plankton images. Teknologian kehitys on uudistanut kuvantamislaitteita, joita käytetään myös planktoneiden kuvantamiseen. Kuvia saadaan nykyään otettua tehokkaammin. Kasvaneen kuvamäärän vuoksi niiden käsittelyyn kuluva aika on pidempi. Tunnistusta on automatisoitu esimerkiksi neuroverkkojen avulla, mutta uusien lajien kouluttaminen niihin hidastaa prosessia. Ratkaisuksi tähän on ehdotettu avointa planktonin tunnistusta, jossa hyödynnetään samankaltaisuus metriikkaa ja piirrevektoreita kuvassa olevan lajin tunnistamiseksi. Saman lajin edustajien piirrevektorit ovat lähempänä toisiaan kuin kahden eri lajin edustajien piirrevektorit. Avoin luokittelu mahdollistetaan asettamalla kynnysarvo, joka ilmaisee todennäköisyyden kuvalle kuulua johonkin olemassa olevista luokista.
Klusterointi on datan ryhmittelyä sen sisältämien samankaltaisuuksien perusteella. Klusterointia voidaan hyödyntää datan analysoinnissa ilman tietoa datan sisältämistä nimikkeistä. Työssä käytettiin K-Medoids klusterointimenetelmää, jolla ryhmiteltiin planktonlajien piirrevektoreita niiden kosinietäisyyksien perusteella. Klusterointia visualisoitiin käyttämällä pienempiä osa-joukkoja, jotka sisälsivät vain kolmea eri luokkaa. Klusteroinnin onnistumista arvioitiin laskemalla klustereiden puhtaus. Klusterin puhtaus osoittaa klusterin dominoivan luokan suhteellisen osuuden klusterin sisältämistä kaikista luokka-arvoista. Klusteroinnin puhtaus laskettiin visualisoiduille klustereille ja kaiken tutkimuksessa käytössä olleen datan klusteroinnille. Käytetyssä datassa oli 37 840 piirrevektoria, sisältäen 50 eri luokkaa eli planktonlajia. Tulokseksi kaiken datan klusteroinnille saatiin noin 82% puhtaus. Tulokset olivat lupaavia klusteroinnin käyttämiseksi planktoneiden ryhmittelyssä.
Clustering is grouping of the data based on the similarities of the data points. It can be utilized to analyze data sets without previous knowledge about the labels in the data. In this thesis K-Medoids clustering method was used to group the embedding vectors of the plankton species based on their cosine distances. The clustering was visualized by using smaller subsets that contained embedding vectors from only three classes. The performance of the clustering was evaluated by calculating the purity for the clusters. The purity of the cluster indicates the percentage of the dominant class in the cluster. The clustering purity was calculated for the visualized clusters and the whole data. The data contained 37 840 embedding vectors and 50 different plankton species. The whole data was clustered with purity of slightly over 82%. The results were promising for using clustering to group plankton images.
Klusterointi on datan ryhmittelyä sen sisältämien samankaltaisuuksien perusteella. Klusterointia voidaan hyödyntää datan analysoinnissa ilman tietoa datan sisältämistä nimikkeistä. Työssä käytettiin K-Medoids klusterointimenetelmää, jolla ryhmiteltiin planktonlajien piirrevektoreita niiden kosinietäisyyksien perusteella. Klusterointia visualisoitiin käyttämällä pienempiä osa-joukkoja, jotka sisälsivät vain kolmea eri luokkaa. Klusteroinnin onnistumista arvioitiin laskemalla klustereiden puhtaus. Klusterin puhtaus osoittaa klusterin dominoivan luokan suhteellisen osuuden klusterin sisältämistä kaikista luokka-arvoista. Klusteroinnin puhtaus laskettiin visualisoiduille klustereille ja kaiken tutkimuksessa käytössä olleen datan klusteroinnille. Käytetyssä datassa oli 37 840 piirrevektoria, sisältäen 50 eri luokkaa eli planktonlajia. Tulokseksi kaiken datan klusteroinnille saatiin noin 82% puhtaus. Tulokset olivat lupaavia klusteroinnin käyttämiseksi planktoneiden ryhmittelyssä.