Cross-modal learning for plankton recognition
Immonen, Veikka (2025)
Diplomityö
Immonen, Veikka
2025
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025062472883
https://urn.fi/URN:NBN:fi-fe2025062472883
Tiivistelmä
The emergence of automated imaging instruments and automatic plankton recognition solutions has enhanced research on aquatic plankton communities. This has reduced the manual work required to analyze and classify plankton from the large masses of data the instruments produce. The state-of-the-art for automatic plankton recognition employs computer vision and deep learning to classify plankton from the captured image data. While the results are promising, challenges such as low image quality and imbalanced class compositions in pre-labeled data complicate the development of improved recognition methods. These issues can refer to the use of a single modality. However, certain plankton imaging instruments provide supplementary data besides images, where the prime example is CytoSense, which also produces scatter and fluorescence profiles for all plankton passing through the instrument. In this thesis, multimodal plankton recognition was considered, where multiple sources of data are utilized for plankton recognition. During the study, a universal multimodal method using CytoSense data was developed. The method accepts either images, optical profiles, or both as input. The proposed method utilizes self-supervised cross-modal coordination, where for one sample, corresponding feature representations from each modality are learned to be close to each other in a multimodal embedding space. Then, labeled data from all modalities are encoded to perform k-Nearest Neighbor classification at test time. The proposed method not only classified multimodal plankton data accurately (>98%), but also required small quantities of labeled data to be effective. Vesiplanktonyhteisöjen tutkimusta on tehostanut automatisoitujen kuvantamislaitteiden ja planktonlajien tunnistusmenetelmien kehittyminen, jotka vähentävät kerätyn datan analysointiin ja luokitteluun tarvittavaa manuaalista työtä. Nykyiset automaattiset tunnistusmenetelmät käyttävät konenäköä ja syväoppimisjärjestelmiä planktonien luokittelemiseen, käyttäen kuvantamislaitteiden valokuvia. Lupaavista tuloksista huolimatta, haasteet kuten huono kuvien laatu ja epätasapainoiset luokkakoostumukset datassa vaikeuttavat parempien tunnistusmenetelmien kehittämistä. Nämä haasteet voivat viitata vain yhden modaliteetin käyttöön. Tietyt planktonin kuvantamislaitteet tarjoavat kuitenkin kuvien lisäksi muuta dataa, kuten esimerkiksi CytoSense, joka tuottaa myös sironta- ja fluoresenssiprofiileja. Tässä työssä tutkittiin multimodaalista planktonin tunnistusta CytoSense-dataa käyttäen, jossa planktonin tunnistamiseen voidaan käyttää useita datalähteitä. Työn aikana kehitettiin tunnistusjärjestelmä, joka käyttäisi tunnistamiseen joko kuvia, optisia profiileja tai molempia samanaikaisesti. Menetelmä koulutetaan poikkimodaalista koordinointia käyttäen, jossa jokaisen mittauksen modaliteetit projisoidaan mahdollisimman lähelle toisiaan aliavaruudessa. Tämän jälkeen, projisoitua esiluokiteltua multimodaalista dataa hyödynnetään tunnistamaan uusia mittauksia k:n lähimmän naapurin menetelmällä. Ehdotettu menetelmä sekä luokitteli multimodaalista planktondataa tarkasti, että vaati vähän valmiiksi luokiteltua dataa tehokkaaseen käyttöön.