Spectral retinal image segmentation using vision transformer
Jakonen, Marianne (2024)
Diplomityö
Jakonen, Marianne
2024
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20241211101217
https://urn.fi/URN:NBN:fi-fe20241211101217
Tiivistelmä
Fundus imaging is used to examine the condition of the eyes and diagnose various eyerelated diseases. Several studies have investigated the possibility of utilizing deep learning techniques for analyzing fundus images automatically. Semantic segmentation is an image analysis method where each pixel is assigned a class label, which enables accurate detection of different retinal structures and lesions. In retinal images the color similarity of different structures and lesions is high, lesions can be very small in size and hard to detect from background, which makes training deep learning based segmentation algorithms challenging. Spectral imaging increases the color resolution of retinal images, providing more accurate information of the object of interest and potentially improving the performance of retinal lesion segmentation algorithms. Vision transformer is a recently emerged deep learning architecture that has shown high potential in various image analysis tasks. The objective of this thesis is to apply a vision transformer based approach for segmenting spectral retinal images. The proposed solution is a transformer based model, specifically designed for spectral medical image segmentation. Two variants of the model were tested for segmenting spectral retinal images with lesions related to diabetic retinopathy present. The results indicate that there is potential for the proposed solution, however computational limitations and coarse ground truth information are currently limiting the performance. Silmänpohjakuvantamista käytetään silmien tutkimiseen ja silmäsairauksien diagnosointiin. Useissa tutkimuksissa on selvitetty syväoppimistekniikoiden hyödyntämistä silmänpohjakuvien automaattiseen analysointiin. Semanttinen segmentointi on kuvien analysointimenetelmä, jossa jokaiselle pikselille määritetään luokka, mikä mahdollistaa eri löydösten tarkan rajauksen. Silmänpohjakuvissa eri rakenteiden ja löydösten väritiedon samankaltaisuus on korkea ja niitä voi olla vaikea havaita taustasta, mikä tekee syväoppimiseen perustuvien segmentointialgoritmien kouluttamisesta haastavaa. Silmänpohjan spektrikuvantaminen parantaa kuvien väritiedon erottelukykyä, antaen tarkempaa tietoa kuvattavasta kohteesta, mikä voi parantaa verkkokalvon leesioiden segmentointialgoritmien suorituskykyä. Vision Transformer on äskettäin ehdotettu syväoppimisneuroverkko, joka on osoittautunut suorituskykyiseksi monissa kuvankäsittelyn tehtävissä. Tämän diplomityön tavoitteena on kehittää Vision Transformer -pohjainen lähestymistapa diabeettista retinopatiaa sairastavilta henkilöiltä otettujen spektrisilmänpohjakuvien segmentointiin. Ehdotettu ratkaisu on Transformer -pohjainen malli, joka on erityisesti suunniteltu lääketieteellisten spektrikuvien segmentointiin. Kaksi mallin varianttia testattiin verkkokalvon spektrikuvien segmentointiin. Tulokset ovat lupaavia, mutta laskennalliset rajoitteet ja epätarkat annotaatiot heikentävät tällä hetkellä suorituskykyä.
