Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Enhancing image retrieval with contrastive learning

Aalto, Matti (2024)

Katso/Avaa
Bachelors_Thesis_Matti_Aalto.pdf (7.703Mb)
Lataukset: 


Kandidaatintyö

Aalto, Matti
2024

School of Engineering Science, Laskennallinen tekniikka

Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024060747230

Tiivistelmä

The subject of this thesis is the use of contrastive learning in image retrieval applications, specifically the method of contrastive language-image pre-training. This means the process of pre-training a model with natural language supervision and contrastive learning. This allows the model to calculate the similarity of images and natural language.

In this thesis, the subject theory is explored and relevant works related to the subject are reviewed. Additionally, a Python-based basic source implementation of this technique is developed further and experimented with. The model’s modifications, training, and testing processes are documented.

The conclusions of the thesis include that the main benefits of this method are as such. The flexibility in applications and the easier acquisition of training data are allowed by the use of natural language supervision. It has great zero-shot application possibilities because of contrastive learning provides probabilistic results for matches based on just their content, not any predetermined labels.

The results of the practical implementation experimentation gave promising visual retrieval results and gave a Recall@1 rate of 8.2% for the smaller Flickr8k dataset used, and 7.1% for the larger version of it, Flickr30k. Additionally, it was concluded that the source implementation might have problems with it, that might hinder it. An idea for future work was the improvement of the implementation itself.
 
Tutkielman aiheena on kontrastiivisen oppimisen käyttö kuvahakusovelluksissa. Tarkemmin ilmaistuna käytetty menetelmä on kontrastiivinen kieli-kuva esikoulutus. Tämä tarkoittaa mallin esikoulutusprosessia luonnollisen kielen valvonnalla sekä kontrastiivisella oppimisella. Tämä mahdollistaa kuvien sekä luonnollisen kielen muodossa esitettyjen lauseiden samankaltaisuuden laskemisen.

Tässä tutkielmassa tutkitaan aiheen teoriaa ja tarkastellaan aiheeseen liittyviä keskeisiä aiempia tutkimuksia. Lisäksi tutkitaan aiheen käytännön toteutusta perustuen tämän konseptin perusominaisuudet omaavaan lähdekoodiin. Mallin muokkaukset, koulutus ja testaus dokumentoidaan.

Tutkielman lopulliset päätelmät ovat seuraavat. Menetelmän pääasialliset hyödyt ovat sovellusten joustavuus ja koulutusdatan helpompi hankinta luonnollisen kielen valvonnan avulla. Laaja nollapiste sovellusmahdollisuus on myös saavutettavissa johtuen kontrastiivisen oppimisen joustavasta tavasta havaita kuva-tekstiparien samankaltaisuus niiden sisällön perusteella, ennaltamääriteltyjen nimikkeiden sijaan.

Käytännön toteutuksen kokeilun tulokset antoivat lupaavia visuaalisia hakutuloksia ja malli tuotti Recall@1-arvon 8,2 % käytetyssä pienemmässä Flickr8k aineistossa ja 7,1 % suuremmassa versiossa, Flickr30k. Lisäksi todettiin, että lähdekoodissa saattaa olla ongelmia, jotka voivat haitata sitä. Jatkotutkimus ideaksi ehdotettiin toteutuksen parantamista.
 
Kokoelmat
  • Kandidaatin tutkintojen opinnäytetyöt [7155]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste