Multimodal fake news detection : a benchmark of state-of-the-art approaches
Keronen, Antti (2025)
Kandidaatintyö
Keronen, Antti
2025
School of Engineering Science, Tietotekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20251130112947
https://urn.fi/URN:NBN:fi-fe20251130112947
Tiivistelmä
This study examined multimodal fake news detection, focusing on posts that combine text and images. The research aimed to determine how effectively multimodal approaches detect fake news, how they integrate textual and visual information, and how they compare with unimodal methods that analyze only text or visual content. The analysis benchmarked multiple state-of-the-art models across two realistic datasets. The models were tested to see how well they can detect misleading content.
The results showed that multimodal approaches consistently outperform unimodal models, demonstrating that combining textual and visual information improves detection reliability. Methods that explicitly model interactions between text and images perform particularly well, while approaches that integrate information implicitly also benefit from capturing contextual dependencies. Visual content was found to provide complementary information, enhancing the overall performance of fake news detection. Tässä tutkimuksessa tarkasteltiin multimodaalista valeuutisten tunnistusta, keskittyen julkaisuihin, joissa yhdistellään tekstiä ja kuvia. Tutkimuksen tavoitteena oli selvittää, kuinka tehokkaasti multimodaaliset menetelmät tunnistavat valeuutisia, miten ne yhdistävät tekstin ja visuaalisen sisällön ominaisuudet, ja kuinka ne vertautuvat unimodaalisiin menetelmiin, jotka analysoivat vain tekstiä tai kuvia. Tutkimuksessa vertailtiin useita nykyaikaisia malleja kahden media-aineiston pohjalta, Malleja testattiin arvioimaan niiden kykyä tunnistaa harhaanjohtavaa sisältöä.
Tulokset osoittivat, että multimodaaliset menetelmät päihittävät johdonmukaisesti unimodaaliset menetelmät, mikä osoittaa, että tekstin ja visuaalisen sisällön yhdistäminen parantaa tunnistuksen luotettavuutta. Menetelmät, jotka mallintavat tekstin ja kuvien väliset vuorovaikutukset eksplisiittisesti, toimivat erityisen hyvin, kun taas menetelmät, jotka integroivat tietoa implisiittisesti, hyötyvät myös kontekstuaalisista riippuvuuksista. Visuaalinen sisältö tarjosi täydentävää tietoa, mikä paransi yleistä valeuutisten tunnistuksen suorituskykyä.
The results showed that multimodal approaches consistently outperform unimodal models, demonstrating that combining textual and visual information improves detection reliability. Methods that explicitly model interactions between text and images perform particularly well, while approaches that integrate information implicitly also benefit from capturing contextual dependencies. Visual content was found to provide complementary information, enhancing the overall performance of fake news detection.
Tulokset osoittivat, että multimodaaliset menetelmät päihittävät johdonmukaisesti unimodaaliset menetelmät, mikä osoittaa, että tekstin ja visuaalisen sisällön yhdistäminen parantaa tunnistuksen luotettavuutta. Menetelmät, jotka mallintavat tekstin ja kuvien väliset vuorovaikutukset eksplisiittisesti, toimivat erityisen hyvin, kun taas menetelmät, jotka integroivat tietoa implisiittisesti, hyötyvät myös kontekstuaalisista riippuvuuksista. Visuaalinen sisältö tarjosi täydentävää tietoa, mikä paransi yleistä valeuutisten tunnistuksen suorituskykyä.
