Creation of a Finnish social media analyser
Raunola, Vili (2024)
Diplomityö
Raunola, Vili
2024
School of Engineering Science, Tietotekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024052032981
https://urn.fi/URN:NBN:fi-fe2024052032981
Tiivistelmä
Social media use has risen in the Finnish population during the 2010s and is a platform for discussing products, companies, public figures, and many other topics. Analysing social media conversations could be beneficial to investigate how the population perceives these entities.
This thesis aims to build a prototype that can be used to analyse Finnish social media’s textual content. A structured literature review is conducted to get an overview of the Finnish natural language processing tools. Based on the structured literature review findings, the analyser prototype is built. The analyser can analyse Reddit posts and their conversations using fine-tuned FinBERT models. The analysis consists of sentiment analysis and named entity recognition.
The prototype is evaluated using human-annotated data from Reddit. The prototype's performance is inconclusive as the evaluation data sample size is quite small. Future research should be done to gain a better understanding of the prototype’s performance. However, the analyser shows great potential for practical implementations if further developed. Sosiaalisen median käyttö on noussut huomattavasti suomalaisten keskuudessa 2010-luvulla. Keskustelun aiheisiin sosiaalisessa mediassa kuuluvat tuotteet, yritykset, julkisuuden henkilöt sekä monet muut aiheet. Näiden keskustelujen analysointi voi olla hyödyllistä, jotta saataisiin selville, mitä suomalaiset ajattelevat esimerkiksi eri tuotteista tai yrityksistä.
Tämän työn tavoitteena on luoda prototyyppi, jonka avulla analysoida suomalaisia sosiaalisen median keskusteluja ohjelmallisesti. Strukturoidun kirjallisuuskatsauksen avulla selvitetään luonnollisen kielen käsittelyyn tarkoitettuja työkaluja. Kirjallisuuskatsauksen tuloksia hyödynnetään prototyyppiä rakentaessa. Analysointiin tehty prototyyppi hyödyntää hienosäädettyjä FinBERT malleja, joilla se analysoi Reddit julkaisuja. Analysointiin kuuluu sekä asenneanalyysi että nimetyn entiteetin tunnistaminen.
Prototyyppiä arvioidaan käyttämällä ihmisten kommentoimaa dataa Redditistä. Prototyypin suoritustehosta ei saada varmaa tulosta, sillä arviointiin käytetty näytteen koko on pieni. Tulevaisuudessa prototyypin suoritustehoa tulisi tutkia enemmän, jotta suoritustehosta saataisiin parempi käsitys. Tästä huolimatta prototyyppi näyttää tarjoavan paljon mahdollisuuksia käytännön sovelluksiin, jos sitä jatkokehitettäisiin.
This thesis aims to build a prototype that can be used to analyse Finnish social media’s textual content. A structured literature review is conducted to get an overview of the Finnish natural language processing tools. Based on the structured literature review findings, the analyser prototype is built. The analyser can analyse Reddit posts and their conversations using fine-tuned FinBERT models. The analysis consists of sentiment analysis and named entity recognition.
The prototype is evaluated using human-annotated data from Reddit. The prototype's performance is inconclusive as the evaluation data sample size is quite small. Future research should be done to gain a better understanding of the prototype’s performance. However, the analyser shows great potential for practical implementations if further developed.
Tämän työn tavoitteena on luoda prototyyppi, jonka avulla analysoida suomalaisia sosiaalisen median keskusteluja ohjelmallisesti. Strukturoidun kirjallisuuskatsauksen avulla selvitetään luonnollisen kielen käsittelyyn tarkoitettuja työkaluja. Kirjallisuuskatsauksen tuloksia hyödynnetään prototyyppiä rakentaessa. Analysointiin tehty prototyyppi hyödyntää hienosäädettyjä FinBERT malleja, joilla se analysoi Reddit julkaisuja. Analysointiin kuuluu sekä asenneanalyysi että nimetyn entiteetin tunnistaminen.
Prototyyppiä arvioidaan käyttämällä ihmisten kommentoimaa dataa Redditistä. Prototyypin suoritustehosta ei saada varmaa tulosta, sillä arviointiin käytetty näytteen koko on pieni. Tulevaisuudessa prototyypin suoritustehoa tulisi tutkia enemmän, jotta suoritustehosta saataisiin parempi käsitys. Tästä huolimatta prototyyppi näyttää tarjoavan paljon mahdollisuuksia käytännön sovelluksiin, jos sitä jatkokehitettäisiin.
