Using natural language processing in detecting fake news
Künnap, Vivian (2022)
Kandidaatintyö
Künnap, Vivian
2022
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022122974058
https://urn.fi/URN:NBN:fi-fe2022122974058
Tiivistelmä
Fake news is not a novel concept but the scale of its spread and the damage it has and continues to cause is alarming. From the US presidential elections in 2016 to the COVID-19 pandemic and today, fake news has been circulating in news media corrupting the public opinion. Fake news alters democratic discussions polarizing people’s opinions sowing distrust in national institutions and setting different groups against each other. It is a threat to democracy and national security. It is crucial to prevent fake news from spreading and one solution is to create an automatic fake news detection system. A solution is researched using natural language processing (NLP) tasks, namely text classification. NLP is a type of artificial intelligence that is essentially taught to understand human language. Using thematic analysis, the main steps and techniques of fake news detection models are described and through a comparative analysis the state-of-the-art models are distinguished. And while there are many potential fake news detection models for English there is not much variety for other languages. So, it is additionally analysed if these benchmark models can be implemented for Finnish language as well. Valeuutiset eivät ole uusi käsite, mutta niiden leviämisen laajuus ja niiden aiheuttamat vahingot ovat huolestuttavia. Yhdysvaltain presidentinvaaleista vuonna 2016 COVID-19-pandemiaan ja nykypäivään asti, uutismediassa on kiertänyt valeuutisia, jotka muokkaavat yleisön mielipidettä. Valeuutiset muuttavat demokraattista keskustelua polarisoimalla ihmisten mielipiteitä kylväen epäluottamusta kansallisiin instituutioihin ja asettaen erilaisia ryhmiä toisiaan vastaan. Se on uhka demokratialle ja kansalliselle turvallisuudelle. On tärkeää estää valeuutisten leviäminen, ja yksi ratkaisu on luoda automaattinen valeuutisten havaitsemisjärjestelmä. Ratkaisua tutkitaan käyttämällä luonnollisen kielen käsittelyn (NLP) tehtäviä, etenkin tekstin luokittelua. NLP on tekoälyn tyyppi, missä tietokone opetetaan ymmärtämään ihmisten kieltä. Temaattisen analyysin avulla kuvataan valeuutisten havaitsemismallien päävaiheet sekä tekniikat, ja vertailevan analyysin avulla valikoidaan uusimmat ja onnistuneimmat mallit. Ja vaikka englannin kielellä on monia mahdollisia valeuutisten havaitsemismalleja, muille kielille ei ole paljon valikoimaa. Lisäksi analysoidaan, voidaanko nämä mallit toteuttaa myös suomen kielelle.