Twitter topic modeling and sentiment analysis on Smart cities
Rämö, Petri (2022)
Diplomityö
Rämö, Petri
2022
School of Engineering Science, Tietotekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022051134410
https://urn.fi/URN:NBN:fi-fe2022051134410
Tiivistelmä
Smart cities are developed cities that utilize technology that is in infrastructure to collect data and then analyze it. This thesis studies Smart cities using topic modeling and sentiment analysis to analyze the topics and opinions on Twitter on the subject. Topic modeling utilizes the LDA method and sentiment analysis gives sentiments in neutral, positive, and negative. Twitter is a huge social media site that contains small messages called tweets. Twitter data that was used was from Archive Teams Twitter Grab. This contained multiple millions of tweets. This data has been divided into four quarters of the year 2020. The results were not satisfying as there were so few tweets in these data sets that contained Smart cities. Some of the tweets also didn’t make any sense because there are tweets that contain hashtags, people’s nicknames, and/or other languages that didn’t have Latin alphabets. This made the topic models and sentiment analyses not so meaningful as the data for doing them were so little and not ideal. Älykaupungit ovat kehittyneitä kaupunkeja, jotka käyttävät infrastruktuurissa olevaa teknologiaa keräämään dataa ja analysoimaan sitä. Tämä opinnäytetyö tutkii älykaupunkeja Twitterin kautta käyttäen aihemallinnusta ja tunneanalyysiä. Aihemallinnus käyttää LDA metodia ja tunneanalyysi antaa tulokset neutraalina, positiivina tai negatiivina. Twitter on valtava sosiaalisen median sivu joka sisältää lyhyitä viestejä joita kutsutaan twiiteiksi. Twitter data, jota tässä työssä käytettiin, oli Archive Teams Twitter Grab. Tämä sisältää monia miljoonia twiittejä. Tämä data oli jaettu neljään vuosineljännes osaan vuodesta 2020. Tulokset eivät olleet tyydyttäviä, koska data seteistä löytyi niin vähän twiittejä liittyen älykaupunkeihin. Jotkut löydetyt twiitit eivät myöskään olleet järkeviä, koska ne sisälsivät hashtageja, ihmisten nimimerkkejä ja/tai muita kieliä mitkä eivät olleet latinalaisilla aakkosilla. Tämä aiheutti sen, että aihe mallinnus ja tunne analyysi eivät olleet niin mielekkäitä, koska data niiden tekemiseen oli niin vähä ja se ei ollut ideaalia.