Extracting hotel reviews from a review aggregation website
Mattila, Toivo (2021)
Kandidaatintyö
Mattila, Toivo
2021
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021090645219
https://urn.fi/URN:NBN:fi-fe2021090645219
Tiivistelmä
Various websites, such as Booking.com and TripAdvisor, host hotel guest reviews. The reviews are publicly available and could be used to complement existing accommodation statistics. A simple metric, such as a monthly average review score, could be used to track tourism trends. Previous research on hotel reviews focuses less on providing a metric that can be used to track changes over time. This thesis aims to describe the process of developing a program for downloading such reviews. Additionally, the thesis explores whether the metric can be reliably calculated from the reviews. The developed program successfully downloaded reviews from Finnish hotels on Booking.com. The resulting dataset is described and calculating the metric is examined. The thesis concludes that the dataset contains enough reviews for reliably calculating monthly average scores for different locations. The dataset is found to be biased and may not represent all hotel guests. The dataset could also be used for calculating other statistics in addition to the average score. Monet nettisivustot, kuten Booking.com ja TripAdvisor, keräävät hotelliarvosteluja sivuilleen. Arvostelut ovat julkisia ja niitä voisi käyttää täydentämään olemassa olevia majoitustilastoja. Yksinkertaista mittaria, kuten kuukausittaista keskiarvosanaa, voisi käyttää turismin trendien seuraamiseen. Aiempi tutkimus hotelliarvosteluihin liittyen keskittyy vähemmän tarjoamaan mittaria, jota olisi mahdollista käyttää muutosten seuraamiseen ajan myötä. Tämä työ pyrkii kuvailemaan arvostelujen lataamiseen soveltuvan ohjelman kehitysprosessia. Lisäksi työ tutkii, onko valittua mittaria mahdollista laskea luotettavasti arvostelujen pohjalta. Kehitetty ohjelma latasi onnistuneesti Booking.comissa olevien suomalaisten hotellien saamia arvosteluja. Lopputuloksena syntynyttä dataa kuvaillaan ja ladatun datan pohjalta tutkitaan mittarin laskemista. Työ toteaa, että arvosteluja on riittävästi kuukausittaisen keskiarvon laskemiseen luotettavasti eri alueille. Datan todetaan olevan vinoutunut ja se ei välttämättä kuvaa kaikkien hotellivieraiden mielipidettä. Todetaan myös, että datasta voisi olla mahdollista laskea myös muita tilastoja keskiarvosanan lisäksi.