Extracting information from customer complaints : hybrid approach to sentiment analysis of unlabeled data
Korvola, Ari-Matti (2021)
Pro gradu -tutkielma
Korvola, Ari-Matti
2021
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021090345142
https://urn.fi/URN:NBN:fi-fe2021090345142
Tiivistelmä
The importance of managing customer feedback is self-evident in business, since customer relationship management is one of the important tasks for any company that deals with customers. A good experience is the default expectation of a customer, and it is difficult to change negative experience to positive one. Aim of this thesis is to perform a sentiment analysis on data which does not have pre-determined sentiment labels, and whether it makes sense to use the commonly used sentiment categories (negative, neutral, and positive) with financial complaints. The underlying objective is to have an automated system for classifying customer complaints.
Data which was used in this thesis was obtained from a database provided by Consumer Financial Protection Bureau, which purpose is to assist consumers when they have issues with organizations operating in financial sector that are located in the United States. As data did not include any sentiment categories, those are obtained by using a sentiment lexicon, which includes polarity scores for words. The category is obtained by summing up all the polarity scores of every word that occurs in the lexicon. After that machine learning classifiers are built, and the best performing classifier was selected based on the misclassification rate.
The classifier models are validated with a dataset annotated by humans. The results show that Naïve Bayes -algorithm performs significantly better than others by having 34% overall error rate, but it is high when compared to other papers. Though direct comparison with literature is complicated since there has not been done an equivalent one. Results suggests that when conducting sentiment analysis on consumer complaints, it would be better to have only two sentiment categories which separates impolite and rude complaints from polite and constructive ones since the overall nature of a complaint is negative. Asiakaspalautteiden hallinnan tärkeys on yksi yritysmaailman itsestäänselvyyksistä, sillä asiakkuudenhallinta on yksi tärkeistä tehtävistä yrityksille, jotka toimivat asiakkaiden kanssa. Saatua negatiivista mielikuvaa on vaikea muuttaa positiiviseksi. Tämän tutkielman tarkoitus on suorittaa sentimenttianalyysi asiakasreklamaatio datalle joka ei sisällä ennalta määritettyjä sentimentti luokkia, ja selvittää onko tavallisesti käytetyt kategoriat: positiivinen, neutraali, negatiivinen hyödyllisiä asiakasreklamaatioiden senttimenttianalyysissä. Tavoite on luoda automaattinen järjestelmä asiakaspalautteiden luokitteluun.
Tässä Pro Gradu -tutkielmassa hyödynnetään rahoitusalan asiakasreklamaatio tietokantaa, jota ylläpitää Yhdysvaltojen valtion viranomainen, CFPB. Viranomainen avustaa kuluttajia selvittämään ongelmia joita heillä on alan organisaatioiden kanssa. Reklamaatioille saadaan sentimentti kategoriat käyttämällä sanakirja menetelmää, jossa käytetään sanakirjaa joka sisältää sanojen lisäksi niiden polaarisuusarvot. Lopullinen kategoria saadaan kun lasketaan yhteen reklamaation kaikkien sanojen polaarisuusarvot jotka esiintyvät sanakirjassa. Tämän jälkeen rakennetaan koneoppimismallit, jotka luokittelevat reklamaatiot niiden sisällön perusteella. Näistä luokittelijoista valittiin parhaiten suoriutuva malli sen perusteella joka luokittelee vähiten reklaamatioita väärin, väärinluokittelu aste.
Luokittelumallit validoidaan reklaamatioilla, joiden kategoriat ovat ihmiset määrittäneet. Tulokset kertovat että Naiivi Bayes -luokittelija on selkeästi paras, sillä sen väärinluokittelu aste on 34%, mutta se on korkea verrattuna muihin tutkimuksiin. Täytyy ottaa kuitenkin huomioon että vastaavanlaista tutkimusta ei ole tehty, joten suora vertailu on hankalaa. Tutkimustulokset kertovat että kun tehdään sentimenttianalyysia asiakasreklamaatioille, olisi järkevämpää käyttää vain kahta sentimenttikategoriaa tavallisen kolmen sijaan, jossa eroteltaisiin epäkohteliaat ja töykeät, kohteliaista ja rakentavista sillä yleisesti valitusten sävy on negatiivinen.
Data which was used in this thesis was obtained from a database provided by Consumer Financial Protection Bureau, which purpose is to assist consumers when they have issues with organizations operating in financial sector that are located in the United States. As data did not include any sentiment categories, those are obtained by using a sentiment lexicon, which includes polarity scores for words. The category is obtained by summing up all the polarity scores of every word that occurs in the lexicon. After that machine learning classifiers are built, and the best performing classifier was selected based on the misclassification rate.
The classifier models are validated with a dataset annotated by humans. The results show that Naïve Bayes -algorithm performs significantly better than others by having 34% overall error rate, but it is high when compared to other papers. Though direct comparison with literature is complicated since there has not been done an equivalent one. Results suggests that when conducting sentiment analysis on consumer complaints, it would be better to have only two sentiment categories which separates impolite and rude complaints from polite and constructive ones since the overall nature of a complaint is negative.
Tässä Pro Gradu -tutkielmassa hyödynnetään rahoitusalan asiakasreklamaatio tietokantaa, jota ylläpitää Yhdysvaltojen valtion viranomainen, CFPB. Viranomainen avustaa kuluttajia selvittämään ongelmia joita heillä on alan organisaatioiden kanssa. Reklamaatioille saadaan sentimentti kategoriat käyttämällä sanakirja menetelmää, jossa käytetään sanakirjaa joka sisältää sanojen lisäksi niiden polaarisuusarvot. Lopullinen kategoria saadaan kun lasketaan yhteen reklamaation kaikkien sanojen polaarisuusarvot jotka esiintyvät sanakirjassa. Tämän jälkeen rakennetaan koneoppimismallit, jotka luokittelevat reklamaatiot niiden sisällön perusteella. Näistä luokittelijoista valittiin parhaiten suoriutuva malli sen perusteella joka luokittelee vähiten reklaamatioita väärin, väärinluokittelu aste.
Luokittelumallit validoidaan reklaamatioilla, joiden kategoriat ovat ihmiset määrittäneet. Tulokset kertovat että Naiivi Bayes -luokittelija on selkeästi paras, sillä sen väärinluokittelu aste on 34%, mutta se on korkea verrattuna muihin tutkimuksiin. Täytyy ottaa kuitenkin huomioon että vastaavanlaista tutkimusta ei ole tehty, joten suora vertailu on hankalaa. Tutkimustulokset kertovat että kun tehdään sentimenttianalyysia asiakasreklamaatioille, olisi järkevämpää käyttää vain kahta sentimenttikategoriaa tavallisen kolmen sijaan, jossa eroteltaisiin epäkohteliaat ja töykeät, kohteliaista ja rakentavista sillä yleisesti valitusten sävy on negatiivinen.