Predicting the customer churn with machine learning methods : case: private insurance customer data
Stucki, Oskar (2019)
Pro gradu -tutkielma
Stucki, Oskar
2019
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2019101432575
https://urn.fi/URN:NBN:fi-fe2019101432575
Tiivistelmä
Customer churn prediction is a field that uses machine learning to predict whether a customer is going to leave the company or not. The goal of this thesis is to study the churn prediction field and apply the knowledge in the case of a Finnish insurance company. Secondly, the current ways of performing the churn analytics in the insurance company, are compared against methods suggested in the literature. This thesis starts by explaining the relevant concepts from machine learning and continues to a literature review on the field of customer churn prediction. Then, an empirical study is done by applying findings from the literature to the data provided by the aforementioned insurance company. A comparison between different datasets and the performance of machine learning models on them is made. Datasets were separated because of imbalance issues in churn rates in different parts of data, such as between older and newer customers. After running the models, it was found that random forests and Ada-Boost were the top-performing models, from which the random forest was the best performing model. The evaluation was done by using different metrics such as confusion matrix, ROC-curve, F-score, accuracy, and AUC-scores. The study also found that machine learning is a viable and slightly better method for the insurance company to predict its customer churn compared to results achieved by using the current methods that are in use. Asiakaspoistuman ennustaminen on tutkimusala, joka yrittää ennakoida asiakaspoistumaa käyttäen hyödykseen koneoppimista. Tämän tutkimuksen tarkoituksena on sekä tutkia asiakaspoistuman ennustamisen nykytilaa ja soveltaa tietoa suomalaisen vakuutusyhtiön tapaukseen, että verrata tutkimuksesta löydettyjä metodeita tapausyrityksen nykyisiin toimintatapoihin. Tämä tutkimus alkaa ensin käymällä läpi tarpeelliset käsitteet koneoppimisen saralta, jonka jälkeen suoritetaan kirjallisuuskatsaus asiakaspoistuman ennustamiseen liittyvään kirjallisuuteen. Tämän jälkeen suoritetaan empiirinen tutkimus, jossa kirjallisuudesta löydettyjä malleja sovelletaan vakuutusyhtiöltä saatuun dataan. Tutkimuksessa suoritetaan vertailua erinäisten koneoppimismallien toimivuudesta eri tavalla koostettujen datakokonaisuuksien välillä. Datakokonaisuuksien erottelu tehtiin, sillä poistumien määrät olivat epätasapainossa eri ryhmien välillä, erityisesti pitkäikäisten ja uusien asiakkaiden välillä. Kun eri mallit oli sovitettu dataan, vertailu osoitti, että satunnaiset metsät (Random forest) sekä AdaBoost olivat parhaiten toimivat metodit, joista satunnaiset metsät suosittavampi vaihtoehto. Arviointiin käytettiin sekaannusmatriisia (confusion matrix), ROC-käyrä sekä F- ja AUC-pisteitä. Tämän lisäksi osoitettiin, että koneoppiminen on vakuutusyhtiölle toimiva ratkaisu asiakaspoistuman ennustamiseen, sillä tulokset koneoppimisella olivat paremmat verrattuna nykyisillä toimintatavoilla saatuihin tuloksiin.