Predicting churn using machine learning methods : case study for SaaS company
Tenhunen, Eero (2022)
Katso/ Avaa
Sisältö avataan julkiseksi: 14.09.2024
Pro gradu -tutkielma
Tenhunen, Eero
2022
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022090257093
https://urn.fi/URN:NBN:fi-fe2022090257093
Tiivistelmä
In this thesis, the objective was to study customer churn prediction as a case study for a private company. First, the previous literature was reviewed to understand what type of methods were used previously that had brought good results when predicting churn. Machine learning methods such as logistic regression, decision trees, random forest, support vector machine, Naïve Bayes and neural networks were the most popular methods based on literature. These were then introduced along after a brief representation of machine learning.
After the literature review, the selected methods were used on a dataset provided by a private company. The dataset was first split into training and test data. The model assessment was done with training data using 10-fold cross-validation. Performance of the model was measured with precision, recall, F-Score and AUC – having a focus on the latter two. The study suggests that random forest proved to be the best-performing model overall for churn prediction. The final models were then used on test data that provided insights into how well they can predict unknown data. Tässä pro gradu -tutkielmassa tutkittiin asiakaspoistumaa yksityiselle yhtiölle. Aluksi työssä tutkittiin aikaisempia tutkimuksia asiakaspoistuman ennustamisesta, jonka jälkeen koneoppiminen esiteltiin yleisesti. Suosituimpia koneoppimisen metodeja aiemmissa tutkimuksissa olivat logistinen regressio, päätöspuut, satunnaiset metsät, tukivektorikoneet, naiivi Bayesin luokitin sekä neuroverkot.
Teoreettisen osuuden jälkeen aiempia tutkimuksia sovellettiin ennustamaan asiakaspoistumaa annetun datan perusteella. Datataulukko jaettiin oppimis- ja testausosioihin. Oppimisosion avulla valittiin paras malli 10-kertaisella ristiin validoinnilla. Metodeja arvioitiin täsmällisyyden, herkkyyden, AUC:n sekä F-pisteytyksen avulla. Tässä tutkimuksessa satunnainen metsä osoittautui parhaimmaksi tavaksi ennustaa asiakaspoistumaa. Jokaisen metodin parasta mallia testattiin lopuksi vielä testiosioon, jolla voitiin nähdä, miten hyvin malli pystyi ennustamaan tuntematonta dataa.
After the literature review, the selected methods were used on a dataset provided by a private company. The dataset was first split into training and test data. The model assessment was done with training data using 10-fold cross-validation. Performance of the model was measured with precision, recall, F-Score and AUC – having a focus on the latter two. The study suggests that random forest proved to be the best-performing model overall for churn prediction. The final models were then used on test data that provided insights into how well they can predict unknown data.
Teoreettisen osuuden jälkeen aiempia tutkimuksia sovellettiin ennustamaan asiakaspoistumaa annetun datan perusteella. Datataulukko jaettiin oppimis- ja testausosioihin. Oppimisosion avulla valittiin paras malli 10-kertaisella ristiin validoinnilla. Metodeja arvioitiin täsmällisyyden, herkkyyden, AUC:n sekä F-pisteytyksen avulla. Tässä tutkimuksessa satunnainen metsä osoittautui parhaimmaksi tavaksi ennustaa asiakaspoistumaa. Jokaisen metodin parasta mallia testattiin lopuksi vielä testiosioon, jolla voitiin nähdä, miten hyvin malli pystyi ennustamaan tuntematonta dataa.