Real estate insurance claims prediction with machine learning algorithms
Karzov, Alexander (2022)
Pro gradu -tutkielma
Karzov, Alexander
2022
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022060242277
https://urn.fi/URN:NBN:fi-fe2022060242277
Tiivistelmä
Nowadays insurance companies are increasingly implementing machine learning algorithms in their business routine. An ability to determine beforehand an emergence of claims could offer a tool to increase a profitability of the insurance business. This thesis focuses on real estate insurance and explores opportunities of machine learning algorithms implementation for claims emergence prediction. The goal of the study is to build a set of binary classification models, evaluate their performance, compare those models with each other and suggest the best algorithm.
The selection of algorithm is based the most frequently used models in previous studies. According to the literature review, the selection of the algorithms is the following: Logistic Regression (LR), Naïve Bayes (NB), Neural Networks (NN), Random Forest (RF) and eXtreme Gradient Boosted Tree (XGBoost). The results are measured using Accuracy, Sensitivity, Specificity, Area Under the Curve (AUC) and Cohen’s Kappa. Based on the summarized outcome of those five performance metrics, NB show the best performance. However, during the performance evaluation all algorithms show certain disadvantages. Actual implementation of any of the tested models for claims emergence prediction as a business routine demands additional researches. Nykyään vakuutusyhtiöt ottavat jatkuvasti käyttöön koneoppimisalgoritmeja. Mahdollisuus ennustaa vahinkojen ilmaantumisen etukäteen voisi tarjota työkalun vakuutustoiminnan kannattavuuden parantamiseen. Tämä Pro gradu -tutkielma keskittyy kiinteistövakuutuksiin ja tutkii koneoppimisalgoritmien mahdollisuuksia vahinkojen ilmaantumisen ennustamisessa. Tutkimuksen tavoitteena on rakentaa joukko binäärisiä luokittelualgoritmeja, arvioida niiden suorituskyvyn, verrata niitä keskenään ja valita niistä parhaan.
Algoritmien valinta perustuu aikaisemmissa tutkimuksissa eniten käytettyihin malleihin. Kirjallisuuskatsauksen perusteella algoritmien valinta on seuraava: Logistinen Regressio (LR), Naiivi Bayesin luokitin (NB), Neuroverkot (NN), Satunnaismetsä (RF) ja eXtreme Gradient Boosted Tree (XGBoost). Tulokset mitataan käyttämällä Tarkkuutta, Herkkyyttä, Spesifisyyttä, Käyrän Alla Olevaa Pinta-alaa (AUC) ja Cohenin Kappaa. Näiden viiden suorituskykymittarin yhteenvedon perusteella NB näyttää parhaan suorituskyvyn. Suorituskyvyn arvioinnin aikana kaikissa algoritmeissa on kuitenkin löydetty haittoja, joten niiden todellinen käyttö liiketoimintarutiinina vaatii lisätutkimuksia.
The selection of algorithm is based the most frequently used models in previous studies. According to the literature review, the selection of the algorithms is the following: Logistic Regression (LR), Naïve Bayes (NB), Neural Networks (NN), Random Forest (RF) and eXtreme Gradient Boosted Tree (XGBoost). The results are measured using Accuracy, Sensitivity, Specificity, Area Under the Curve (AUC) and Cohen’s Kappa. Based on the summarized outcome of those five performance metrics, NB show the best performance. However, during the performance evaluation all algorithms show certain disadvantages. Actual implementation of any of the tested models for claims emergence prediction as a business routine demands additional researches.
Algoritmien valinta perustuu aikaisemmissa tutkimuksissa eniten käytettyihin malleihin. Kirjallisuuskatsauksen perusteella algoritmien valinta on seuraava: Logistinen Regressio (LR), Naiivi Bayesin luokitin (NB), Neuroverkot (NN), Satunnaismetsä (RF) ja eXtreme Gradient Boosted Tree (XGBoost). Tulokset mitataan käyttämällä Tarkkuutta, Herkkyyttä, Spesifisyyttä, Käyrän Alla Olevaa Pinta-alaa (AUC) ja Cohenin Kappaa. Näiden viiden suorituskykymittarin yhteenvedon perusteella NB näyttää parhaan suorituskyvyn. Suorituskyvyn arvioinnin aikana kaikissa algoritmeissa on kuitenkin löydetty haittoja, joten niiden todellinen käyttö liiketoimintarutiinina vaatii lisätutkimuksia.