Segmentation of investor customers using machine learning in banking
Jääskeläinen, Juho (2021)
Pro gradu -tutkielma
Jääskeläinen, Juho
2021
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021051730210
https://urn.fi/URN:NBN:fi-fe2021051730210
Tiivistelmä
The purpose of this study is to analyze customer data from a local retail bank using machine learning. The goal is to detect attributes that investment customers have. Furthermore, this study compares performances of different machine learning models, how effective they segment investment customers.
The used algorithms in this study were k-means clustering, logistic regression analysis, Naïve Bayes algorithm, support vector machines, k-nearest neighbors, decision tree, artificial neural network, and linear regression analysis. The performances of these models were measured using the confusion matrix or the mean squared error and the root mean squared error.
According to the results, a customer invests more likely if he/she has an investor profile, has a higher account balance, is working, has given marketing permission, is contacted by the bank, or has an online bank and mobile bank. Also, a customer invests more likely if he/she has debt from the bank.
Due to the performance measurements, the decision tree and the artificial neural network were the most effective models. All of the classification models reached 80-99% accuracy. Hit rates and precisions varied between the models. The algorithms managed to classify investor customers overall and customers who invest in funds. However, the models did not classify precisely customers who invest 50 000€ or more, customers who invest 100 000€ or more, or customers who invest in stocks. Tämän tutkimuksen tarkoituksena on analysoida paikallisen pankin asiakasdataa koneoppimisen menetelmin. Tavoitteena on etsiä ominaisuuksia, joita potentiaalisilla sijoitusasiakkailla on. Lisäksi tavoitteena on vertailla erilaisia koneoppimisen menetelmiä, kuinka tarkasti ja vaikuttavasti ne luokittelevat asiakassegmenttejä.
Tutkimuksessa käytetyt algoritmit ovat k-means-klusterointi, logistinen regressioanalyysi, Naïve Bayes -algoritmi, support vector machine, k-nearest neighbors, päätöspuu, artificial neural network ja lineaarinen regressioanalyysi. Pääasiallinen metodi mallien arviointiin oli confusion matrix tai keskineliövirhe ja keskineliövirheen neliöjuuri.
Tulosten mukaan asiakas sijoittaa todennäköisemmin, jos hänellä on joko sijoittajaluokittelu/profiili, hänellä on tilivaroja, hän käy töissä, hän on antanut luvan markkinointiin, häneen on oltu yhteydessä pankista tai hänellä on käytössään verkkopankki ja pankin mobiilisovellus. Lisäksi asiakkaat sijoittavat todennäköisemmin, jos heillä on velkaa kyseisestä pankista.
Algoritmeista tarkimmat ja tehokkaimmat olivat päätöspuu ja artificial neural network. Kaikki luokittelijamallit löysivät sijoittaja-asiakkaita 80-99 prosentin tarkkuudella. Osumatarkkuudet (hit rate, precision) vaihtelivat mallien ja kohdemuuttujien välillä. Mallit luokittelivat tehokkaasti ylipäätään sijoittavat asiakkaat ja rahastosijoittajat, mutta enemmän kuin viisikymmentätuhatta euroa sijoittavia, enemmän kuin satatuhatta euroa sijoittavia tai osakkeisiin sijoittavia asiakkaita mallit eivät onnistuneet tehokkaasti luokittelemaan.
The used algorithms in this study were k-means clustering, logistic regression analysis, Naïve Bayes algorithm, support vector machines, k-nearest neighbors, decision tree, artificial neural network, and linear regression analysis. The performances of these models were measured using the confusion matrix or the mean squared error and the root mean squared error.
According to the results, a customer invests more likely if he/she has an investor profile, has a higher account balance, is working, has given marketing permission, is contacted by the bank, or has an online bank and mobile bank. Also, a customer invests more likely if he/she has debt from the bank.
Due to the performance measurements, the decision tree and the artificial neural network were the most effective models. All of the classification models reached 80-99% accuracy. Hit rates and precisions varied between the models. The algorithms managed to classify investor customers overall and customers who invest in funds. However, the models did not classify precisely customers who invest 50 000€ or more, customers who invest 100 000€ or more, or customers who invest in stocks.
Tutkimuksessa käytetyt algoritmit ovat k-means-klusterointi, logistinen regressioanalyysi, Naïve Bayes -algoritmi, support vector machine, k-nearest neighbors, päätöspuu, artificial neural network ja lineaarinen regressioanalyysi. Pääasiallinen metodi mallien arviointiin oli confusion matrix tai keskineliövirhe ja keskineliövirheen neliöjuuri.
Tulosten mukaan asiakas sijoittaa todennäköisemmin, jos hänellä on joko sijoittajaluokittelu/profiili, hänellä on tilivaroja, hän käy töissä, hän on antanut luvan markkinointiin, häneen on oltu yhteydessä pankista tai hänellä on käytössään verkkopankki ja pankin mobiilisovellus. Lisäksi asiakkaat sijoittavat todennäköisemmin, jos heillä on velkaa kyseisestä pankista.
Algoritmeista tarkimmat ja tehokkaimmat olivat päätöspuu ja artificial neural network. Kaikki luokittelijamallit löysivät sijoittaja-asiakkaita 80-99 prosentin tarkkuudella. Osumatarkkuudet (hit rate, precision) vaihtelivat mallien ja kohdemuuttujien välillä. Mallit luokittelivat tehokkaasti ylipäätään sijoittavat asiakkaat ja rahastosijoittajat, mutta enemmän kuin viisikymmentätuhatta euroa sijoittavia, enemmän kuin satatuhatta euroa sijoittavia tai osakkeisiin sijoittavia asiakkaita mallit eivät onnistuneet tehokkaasti luokittelemaan.