Dropout prediction with learning analytics
Vehmas, Juha (2021)
Diplomityö
Vehmas, Juha
2021
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021120959916
https://urn.fi/URN:NBN:fi-fe2021120959916
Tiivistelmä
Learning analytics is a growing field of research which focuses on analyzing data generated by digital learning methods to understand and optimize learning process. Digital learning has become more common as digitalization has moved forward and COVID-19 pandemic accelerated the move to online learning even further. The move to online learning has however raised the dropout rates.
In the thesis seven research areas of learning analytics are identified and presented. The research areas identified with literature review and confirmed with the use of LDA topic modelling. For dropout prediction in MOOC three machine learning models are built and evaluated. The models used are support vector machine, logistic regression, and random forest classifier. In addition, the prediction power of different data sources is evaluated with the help of literature and mutual information. Oppimisanalytiikan on kasvava tutkimusalue, joka keskittyy analysoimaan dataa, jota digitaaliset opetusmenetelmät tuottavat. Analyysien tavoitteena on paremmin ymmärtää ja pyrkiä optimoimaan oppimisprosessia. Digitaaliset opetusmenetelmät ovat yleistyneet digitalisaation seurauksena. COVID-19-pandemia on pakottanut useat yliopistot ja koulut siirtymään etäopetukseen ja näin kiihdyttänyt verkon välityksellä tapahtuvan opetuksen kasvua. Internettiin siirtynyt opetus on kuitenkin kasvattanut opintonsa keskeyttäneiden määrää.
Työssä kirjallisuuskatsauksen avulla tunnistetaan seitsemän oppimisanalytiikan tutkimusaluetta ja esitellään ne. Kirjallisuuskatsauksessa löydettyjä tutkimusalueita verrataan LDA topic modelling koneoppimismenelmän avulla tunnistettuihin aiheisiin. Työn toisessa osassa pyritään ennustamaan massiivisen avoimen verkkokurssin keskeyttäviä opiskelijoita kolmen eri koneoppimismallin avulla. Käytetyt mallit ovat support vector machine, logistic regression ja random forest classifier. Lisäksi, eri datalähteiden hyödyllisyyttä arvioidaan kirjallisuuden ja kahden satunnaismuuttujan välisen informaation avulla.
In the thesis seven research areas of learning analytics are identified and presented. The research areas identified with literature review and confirmed with the use of LDA topic modelling. For dropout prediction in MOOC three machine learning models are built and evaluated. The models used are support vector machine, logistic regression, and random forest classifier. In addition, the prediction power of different data sources is evaluated with the help of literature and mutual information.
Työssä kirjallisuuskatsauksen avulla tunnistetaan seitsemän oppimisanalytiikan tutkimusaluetta ja esitellään ne. Kirjallisuuskatsauksessa löydettyjä tutkimusalueita verrataan LDA topic modelling koneoppimismenelmän avulla tunnistettuihin aiheisiin. Työn toisessa osassa pyritään ennustamaan massiivisen avoimen verkkokurssin keskeyttäviä opiskelijoita kolmen eri koneoppimismallin avulla. Käytetyt mallit ovat support vector machine, logistic regression ja random forest classifier. Lisäksi, eri datalähteiden hyödyllisyyttä arvioidaan kirjallisuuden ja kahden satunnaismuuttujan välisen informaation avulla.