Predicting the on-time graduation of university students based on their study performance
Hynynen, Katja (2023)
Pro gradu -tutkielma
Hynynen, Katja
2023
School of Business and Management, Kauppatieteet
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20231207151848
https://urn.fi/URN:NBN:fi-fe20231207151848
Tiivistelmä
Objectives and expectations of universities have changed from autonomic Humboldtian institutions offering education for a small elite, to institutions driven not only by science, but also government and business world, and providing education for large masses. The lifelong study right is history, and the purpose of the universities is to educate the students efficiently and pursue to get them to graduate on time. The funding of the universities is dependent on the number of graduates and emphasizing on-time graduation.
Since the timely graduation of university students has become significant, it is important to be able to follow the progress of the students and predict their graduation times. The information can also be used for finding the students in need of additional support.
This study presents applications of educational data mining, and especially prediction of performance and characteristics of students. Methods used for prediction are regression and classification. The study reviews the procedure of data science workflow, including data collection and integration, handling missing data and outliers, as well as rescaling the data. Further, it explains exploratory data analysis, which provides understanding about the data. In model development phase, a few classifier algorithms, namely, k-nearest neighbor, decision tree, and support vector machine are introduced. Additionally, performance measures for model evaluation, such as accuracy, precision, and recall, as well as k-fold cross-validation method to be used for avoiding overfitting are addressed.
In this thesis, on-time graduation of electrical engineering students at LUT University studying consecutively bachelor’s and master’s degrees is studied. Data used for the classification includes performance of the students in the current studies, that is, cumulative credits after each study year and average grade.
As a result, it can be concluded, that the timely graduation of the students can already be classified with reasonable accuracy after the third study year. Yliopistojen tehtävä on muuttunut pienelle eliitille sivistystä tarjoavista autonomisista Humboldtilaisista laitoksista massoja kouluttaviksi instituuteiksi, joiden toiminnan ajureina toimii paitsi tiede, myös valtiovalta ja liike-elämä. Ikuinen opiskeluoikeus on jäänyt historiaan ja yliopistojen tulee kouluttaa opiskelijoita tehokkaasti ja pyrkiä saamaan heidät valmistumaan tavoiteajassa. Yliopistojen rahoitus riippuu valmistuneiden opiskelijoiden määrästä, painottaen tavoiteajassa valmistumista.
Koska opiskelijoiden ajoissa valmistuminen on tullut merkittäväksi, on tärkeää pystyä myös ennustamaan opiskelijoiden valmistumisaikoja. Tätä tietoa voidaan käyttää paitsi hallinnollisiin tarkoituksiin, myös havaitsemaan tuen tarpeessa olevat opiskelijat.
Tämä tutkimus esittelee koulutukseen liittyvän datan hyödyntämiseen liittyviä sovelluksia ja erityisesti opiskelijoiden suoriutumisen ja ominaisuuksien ennustamista, missä käytettäviä menetelmiä ovat regressio ja luokittelu. Tutkimuksessa käydään läpi, miten kerätty data tulee esikäsitellä luotettavien mallinnustulosten varmistamiseksi. Lisäksi esitellään kokeellisen data-analyysin menetelmiä, joiden tarkoitus on antaa ymmärrystä datasta. Mallinkehitysvaiheessa esitellään muutama luokittelualgoritmi: lähimmän naapurin luokitin, päätöspuu ja tukivektorikone. Myös mallin suorituskyvyn mittareita sekä mallin ylisovittumisen välttämiseen tarkoitettuja validointimenetelmiä käydään läpi.
Tässä opinnäytetyössä tarkastellaan LUT-yliopiston sähkötekniikan opiskelijoiden ajallaan valmistumista. Mukana ovat opiskelijat, jotka opiskelevat peräkkäin sekä kandidaatin että maisterintutkinnot. Luokittelussa käytetty data sisältää opiskelijoiden vuotuiset kumulatiiviset opintopistekertymät sekä tutkinnon keskiarvon.
Tutkimuksen tuloksena voidaan todeta, että opiskelijoiden ajallaan valmistumista voidaan ennustaa riittävällä tarkkuudella jo kolmannen opiskeluvuoden jälkeen.
Since the timely graduation of university students has become significant, it is important to be able to follow the progress of the students and predict their graduation times. The information can also be used for finding the students in need of additional support.
This study presents applications of educational data mining, and especially prediction of performance and characteristics of students. Methods used for prediction are regression and classification. The study reviews the procedure of data science workflow, including data collection and integration, handling missing data and outliers, as well as rescaling the data. Further, it explains exploratory data analysis, which provides understanding about the data. In model development phase, a few classifier algorithms, namely, k-nearest neighbor, decision tree, and support vector machine are introduced. Additionally, performance measures for model evaluation, such as accuracy, precision, and recall, as well as k-fold cross-validation method to be used for avoiding overfitting are addressed.
In this thesis, on-time graduation of electrical engineering students at LUT University studying consecutively bachelor’s and master’s degrees is studied. Data used for the classification includes performance of the students in the current studies, that is, cumulative credits after each study year and average grade.
As a result, it can be concluded, that the timely graduation of the students can already be classified with reasonable accuracy after the third study year.
Koska opiskelijoiden ajoissa valmistuminen on tullut merkittäväksi, on tärkeää pystyä myös ennustamaan opiskelijoiden valmistumisaikoja. Tätä tietoa voidaan käyttää paitsi hallinnollisiin tarkoituksiin, myös havaitsemaan tuen tarpeessa olevat opiskelijat.
Tämä tutkimus esittelee koulutukseen liittyvän datan hyödyntämiseen liittyviä sovelluksia ja erityisesti opiskelijoiden suoriutumisen ja ominaisuuksien ennustamista, missä käytettäviä menetelmiä ovat regressio ja luokittelu. Tutkimuksessa käydään läpi, miten kerätty data tulee esikäsitellä luotettavien mallinnustulosten varmistamiseksi. Lisäksi esitellään kokeellisen data-analyysin menetelmiä, joiden tarkoitus on antaa ymmärrystä datasta. Mallinkehitysvaiheessa esitellään muutama luokittelualgoritmi: lähimmän naapurin luokitin, päätöspuu ja tukivektorikone. Myös mallin suorituskyvyn mittareita sekä mallin ylisovittumisen välttämiseen tarkoitettuja validointimenetelmiä käydään läpi.
Tässä opinnäytetyössä tarkastellaan LUT-yliopiston sähkötekniikan opiskelijoiden ajallaan valmistumista. Mukana ovat opiskelijat, jotka opiskelevat peräkkäin sekä kandidaatin että maisterintutkinnot. Luokittelussa käytetty data sisältää opiskelijoiden vuotuiset kumulatiiviset opintopistekertymät sekä tutkinnon keskiarvon.
Tutkimuksen tuloksena voidaan todeta, että opiskelijoiden ajallaan valmistumista voidaan ennustaa riittävällä tarkkuudella jo kolmannen opiskeluvuoden jälkeen.
