Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Työssäkäyntitilaston ammattiluokittelu bayesilaisten neuroverkkojen avulla

Vilkkilä, Veera (2024)

Katso/Avaa
diplomityo_Vilkkila_Veera.pdf (342.8Kb)
Lataukset: 


Diplomityö

Vilkkilä, Veera
2024

School of Engineering Science, Laskennallinen tekniikka

Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024092674885

Tiivistelmä

Tilastokeskus laatii ja julkaisee vuosittain useita tilastoja, jotka hyödyntävät ammattiluokittelua. Yksi näistä tilastoista on työssäkäyntitilasto, joka tarjoaa alueellista tietoa väestön toiminnasta ja työssäkäynnistä. Tässä työssä hyödynnetään kyseisen tilaston vuosien 2020 ja 2021 dataa. Havainnot jakautuvat lähes 500 luokkaan, ja luokat ovat keskenään hyvin erikokoisia, mikä tekee luokittelusta haastavaa.

Työssä kehitettiin neuroverkkoihin perustuva malli, joka automatisoi tilastojen ammattiluokittelua ja vähentää manuaalista työtä, mikä voi johtaa merkittäviin kustannussäästöihin. Mallissa hyödynnetään bayesilaista lähestymistapaa, sillä se tuottaa todennäköisyysjakaumat kullekin luokalle ja täten mahdollistaa ennusteiden luotettavuuden arvioimisen.

Malli koulutettiin erikseen palkansaajille ja yrittäjille. Palkansaajien osalta saavutettiin hyvä 91 prosentin luokittelutarkkuus, kun taas yrittäjien tarkkuus jäi heikommaksi, 77 prosenttiin. Yrittäjien heikompi luokittelutarkkuus johtui osittain datan laadusta, kuten puuttuvista arvoista, ammattinimikkeiden yksipuolisuudesta ja identtisistä muuttujakombinaatioista, jotka kuuluivat useampaan luokkaan. Siis dataa parantamalla voisi saavuttaa vielä parempia luokittelutuloksia. Jatkotutkimuksena datan parantamisen lisäksi tulisi kokeilla mallin muokkaamista esimerkiksi hierarkkiseksi bayesilaiseksi neuroverkoksi, joka huomioisi myös luokkien välisen hierarkkisen rakenteen.
 
Statistics Finland publishes several statistics annually that utilize occupational classifications. One of these statistics is the employment statistics, which provides regional information on the population's activity and employment. This thesis uses employment data from 2020 and 2021. The observations are divided across nearly 500 classes, and these classes vary significantly in size, which makes classification challenging.

The thesis developed a neural network-based model that automates the occupational classification of statistics and reduces manual labor, which could lead to significant cost savings. The model employs a Bayesian approach, as it produces probability distributions for each class and makes it possible to assess the confidence in predictions.

The model was trained separately for employees and entrepreneurs. A classification accuracy of 91 percent was achieved for employees, while for entrepreneurs, it was lower at 77 percent, partly due to data quality issues like missing values, homogeneous job titles, and identical variable combinations across multiple classes. Therefore, improving the data could lead to better classification results. As future work, in addition to improving the data, it may be worthwhile to modify the model, for example, into a hierarchical Bayesian neural network that takes into account the hierarchical structure between classes.
 
Kokoelmat
  • Diplomityöt ja Pro gradu -tutkielmat [14937]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste