Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Päätöspuut epätasapainoisen datan luokittelussa

Toivanen, Jonna (2022)

Katso/Avaa
kandidaatintyo_toivanen_jonna.pdf (767.1Kb)
Lataukset: 


Kandidaatintyö

Toivanen, Jonna
2022

School of Engineering Science, Laskennallinen tekniikka

Kaikki oikeudet pidätetään.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022061345944

Tiivistelmä

Työn tavoitteena on tutkia päätöspuiden ja yrityksen mittausdatan hyödyntämistä luokitteluongelman ratkaisuun. Mittauksia on 3762 näytteestä ja 197 suureesta. Jokaisesta näytteestä on lisäksi tieto, mihin diskreeteistä luokista 0-3 se kuuluu. Luokkaan 0 kuuluvia näytteitä on eniten ja luokat 1, 2 ja 3 ovat siten vähemmistöluokkia. Data esikäsitellään ja mittausarvojen jakaumia tarkastellaan pistekaavioiden ja histogrammien avulla. Luokan kannalta relevantteja muuttujia etsitään myös CART-algoritmilla.

Aineistoa luokitellaan myös merkityksensä perusteella kiinnostavien suureiden ohjaamana. Luokittelu tehdään kahdessa osassa. Ensin vähemmistöluokat yritetään erottaa enemmistöluokasta. Toisessa lajittelussa kaikki neljä luokkaa yritetään erottaa toisistaan. Kaksivaiheinen luokittelu tehdään CART- ja RUSBoost-algoritmeilla käyttäen 1000 eri näytekokonaisuutta opetusdatana. Opetusdataan valitaan jokaisella kerralla uudet satunnaiset näytteet. Datasta 80 % varataan opetusdataksi ja loput testausdataksi. Luokittelua arvioidaan testausdatalla kuhunkin luokkaan lajiteltujen näytteiden jakaumia tarkastelemalla. Luokittelussa ei saada tarkkoja tuloksia luokkien päällekkäisyyden takia. RUSBoost onnistuu ensimmäisessä luokittelussa CART-algoritmia paremmin, mutta toisessa luokittelussa CART luokittelee vähemmistöluokkien näytteet melkein yhtä tarkasti kuin RUSBoost. CART myös luokittelee RUSBoost-algoritmia vähemmän vähemmistöluokkiin kuuluvia näytteitä enemmistöluokkaan.
Kokoelmat
  • Kandidaatin tutkintojen opinnäytetyöt [6573]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste