Päätöspuut epätasapainoisen datan luokittelussa
Toivanen, Jonna (2022)
Kandidaatintyö
Toivanen, Jonna
2022
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022061345944
https://urn.fi/URN:NBN:fi-fe2022061345944
Tiivistelmä
Työn tavoitteena on tutkia päätöspuiden ja yrityksen mittausdatan hyödyntämistä luokitteluongelman ratkaisuun. Mittauksia on 3762 näytteestä ja 197 suureesta. Jokaisesta näytteestä on lisäksi tieto, mihin diskreeteistä luokista 0-3 se kuuluu. Luokkaan 0 kuuluvia näytteitä on eniten ja luokat 1, 2 ja 3 ovat siten vähemmistöluokkia. Data esikäsitellään ja mittausarvojen jakaumia tarkastellaan pistekaavioiden ja histogrammien avulla. Luokan kannalta relevantteja muuttujia etsitään myös CART-algoritmilla.
Aineistoa luokitellaan myös merkityksensä perusteella kiinnostavien suureiden ohjaamana. Luokittelu tehdään kahdessa osassa. Ensin vähemmistöluokat yritetään erottaa enemmistöluokasta. Toisessa lajittelussa kaikki neljä luokkaa yritetään erottaa toisistaan. Kaksivaiheinen luokittelu tehdään CART- ja RUSBoost-algoritmeilla käyttäen 1000 eri näytekokonaisuutta opetusdatana. Opetusdataan valitaan jokaisella kerralla uudet satunnaiset näytteet. Datasta 80 % varataan opetusdataksi ja loput testausdataksi. Luokittelua arvioidaan testausdatalla kuhunkin luokkaan lajiteltujen näytteiden jakaumia tarkastelemalla. Luokittelussa ei saada tarkkoja tuloksia luokkien päällekkäisyyden takia. RUSBoost onnistuu ensimmäisessä luokittelussa CART-algoritmia paremmin, mutta toisessa luokittelussa CART luokittelee vähemmistöluokkien näytteet melkein yhtä tarkasti kuin RUSBoost. CART myös luokittelee RUSBoost-algoritmia vähemmän vähemmistöluokkiin kuuluvia näytteitä enemmistöluokkaan.
Aineistoa luokitellaan myös merkityksensä perusteella kiinnostavien suureiden ohjaamana. Luokittelu tehdään kahdessa osassa. Ensin vähemmistöluokat yritetään erottaa enemmistöluokasta. Toisessa lajittelussa kaikki neljä luokkaa yritetään erottaa toisistaan. Kaksivaiheinen luokittelu tehdään CART- ja RUSBoost-algoritmeilla käyttäen 1000 eri näytekokonaisuutta opetusdatana. Opetusdataan valitaan jokaisella kerralla uudet satunnaiset näytteet. Datasta 80 % varataan opetusdataksi ja loput testausdataksi. Luokittelua arvioidaan testausdatalla kuhunkin luokkaan lajiteltujen näytteiden jakaumia tarkastelemalla. Luokittelussa ei saada tarkkoja tuloksia luokkien päällekkäisyyden takia. RUSBoost onnistuu ensimmäisessä luokittelussa CART-algoritmia paremmin, mutta toisessa luokittelussa CART luokittelee vähemmistöluokkien näytteet melkein yhtä tarkasti kuin RUSBoost. CART myös luokittelee RUSBoost-algoritmia vähemmän vähemmistöluokkiin kuuluvia näytteitä enemmistöluokkaan.
