Ensemble feature selection using feature ranking methods
Henriksson, Esa (2024)
Pro gradu -tutkielma
Henriksson, Esa
2024
School of Business and Management, Kauppatieteet
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024061452816
https://urn.fi/URN:NBN:fi-fe2024061452816
Tiivistelmä
This thesis investigates the efficacy and comparative performance of single feature selection ranking methods versus ensemble feature ranking methods in the context of classification tasks. Feature selection is a crucial step in data preprocessing, significantly impacting the performance and efficiency of machine learning models. Single feature ranking methods individually assess the importance of features based on their contribution to the target variable. In contrast, ensemble feature ranking methods combine the rankings generated by multiple single methods, aiming to create a more comprehensive and robust feature selection strategy.
The primary objective of this research was to determine whether ensemble feature ranking methods provide a significant advantage over single ranking methods in terms of improving classification performance. The performance of the feature selection methods is evaluated using several classification performance metrics. To conduct this comparative analysis, a series of experiments were performed on multiple datasets with varying characteristics. The ensemble methods were constructed by combining the ranking lists provided by the individual single feature selection methods.
The empirical results of this study reveal that ensemble feature ranking methods exhibit a slight but consistent improvement in classification performance compared to single feature ranking methods. However, the difference in performance metrics is generally subtle. This suggests that while ensemble methods can provide marginal enhancements, the benefits may not always justify the additional computational complexity and effort involved in their implementation. In conclusion, this thesis provides insights into the practical implications of using ensemble feature ranking methods versus single feature ranking methods for feature selection. The findings indicate that single feature ranking methods remain competitive and viable, offering a simpler and often equally effective alternative to ensemble approaches. Future research could explore the applicability of these findings to other classification algorithms and investigate the impact of feature selection on more complex and high dimensional datasets. Tämä työ vertailee yksittäisten piirrevalintamenetelmien ja yhdistelmämenetelmien tehokkuutta ja suoritusta luokittelutehtävissä. Piirrevalinta on olennainen vaihe datan esikäsittelyssä, ja sillä on merkittävä vaikutus koneoppimismallien suorituskykyyn ja tehokkuuteen. Yksittäiset piirrevalintamenetelmät arvioivat yksittäisten piirteiden merkittävyyttä kohdemuuttujaan. Sen sijaan yhdistelmäpiirrevalintamenetelmät yhdistävät useiden yksittäisten menetelmien tuottamat sijoitukset pyrkien luomaan kattavamman ja vankemman piirrevalintastrategian.
Tutkimuksen ensisijaisena tavoitteena on selvittää, tarjoavatko yhdistelmämenetelmät merkittävää etua yksittäisiin menetelmiin verrattuna luokittelusuorituskyvyn parantamisessa. Piirrevalintamenetelmien suorituskykyä arvioidaan useiden luokittelusuorituskykymittarien avulla. Tämän vertailuanalyysin suorittamiseksi tehtiin sarja kokeita useilla erityyppisillä dataseteillä. Jokaiselle datasetille suoritettiin sekä yksittäiset että yhdistelmäpiirrevalintaprosessit, minkä jälkeen luokittelualgoritmi koulutettiin ja testattiin. Yhdistelmämenetelmät rakennettiin yhdistämällä yksittäisten piirrevalintamenetelmien tuottamat sijoitukset eri piirteille.
Tutkimuksen tulokset osoittavat, että yhdistelmäpiirrevalintamenetelmät parantavat luokittelusuorituskykyä hieman mutta johdonmukaisesti verrattuna yksittäisiin piirrevalintamenetelmiin. Suorituskykymittarien ero on yleensä hienovarainen. Tämä viittaa siihen, että vaikka yhdistelmämenetelmät voivat tarjota vähäisiä parannuksia, niiden hyöty ei aina oikeuta lisättyä laskennallista monimutkaisuutta ja toteutukseen liittyvää vaivaa.
Tämä työ tarjoaa arvokasta tietoa yhdistelmäpiirrevalintamenetelmien ja yksittäisten piirrevalintamenetelmien käytännön vaikutuksista piirrevalinnassa luokittelutehtävissä. Tulokset osoittavat, että yksittäiset piirrevalintamenetelmät säilyttävät kilpailukykynsä ja tarjoavat yksinkertaisemman ja usein yhtä tehokkaan vaihtoehdon yhdistelmämenetelmille. Tulevat tutkimukset voivat tutkia näiden löydösten soveltuvuutta muihin luokittelualgoritmeihin ja tutkia piirrevalinnan vaikutusta monimutkaisempiin datasetteihin.
The primary objective of this research was to determine whether ensemble feature ranking methods provide a significant advantage over single ranking methods in terms of improving classification performance. The performance of the feature selection methods is evaluated using several classification performance metrics. To conduct this comparative analysis, a series of experiments were performed on multiple datasets with varying characteristics. The ensemble methods were constructed by combining the ranking lists provided by the individual single feature selection methods.
The empirical results of this study reveal that ensemble feature ranking methods exhibit a slight but consistent improvement in classification performance compared to single feature ranking methods. However, the difference in performance metrics is generally subtle. This suggests that while ensemble methods can provide marginal enhancements, the benefits may not always justify the additional computational complexity and effort involved in their implementation. In conclusion, this thesis provides insights into the practical implications of using ensemble feature ranking methods versus single feature ranking methods for feature selection. The findings indicate that single feature ranking methods remain competitive and viable, offering a simpler and often equally effective alternative to ensemble approaches. Future research could explore the applicability of these findings to other classification algorithms and investigate the impact of feature selection on more complex and high dimensional datasets.
Tutkimuksen ensisijaisena tavoitteena on selvittää, tarjoavatko yhdistelmämenetelmät merkittävää etua yksittäisiin menetelmiin verrattuna luokittelusuorituskyvyn parantamisessa. Piirrevalintamenetelmien suorituskykyä arvioidaan useiden luokittelusuorituskykymittarien avulla. Tämän vertailuanalyysin suorittamiseksi tehtiin sarja kokeita useilla erityyppisillä dataseteillä. Jokaiselle datasetille suoritettiin sekä yksittäiset että yhdistelmäpiirrevalintaprosessit, minkä jälkeen luokittelualgoritmi koulutettiin ja testattiin. Yhdistelmämenetelmät rakennettiin yhdistämällä yksittäisten piirrevalintamenetelmien tuottamat sijoitukset eri piirteille.
Tutkimuksen tulokset osoittavat, että yhdistelmäpiirrevalintamenetelmät parantavat luokittelusuorituskykyä hieman mutta johdonmukaisesti verrattuna yksittäisiin piirrevalintamenetelmiin. Suorituskykymittarien ero on yleensä hienovarainen. Tämä viittaa siihen, että vaikka yhdistelmämenetelmät voivat tarjota vähäisiä parannuksia, niiden hyöty ei aina oikeuta lisättyä laskennallista monimutkaisuutta ja toteutukseen liittyvää vaivaa.
Tämä työ tarjoaa arvokasta tietoa yhdistelmäpiirrevalintamenetelmien ja yksittäisten piirrevalintamenetelmien käytännön vaikutuksista piirrevalinnassa luokittelutehtävissä. Tulokset osoittavat, että yksittäiset piirrevalintamenetelmät säilyttävät kilpailukykynsä ja tarjoavat yksinkertaisemman ja usein yhtä tehokkaan vaihtoehdon yhdistelmämenetelmille. Tulevat tutkimukset voivat tutkia näiden löydösten soveltuvuutta muihin luokittelualgoritmeihin ja tutkia piirrevalinnan vaikutusta monimutkaisempiin datasetteihin.
