Case-study : Twitter data analysis by linear regression modelling
Saariniemi, Jan (2023)
Pro gradu -tutkielma
Saariniemi, Jan
2023
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2023073192320
https://urn.fi/URN:NBN:fi-fe2023073192320
Tiivistelmä
This study explores a Twitter dataset made in 2013 with linear techniques, such as linear regression, feature engineering, and principal component analysis. Its primary aim is to demonstrate the predictive capacity of the dataset, with the above-mentioned linear methods, which is in contrast to previous studies where nonlinear techniques were used. The research centers around improving linearity in the data, using the ordinal least square estimation method, and making adjustment in the data for holding model assumptions, which guided the study's direction. The study tested various transformations of dependent and independent variable combination sets to assess linearity, selecting the most linear combinations for the linear regression modeling process where the backward elimination method and information criterions AIC and BIC were used to identify the best version of the regression model.
In conclusion, the linear methods showed some power in predicting the outcome when evaluating with adjusted R2, but there is room for improvement regarding model assumption violations: none of the models had best linear unbiased estimators (BLUE). The study encountered issues especially with heteroscedasticity and non-normal residuals because of the unbalanced nature of the data. In addition, feature engineering and principal component analysis caused challenges in interpreting the relationship between dependent and independent variables. By addressing the issues related to the unbalanced nature of the data, to model assumptions and data complexities due to data transformations, future research could potentially improve the performance and interpretability of the linear models. Tutkimuksessa tutkiaan Twitterin vuonna 2013 kerättyä aineistoa lineaarisilla menetelmillä, kuten lineaarinen regressiolla, muuttujien muokkauksilla ja pääkomponenttianalyysilla. Tutkimuksen tavoitteena on osoittaa lineaaristen menettelemien soveltuvuutta aineistosta ennustamiseen mainittujen menetelmien avulla, mikä poikkeaa aiemmista tutkimuksista, joissa on käytetty epälineaarisia menetelmiä. Tutkimus keskittyy lineaarisuuden ja mallioletusten ehtojen parantamiseen sekä lineaariseen regressioon. Tutkimuksessa testattiin erilaisia riippuvien ja riippumattomien muuttujien yhdistelmiä lineaarisuuden arvioimiseksi, jatkaen mallinnusta parhaiten lineaarisilla yhdistelmillä. Näiden osalta sovellettiin taaksepäin suuntautuvaa muuttujan eliminointimenetelmää ja informaatiokriteerejä AIC ja BIC parhaan regressiomallien tunnistamisessa.
Lineaariset menetelmät osoittivat jonkin verran ennustusvoimaa, kun niitä arvioitiin korjatulla R2:ta, mutta mikään malli ei tuottanut parhaita lineaarisia harhattomia parametriestimaatteja. Etenkin heteroskedastisuus ja ei-normaalijakautuneet residuaalit tuottivat haasteita, jotka johtuivat data epätasapainoisesta luonteesta. Lisäksi muuttujamuunnokset sekä pääkomponenttianalyysi aiheuttivat tulkintavaikeuksia riippuvien ja riippumattomien muuttujien yhteyksien ymmärtämisessä. Tulevissa tutkimuksessa voitaisiin parantaa lineaaristen mallien suorituskykyä ja tulkittavuutta huomioimalla paremmin datan epätasapainoisuutta sekä muuttujamuutosten vaikutuksia datan yhteyksien tulkitsemiseen.
In conclusion, the linear methods showed some power in predicting the outcome when evaluating with adjusted R2, but there is room for improvement regarding model assumption violations: none of the models had best linear unbiased estimators (BLUE). The study encountered issues especially with heteroscedasticity and non-normal residuals because of the unbalanced nature of the data. In addition, feature engineering and principal component analysis caused challenges in interpreting the relationship between dependent and independent variables. By addressing the issues related to the unbalanced nature of the data, to model assumptions and data complexities due to data transformations, future research could potentially improve the performance and interpretability of the linear models.
Lineaariset menetelmät osoittivat jonkin verran ennustusvoimaa, kun niitä arvioitiin korjatulla R2:ta, mutta mikään malli ei tuottanut parhaita lineaarisia harhattomia parametriestimaatteja. Etenkin heteroskedastisuus ja ei-normaalijakautuneet residuaalit tuottivat haasteita, jotka johtuivat data epätasapainoisesta luonteesta. Lisäksi muuttujamuunnokset sekä pääkomponenttianalyysi aiheuttivat tulkintavaikeuksia riippuvien ja riippumattomien muuttujien yhteyksien ymmärtämisessä. Tulevissa tutkimuksessa voitaisiin parantaa lineaaristen mallien suorituskykyä ja tulkittavuutta huomioimalla paremmin datan epätasapainoisuutta sekä muuttujamuutosten vaikutuksia datan yhteyksien tulkitsemiseen.
