Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Case-study : Twitter data analysis by linear regression modelling

Saariniemi, Jan (2023)

Katso/Avaa
Gradu (2.863Mb)
Lataukset: 


Pro gradu -tutkielma

Saariniemi, Jan
2023

School of Business and Management, Kauppatieteet

Kaikki oikeudet pidätetään.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2023073192320

Tiivistelmä

This study explores a Twitter dataset made in 2013 with linear techniques, such as linear regression, feature engineering, and principal component analysis. Its primary aim is to demonstrate the predictive capacity of the dataset, with the above-mentioned linear methods, which is in contrast to previous studies where nonlinear techniques were used. The research centers around improving linearity in the data, using the ordinal least square estimation method, and making adjustment in the data for holding model assumptions, which guided the study's direction. The study tested various transformations of dependent and independent variable combination sets to assess linearity, selecting the most linear combinations for the linear regression modeling process where the backward elimination method and information criterions AIC and BIC were used to identify the best version of the regression model.

In conclusion, the linear methods showed some power in predicting the outcome when evaluating with adjusted R2, but there is room for improvement regarding model assumption violations: none of the models had best linear unbiased estimators (BLUE). The study encountered issues especially with heteroscedasticity and non-normal residuals because of the unbalanced nature of the data. In addition, feature engineering and principal component analysis caused challenges in interpreting the relationship between dependent and independent variables. By addressing the issues related to the unbalanced nature of the data, to model assumptions and data complexities due to data transformations, future research could potentially improve the performance and interpretability of the linear models.
 
Tutkimuksessa tutkiaan Twitterin vuonna 2013 kerättyä aineistoa lineaarisilla menetelmillä, kuten lineaarinen regressiolla, muuttujien muokkauksilla ja pääkomponenttianalyysilla. Tutkimuksen tavoitteena on osoittaa lineaaristen menettelemien soveltuvuutta aineistosta ennustamiseen mainittujen menetelmien avulla, mikä poikkeaa aiemmista tutkimuksista, joissa on käytetty epälineaarisia menetelmiä. Tutkimus keskittyy lineaarisuuden ja mallioletusten ehtojen parantamiseen sekä lineaariseen regressioon. Tutkimuksessa testattiin erilaisia riippuvien ja riippumattomien muuttujien yhdistelmiä lineaarisuuden arvioimiseksi, jatkaen mallinnusta parhaiten lineaarisilla yhdistelmillä. Näiden osalta sovellettiin taaksepäin suuntautuvaa muuttujan eliminointimenetelmää ja informaatiokriteerejä AIC ja BIC parhaan regressiomallien tunnistamisessa.

Lineaariset menetelmät osoittivat jonkin verran ennustusvoimaa, kun niitä arvioitiin korjatulla R2:ta, mutta mikään malli ei tuottanut parhaita lineaarisia harhattomia parametriestimaatteja. Etenkin heteroskedastisuus ja ei-normaalijakautuneet residuaalit tuottivat haasteita, jotka johtuivat data epätasapainoisesta luonteesta. Lisäksi muuttujamuunnokset sekä pääkomponenttianalyysi aiheuttivat tulkintavaikeuksia riippuvien ja riippumattomien muuttujien yhteyksien ymmärtämisessä. Tulevissa tutkimuksessa voitaisiin parantaa lineaaristen mallien suorituskykyä ja tulkittavuutta huomioimalla paremmin datan epätasapainoisuutta sekä muuttujamuutosten vaikutuksia datan yhteyksien tulkitsemiseen.
 
Kokoelmat
  • Diplomityöt ja Pro gradu -tutkielmat [14785]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste