Data quality methodologies and improvement in a data warehousing environment with financial data
Blomqvist, Niko (2019)
Pro gradu -tutkielma
Blomqvist, Niko
2019
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2019043013796
https://urn.fi/URN:NBN:fi-fe2019043013796
Tiivistelmä
The goal of this thesis is to understand what is needed to successfully use a data quality methodology and give improvement suggestions with the given restrictions. The restrictions in this work are:
• it can be used with financial data and in a data warehousing environment
• it gives a quality score and it doesn’t focus on a single issue or measurement
• it doesn’t take a too big scope.
13 methodologies were found from the literature review from which one was chosen to be used in this thesis. Quality Assessment Using Financial data turned out to be the best methodology with the given restrictions. The methodology uses objective and subjective assessment methods and compares their results. Based on the results, the dataset under measurement gets a quality score.
Based on the empirical part we can say that there is a real world need for data quality evaluation and measurement. Unsupervised data quality can lead into massive losses in manual labor and money. We found several points you need to define and understand in order to use a data quality methodology successfully:
• what type is your data (numeric, string or binary) and what is its structure
• determine what you really want to measure and what results do you want to gain
• get acquainted with data quality literature
After using the context suitable methodology, you can improve your data based on the steps provided in the chosen methodology. If the chosen methodology doesn’t provide improvement suggestions, you can use basic understanding and literature related to data quality issues in the environment your data is in. Tämän pro gradu -tutkielman tavoitteena on ymmärtää, mitä tietoja tarvitaan, jotta pystytään onnistuneesti käyttämään datan laadun tarkistamismenetelmää ja antamaan parannusehdotuksia laadun kehittämiseksi annetuilla rajauksilla. Tämän työn rajauksia ovat:
• sitä voidaan käyttää rahoitusta koskevalla datalla, joka on peräisin tietovarastosta
• tulokseksi saadaan laatumittari ja se ei keskity yhteen ongelmaan tai mittauskohteeseen
• soveltumisala ei ole liian laaja
Kirjallisuuskatsauksen perusteella löytyi 13 datan laadun tarkistamismenetelmää, joista yksi valittiin tässä työssä käytettäväksi. ”Quality Assessment Using Financial Data”-menetelmä osoittautui parhaimmaksi vaihtoehdoksi, sillä sitä pystyttiin käyttämään annetuilla rajauksilla. Valittu menetelmä käyttää objektiivista ja subjektiivista tarkistamismenetelmää ja vertailee niistä saatuja tuloksia keskenään. Tulosten perusteella tarkastelun kohteena oleva tietoaineisto saa laatupisteytyksen.
Empiirisen osuuden perusteella voidaan todeta, että datan laadun arvioimiselle ja mittaamiselle on todellinen tarve. Laaduttoman datan käyttö liiketoiminnassa voi johtaa liiketoiminnallisiin tappioihin ja tarpeettomiin työtunteihin. Työstä löytyi muutamia kohtia, jotka tulee määritellä ja ymmärtää, jotta datan laadun tarkistamismenetelmää voidaan onnistuneesti käyttää:
• datan tyyppi (numeerinen, merkkijono vai binaarinen) ja mikä on sen rakenne
• Määrittely siitä, mitä halutaan mitata ja saavuttaa datan laadun tarkistamismenetelmällä
• Tutustuminen datan laatua koskevaan kirjallisuuteen
Kun on käytetty datan laadun tarkistamismenetelmää sen antamissa rajauksissa, voidaan parantaa datan laatua tarkistamismenetelmän antamien ehdotusten perusteella. Mikäli valittu menetelmä ei tarjoa laadunparannusehdotuksia, voidaan käyttää yleistietoa ja kirjallisuutta liittyen datan laatuun ja eheyteen siinä ympäristössä missä data on.
• it can be used with financial data and in a data warehousing environment
• it gives a quality score and it doesn’t focus on a single issue or measurement
• it doesn’t take a too big scope.
13 methodologies were found from the literature review from which one was chosen to be used in this thesis. Quality Assessment Using Financial data turned out to be the best methodology with the given restrictions. The methodology uses objective and subjective assessment methods and compares their results. Based on the results, the dataset under measurement gets a quality score.
Based on the empirical part we can say that there is a real world need for data quality evaluation and measurement. Unsupervised data quality can lead into massive losses in manual labor and money. We found several points you need to define and understand in order to use a data quality methodology successfully:
• what type is your data (numeric, string or binary) and what is its structure
• determine what you really want to measure and what results do you want to gain
• get acquainted with data quality literature
After using the context suitable methodology, you can improve your data based on the steps provided in the chosen methodology. If the chosen methodology doesn’t provide improvement suggestions, you can use basic understanding and literature related to data quality issues in the environment your data is in.
• sitä voidaan käyttää rahoitusta koskevalla datalla, joka on peräisin tietovarastosta
• tulokseksi saadaan laatumittari ja se ei keskity yhteen ongelmaan tai mittauskohteeseen
• soveltumisala ei ole liian laaja
Kirjallisuuskatsauksen perusteella löytyi 13 datan laadun tarkistamismenetelmää, joista yksi valittiin tässä työssä käytettäväksi. ”Quality Assessment Using Financial Data”-menetelmä osoittautui parhaimmaksi vaihtoehdoksi, sillä sitä pystyttiin käyttämään annetuilla rajauksilla. Valittu menetelmä käyttää objektiivista ja subjektiivista tarkistamismenetelmää ja vertailee niistä saatuja tuloksia keskenään. Tulosten perusteella tarkastelun kohteena oleva tietoaineisto saa laatupisteytyksen.
Empiirisen osuuden perusteella voidaan todeta, että datan laadun arvioimiselle ja mittaamiselle on todellinen tarve. Laaduttoman datan käyttö liiketoiminnassa voi johtaa liiketoiminnallisiin tappioihin ja tarpeettomiin työtunteihin. Työstä löytyi muutamia kohtia, jotka tulee määritellä ja ymmärtää, jotta datan laadun tarkistamismenetelmää voidaan onnistuneesti käyttää:
• datan tyyppi (numeerinen, merkkijono vai binaarinen) ja mikä on sen rakenne
• Määrittely siitä, mitä halutaan mitata ja saavuttaa datan laadun tarkistamismenetelmällä
• Tutustuminen datan laatua koskevaan kirjallisuuteen
Kun on käytetty datan laadun tarkistamismenetelmää sen antamissa rajauksissa, voidaan parantaa datan laatua tarkistamismenetelmän antamien ehdotusten perusteella. Mikäli valittu menetelmä ei tarjoa laadunparannusehdotuksia, voidaan käyttää yleistietoa ja kirjallisuutta liittyen datan laatuun ja eheyteen siinä ympäristössä missä data on.