Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Diplomityöt ja Pro gradu -tutkielmat
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Developing a process model for incorporating data quality validation into data pipelines

Mattila, Toivo (2023)

Katso/Avaa
diplomityo_mattila_toivo.pdf (3.211Mb)
Lataukset: 


Diplomityö

Mattila, Toivo
2023

School of Engineering Science, Tietotekniikka

Kaikki oikeudet pidätetään.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20231204150955

Tiivistelmä

Having high-quality data is important for companies that rely on data for their operations but the companies may not have the know-how to ensure the quality of their data. Models for data quality management on the organizational level exist but not on the practical, data engineering level.

This thesis aims to provide a process model for practically incorporating data quality validation into a data pipeline. The thesis used the Design Science Research methodology to iteratively develop the process model.

The thesis proposes a generalizable 6-stage process model that data engineers can utilize for reliably implementing continuous data quality validation into their data pipelines. The stages in the model are Environment, Data, Data Specification, Pre-Deployment, Deployment, and Post-Deployment. This enables companies to better monitor and manage the quality of their data as well as further research on the importance of data quality monitoring in the data management lifecycle and improving data quality.
 
Korkealaatuinen data on tärkeää yrityksille, jotka hyödyntävät dataa toiminnoissaan mutta yrityksillä ei välttämättä ole osaamista taata datan laatua. Datan laadun hallitsemiseen organisaatiotasolla on olemassa valmiita malleja mutta ei käytännön datakehityksen (data engineering) tasolla.

Tämä opinnäytetyö pyrkii tarjoamaan prosessimallin siihen, miten datan laadun vahvistaminen käytännössä sisällytetään dataputkeen (data pipeline). Työ noudatti Design Science Research-tutkimusmetodologiaa prosessimallin kehittämiseen iteratiivisesti.

Työ esittää yleistettävän, 6-vaiheisen prosessimallin, jota datainsinöörit (data engineer) voivat hyödyntää saadakseen luotettavasti toteutettua dataputkiin datan laadun jatkuvan vahvistamisen. Mallin vaiheet ovat Ympäristö, Data, Dataspesifikaatio, Ennen Käyttöönottoa, Käyttöönotto, ja Käyttöönoton Jälkeen. Tämä mahdollistaa yrityksiä seuraamaan ja hallitsemaan käyttämänsä datan laatua sekä lisätutkimusta datan laadun valvomisen tärkeydestä datan elinkaaren hallinnassa ja datan laadun parantamisessa.
 
Kokoelmat
  • Diplomityöt ja Pro gradu -tutkielmat [13871]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste