Developing a process model for incorporating data quality validation into data pipelines
Mattila, Toivo (2023)
Diplomityö
Mattila, Toivo
2023
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20231204150955
https://urn.fi/URN:NBN:fi-fe20231204150955
Tiivistelmä
Having high-quality data is important for companies that rely on data for their operations but the companies may not have the know-how to ensure the quality of their data. Models for data quality management on the organizational level exist but not on the practical, data engineering level.
This thesis aims to provide a process model for practically incorporating data quality validation into a data pipeline. The thesis used the Design Science Research methodology to iteratively develop the process model.
The thesis proposes a generalizable 6-stage process model that data engineers can utilize for reliably implementing continuous data quality validation into their data pipelines. The stages in the model are Environment, Data, Data Specification, Pre-Deployment, Deployment, and Post-Deployment. This enables companies to better monitor and manage the quality of their data as well as further research on the importance of data quality monitoring in the data management lifecycle and improving data quality. Korkealaatuinen data on tärkeää yrityksille, jotka hyödyntävät dataa toiminnoissaan mutta yrityksillä ei välttämättä ole osaamista taata datan laatua. Datan laadun hallitsemiseen organisaatiotasolla on olemassa valmiita malleja mutta ei käytännön datakehityksen (data engineering) tasolla.
Tämä opinnäytetyö pyrkii tarjoamaan prosessimallin siihen, miten datan laadun vahvistaminen käytännössä sisällytetään dataputkeen (data pipeline). Työ noudatti Design Science Research-tutkimusmetodologiaa prosessimallin kehittämiseen iteratiivisesti.
Työ esittää yleistettävän, 6-vaiheisen prosessimallin, jota datainsinöörit (data engineer) voivat hyödyntää saadakseen luotettavasti toteutettua dataputkiin datan laadun jatkuvan vahvistamisen. Mallin vaiheet ovat Ympäristö, Data, Dataspesifikaatio, Ennen Käyttöönottoa, Käyttöönotto, ja Käyttöönoton Jälkeen. Tämä mahdollistaa yrityksiä seuraamaan ja hallitsemaan käyttämänsä datan laatua sekä lisätutkimusta datan laadun valvomisen tärkeydestä datan elinkaaren hallinnassa ja datan laadun parantamisessa.
This thesis aims to provide a process model for practically incorporating data quality validation into a data pipeline. The thesis used the Design Science Research methodology to iteratively develop the process model.
The thesis proposes a generalizable 6-stage process model that data engineers can utilize for reliably implementing continuous data quality validation into their data pipelines. The stages in the model are Environment, Data, Data Specification, Pre-Deployment, Deployment, and Post-Deployment. This enables companies to better monitor and manage the quality of their data as well as further research on the importance of data quality monitoring in the data management lifecycle and improving data quality.
Tämä opinnäytetyö pyrkii tarjoamaan prosessimallin siihen, miten datan laadun vahvistaminen käytännössä sisällytetään dataputkeen (data pipeline). Työ noudatti Design Science Research-tutkimusmetodologiaa prosessimallin kehittämiseen iteratiivisesti.
Työ esittää yleistettävän, 6-vaiheisen prosessimallin, jota datainsinöörit (data engineer) voivat hyödyntää saadakseen luotettavasti toteutettua dataputkiin datan laadun jatkuvan vahvistamisen. Mallin vaiheet ovat Ympäristö, Data, Dataspesifikaatio, Ennen Käyttöönottoa, Käyttöönotto, ja Käyttöönoton Jälkeen. Tämä mahdollistaa yrityksiä seuraamaan ja hallitsemaan käyttämänsä datan laatua sekä lisätutkimusta datan laadun valvomisen tärkeydestä datan elinkaaren hallinnassa ja datan laadun parantamisessa.