Data pipeline monitoring solution and data quality in manufacturing company
Mattila, Riku (2024)
Diplomityö
Mattila, Riku
2024
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024061250771
https://urn.fi/URN:NBN:fi-fe2024061250771
Tiivistelmä
Technology developments have rapidly changed manufacturing in recent years making data a paramount asset. Data pipelines are vital in collecting, transferring, and processing data for ever-increasing business-critical applications. Data quality also plays a crucial role in the effectiveness and efficiency of decision-making processes within organizations, particularly in the manufacturing sector. Companies still face challenges with both hindering the potential of data. The thesis aims to identify common data quality challenges in a global manufacturing company and examine their possible causes. Additionally, it explores the design and development of an automated monitoring solution to address potential data incompleteness issues with the existing data pipeline.
The thesis study is conducted as design science research and consists of a literature review, expert interviews, and empirical research describing the design process. The literature review mainly examines data pipelines, quality, and anomaly detection. The empirical research investigated common data quality problems and the development process for implementing automated data pipeline monitoring. The development process investigates multiple solution possibilities and applicable designs to monitor data loss and completeness of records. The study also composes a general framework deriving knowledge from literature and empirical research.
The study concludes that common data quality problems in the company are outdated data, discrepancies between source systems, missing data, and human-induced errors. The company's probable cause for these data quality problems is lacking data governance. The thesis study develops a customized automated monitoring solution that fits into the existing data pipeline of the company increasing visibility and trust. This solution involves using data from logging mechanisms to establish real-time monitoring, error analysis, and alerting mechanisms notifying relevant stakeholders about potential data loss or anomalies in data pipeline performance. Also, the study introduces a general framework for developing data monitoring to an existing pipeline contributing to the knowledge base. In the future, the general framework can be used by the company and other practitioners to guide pipeline monitoring. Teknologian kehitys on muuttanut teollisuutta nopeasti viime aikoina tehden datasta ensisijaisen tärkeän resurssin. Dataputket ovat elintärkeitä datan keräämisessä, siirtämisessä ja käsittelemisessä lisääntyvälle määrälle kriittisiä sovelluksia. Yritystoiminnassa datan laatu on keskeisessä roolissa päätöksentekoprosessien tehokkuudessa ja toimivuudessa. Yritykset kohtaavat edelleen haasteita datan laadussa estäen täyden datan potentiaalin hyödyntämisen. Tämä opinnäytetyö pyrkii tunnistamaan yleiset datan laatuun liittyvät haasteet globaalissa teollisuusyrityksessä ja tutkimaan niiden mahdollisia syitä. Lisäksi työ tarkastelee automatisoidun monitorointiratkaisun suunnittelua ja kehittämistä toimittajien ja yrityksen väliseen dataputkeen mahdollisten datan puutteiden ratkaisemiseksi.
Opinnäytetyö toteutetaan suunnittelutieteellisenä (DSR) kehittämistutkimuksena ja se koostuu kirjallisuuskatsauksesta, asiantuntijahaastatteluista ja empiirisestä tutkimuksesta, joka kuvaa suunnitteluprosessia. Kirjallisuuskatsaus tarkastelee pääasiassa dataputkia, datan laatua ja anomaliatunnistusta. Empiirisessä osuudessa tutkitaan yleisiä datan laatuun liittyviä ongelmia ja kehitysprosessia automatisoidun dataputken monitoroinnin toteuttamiseksi. Kehitysprosessi esittelee ja arvioi useita ratkaisuvaihtoehtoja ja suunnitelmia datan katoamisen ja tietueiden kokonaisuuden monitorointiin. Tutkimuksessa laaditaan kirjallisuudesta ja empiirisestä tutkimuksesta johdettu viitekehys.
Tutkimuksessa todettiin, että yrityksen yleisiä datan laatuun liittyvät ongelmia on vanhentunut data, lähteiden väliset ristiriitaisuudet, puuttuva data ja ihmisen aiheuttamat virheet. Todennäköinen syy löydettyihin haasteisiin datan laadussa on puutteellinen datanhallinta, jonka tulisi standardoida ja ohjeistaa dataan liittyviä prosesseja. Opinnäytetyössä kehitetään myös räätälöity ja automatisoitu monitorointiratkaisu yrityksen tämänhetkiseen dataputkeen lisäten käyttäjien näkyvyyttä ja luottamusta dataan. Ratkaisussa hyödynnetään virheenkirjaamismekanismin kirjaamaa dataa reaaliaikaiseen valvontaan, virheanalyysin ja hälytysmekanismien luomiseen. Hälytykset ilmoittavat asiaankuuluville sidosryhmille mahdollisista datan menetyksistä tai epätavallisuuksista dataputken suorituskyvyssä. Lisäksi tutkimus kokoaa viitekehyksen datan monitoroinnin lisäämisestä olemassa olevaan putkeen, mikä osaltaan tuo kirjallisuuteen uuden käytännönläheisen näkökulmaan. Tulevaisuudessa yritys ja muut toimijat voivat käyttää viitekehystä ohjaamaan dataputkien valvonnan lisäämistä.
The thesis study is conducted as design science research and consists of a literature review, expert interviews, and empirical research describing the design process. The literature review mainly examines data pipelines, quality, and anomaly detection. The empirical research investigated common data quality problems and the development process for implementing automated data pipeline monitoring. The development process investigates multiple solution possibilities and applicable designs to monitor data loss and completeness of records. The study also composes a general framework deriving knowledge from literature and empirical research.
The study concludes that common data quality problems in the company are outdated data, discrepancies between source systems, missing data, and human-induced errors. The company's probable cause for these data quality problems is lacking data governance. The thesis study develops a customized automated monitoring solution that fits into the existing data pipeline of the company increasing visibility and trust. This solution involves using data from logging mechanisms to establish real-time monitoring, error analysis, and alerting mechanisms notifying relevant stakeholders about potential data loss or anomalies in data pipeline performance. Also, the study introduces a general framework for developing data monitoring to an existing pipeline contributing to the knowledge base. In the future, the general framework can be used by the company and other practitioners to guide pipeline monitoring.
Opinnäytetyö toteutetaan suunnittelutieteellisenä (DSR) kehittämistutkimuksena ja se koostuu kirjallisuuskatsauksesta, asiantuntijahaastatteluista ja empiirisestä tutkimuksesta, joka kuvaa suunnitteluprosessia. Kirjallisuuskatsaus tarkastelee pääasiassa dataputkia, datan laatua ja anomaliatunnistusta. Empiirisessä osuudessa tutkitaan yleisiä datan laatuun liittyviä ongelmia ja kehitysprosessia automatisoidun dataputken monitoroinnin toteuttamiseksi. Kehitysprosessi esittelee ja arvioi useita ratkaisuvaihtoehtoja ja suunnitelmia datan katoamisen ja tietueiden kokonaisuuden monitorointiin. Tutkimuksessa laaditaan kirjallisuudesta ja empiirisestä tutkimuksesta johdettu viitekehys.
Tutkimuksessa todettiin, että yrityksen yleisiä datan laatuun liittyvät ongelmia on vanhentunut data, lähteiden väliset ristiriitaisuudet, puuttuva data ja ihmisen aiheuttamat virheet. Todennäköinen syy löydettyihin haasteisiin datan laadussa on puutteellinen datanhallinta, jonka tulisi standardoida ja ohjeistaa dataan liittyviä prosesseja. Opinnäytetyössä kehitetään myös räätälöity ja automatisoitu monitorointiratkaisu yrityksen tämänhetkiseen dataputkeen lisäten käyttäjien näkyvyyttä ja luottamusta dataan. Ratkaisussa hyödynnetään virheenkirjaamismekanismin kirjaamaa dataa reaaliaikaiseen valvontaan, virheanalyysin ja hälytysmekanismien luomiseen. Hälytykset ilmoittavat asiaankuuluville sidosryhmille mahdollisista datan menetyksistä tai epätavallisuuksista dataputken suorituskyvyssä. Lisäksi tutkimus kokoaa viitekehyksen datan monitoroinnin lisäämisestä olemassa olevaan putkeen, mikä osaltaan tuo kirjallisuuteen uuden käytännönläheisen näkökulmaan. Tulevaisuudessa yritys ja muut toimijat voivat käyttää viitekehystä ohjaamaan dataputkien valvonnan lisäämistä.
