Data quality analysis in industrial maintenance; theory vs. reality
Rantala, Miika (2016)
Diplomityö
Rantala, Miika
2016
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2016090623562
https://urn.fi/URN:NBN:fi-fe2016090623562
Tiivistelmä
The use of Big Data, analytics and simulations for supporting decision making in different business areas regardless the field of industry has gained significant interest lately. Firms believe to improve efficiency and thereby gain advantage by exploiting analytics. Service providers’ promises about the possibilities that analytics will bring have increased the interest even more. Nevertheless, it is important to realize that the existing data has a significant impact on the potential of analytics. The vast amount of data available make the situation even worse because detecting corruptions in data becomes an extremely difficult task. Using low quality data causes biased understanding state which in turn might result in bad decisions.
Data quality is a relative concept, which is mainly based on fit for use ideology meaning that data is high quality if it is suitable for the intended purpose. It’s also possible to determine the most substantial dimensions of data quality to help in measuring. High quality data should be at least accurate, complete, consistent and timeless. The aim of this study is to create a model for measuring data quality for the needs of industrial maintenance. The data used in this thesis is provided by nine different size factories operating in a variety of industries. Therefore, the test data can be considered quite credible and provides great insight of factors affecting the data quality. The results of this study show that it’s possible to find significant errors from analytical as well as managerial perspective. The most errors are caused by poor data collection and management process. Big Data:n, analytiikan ja simuloinnin hyödyntäminen päätöksenteon tukena liiketoiminnan eri osa-alueilla on herättänyt viime aikoina suurta mielenkiintoa toimialasta riippumatta. Yritykset uskovat pystyvänsä tehostamaan toimintaansa ja siten saavuttavansa kilpailuetua hyödyntämällä analytiikan eri keinoja, eikä tätä intoa ole laskeneet lukuisien palveluntarjoajien lupaukset analytiikan mahdollisuuksista. On kuitenkin muistettava, että analytiikka pohjautuu lähtökohtaisesti jo olemassa olevaan dataan, mikä vaikuttaa merkittävästi hyödyntämismahdollisuuksiin. Tilannetta pahentaa entisestään saatavilla olevan datan valtava määrä, jolloin virheiden huomaamisesta tulee erittäin haastavaa. Huonolaatuisen datan hyödyntäminen johtaa virheellisiin tulkintoihin ja siten vääriin päätöksiin.
Datan laatu on itsessään suhteellinen käsite, joka pohjautuu lähinnä ajatukseen, että laadukas data soveltuu sille suunniteltuun käyttötarkoitukseen. Datalle voidaan kuitenkin määrittää merkittävimmät laatuun vaikuttavat näkökulmat laadun mittaamiseksi. Hyvälaatuisen datan tulisi olla ainakin paikkansapitävää, kattavaa, johdonmukaista ja ajantasaista. Tässä työssä pyritäänkin luomaan malli datan laadun mittaamiseksi teollisen kunnossapidon tarpeisiin. Työssä on hyödynnetty dataa yhdeksästä erikokoisesta ja vaihtelevilla toimialoilla toimivista tuotantolaitoksista tarjoten varsin kattavan testiaineiston ja siten monipuolisen katsauksen datan laatuun vaikuttavista tekijöistä. Tutkimus osoittaa, että datasta voidaan löytää merkittäviä virheitä niin analytiikan kuin toiminnan johtamisen kannalta. Suurin osa datan virheistä johtuu joko puutteellisista keräysprosesseista tai datan hallinnasta.
Data quality is a relative concept, which is mainly based on fit for use ideology meaning that data is high quality if it is suitable for the intended purpose. It’s also possible to determine the most substantial dimensions of data quality to help in measuring. High quality data should be at least accurate, complete, consistent and timeless. The aim of this study is to create a model for measuring data quality for the needs of industrial maintenance. The data used in this thesis is provided by nine different size factories operating in a variety of industries. Therefore, the test data can be considered quite credible and provides great insight of factors affecting the data quality. The results of this study show that it’s possible to find significant errors from analytical as well as managerial perspective. The most errors are caused by poor data collection and management process.
Datan laatu on itsessään suhteellinen käsite, joka pohjautuu lähinnä ajatukseen, että laadukas data soveltuu sille suunniteltuun käyttötarkoitukseen. Datalle voidaan kuitenkin määrittää merkittävimmät laatuun vaikuttavat näkökulmat laadun mittaamiseksi. Hyvälaatuisen datan tulisi olla ainakin paikkansapitävää, kattavaa, johdonmukaista ja ajantasaista. Tässä työssä pyritäänkin luomaan malli datan laadun mittaamiseksi teollisen kunnossapidon tarpeisiin. Työssä on hyödynnetty dataa yhdeksästä erikokoisesta ja vaihtelevilla toimialoilla toimivista tuotantolaitoksista tarjoten varsin kattavan testiaineiston ja siten monipuolisen katsauksen datan laatuun vaikuttavista tekijöistä. Tutkimus osoittaa, että datasta voidaan löytää merkittäviä virheitä niin analytiikan kuin toiminnan johtamisen kannalta. Suurin osa datan virheistä johtuu joko puutteellisista keräysprosesseista tai datan hallinnasta.