Data integrity and classification in nuclear power plant data management
Mussalo, Joona (2022)
Diplomityö
Mussalo, Joona
2022
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022062248476
https://urn.fi/URN:NBN:fi-fe2022062248476
Tiivistelmä
Data integrity is the cohesion of the data in the context of its use. The definition of integrity differs between sources, but in this case, it describes the fitness for use in the nuclear power plant project. It can be measured by using data quality dimensions, quality, accuracy, completeness, and timeliness. In complex engineering projects, data integrity is critical for the successful execution of the project. Issues in integrity will harm the traceability and the management of data. These issues can be caused by poor implementation of the data management system, data procedures, or lack of cooperation between involved parties.
This study aims to identify the issues in a data management system and its processes, which could cause data integrity issues. The study discusses the concepts of data quality and classification. A literature review was carried out to observe the potential classification methods and pre-processing techniques. The classification model was built using Weka, which is open-source software for machine learning and data mining. It contains a great variety of algorithms for machine learning and tools for data pre-processing. The J48 classification algorithm was chosen to build a classifier for data imputation.
The results of this study suggest that a data imputation task can be performed for the reference data in the system. However, more algorithms should be tested to optimize the classification accuracy. The experiment was done on one data set. For future work, classification should be extended to other data that is found in the system. The identified integrity issues were mainly related to the problem of multiple systems that are used simultaneously. The reference data is obtained from multiple sources which are not integrated. The data objects and relationships may have been changed in one system and not in the other. The issues with incorrect or missing reference data are escalated when new design documents are received, and the relationships cannot be established. Datan eheydellä tarkoitetaan sen yhtenäisyyttä käyttökohteessa. Datan eheyden määritelmä vaihtelee lähteiden välillä, mutta tässä tapauksessa se kuvaa käyttökelpoisuutta ydinvoimalaitosprojektissa. Sitä voidaan mitata datan laadun ulottuvuuksien avulla, keskittymällä tarkkuuteen, ajantasaisuuteen, täydellisyyteen ja laatuun. Monimutkaisissa rakennusprojekteissa datan eheys on ratkaisevan tärkeää projektin onnistumisen kannalta. Ongelmat eheydessä haittaavat datan jäljitettävyyttä ja hallintaa. Nämä ongelmat voivat johtua datanhallintajärjestelmän huonosta toteutuksesta, tietomenettelyistä tai osapuolten välisen yhteistyön puutteesta.
Tämän tutkimuksen tavoitteena on tunnistaa datanhallintajärjestelmän ja sen prosessien ongelmat, jotka voivat aiheuttaa datan eheysongelmia. Tutkimus käsittelee datan laadun ja luokituksen käsitteitä. Kirjallisuuskatsaus suoritettiin mahdollisten luokittelumenetelmien ja esikäsittelytekniikoiden tarkkailemiseksi. Luokittelumalli rakennettiin Wekalla, joka on avoimen lähdekoodin ohjelmisto koneoppimiseen ja tiedon louhintaan. Se sisältää laajan valikoiman algoritmeja koneoppimiseen ja työkaluja tietojen esikäsittelyyn. J48-luokittelualgoritmi valittiin luokittelijan rakentamiseen puuttuvan datan päättelyä varten.
Tutkimuksen tulokset viittaavat siihen, että puuttuvia viitedatan arvoja voidaan päätellä muiden arvojen avulla. Luokittelutarkkuuden optimoimiseksi tulisi kuitenkin testata lisää algoritmeja. Tutkimuksessa käytettiin yhtä datajoukkoa. Tulevaisuuden työskentelyä varten luokittelu tulisi laajentaa koskemaan myös muuta järjestelmästä löytyvää dataa. Tunnistetut eheysongelmat liittyivät pääasiassa useiden samanaikaisesti käytettävien järjestelmien ongelmaan. Viitedata tuodaan järjestelmään useasta lähteestä, joita ei ole integroitu. Viitedatan arvoja on saatettu päivittää yhdessä järjestelmässä, mutta toisessa on vielä vanhaa tietoa. Virheelliseen tai puuttuvaan viitedataan liittyvät ongelmat eskaloituvat, kun uusia suunnitteludokumentteja vastaanotetaan, eikä yhteyksiä datan välillä voida muodostaa.
This study aims to identify the issues in a data management system and its processes, which could cause data integrity issues. The study discusses the concepts of data quality and classification. A literature review was carried out to observe the potential classification methods and pre-processing techniques. The classification model was built using Weka, which is open-source software for machine learning and data mining. It contains a great variety of algorithms for machine learning and tools for data pre-processing. The J48 classification algorithm was chosen to build a classifier for data imputation.
The results of this study suggest that a data imputation task can be performed for the reference data in the system. However, more algorithms should be tested to optimize the classification accuracy. The experiment was done on one data set. For future work, classification should be extended to other data that is found in the system. The identified integrity issues were mainly related to the problem of multiple systems that are used simultaneously. The reference data is obtained from multiple sources which are not integrated. The data objects and relationships may have been changed in one system and not in the other. The issues with incorrect or missing reference data are escalated when new design documents are received, and the relationships cannot be established.
Tämän tutkimuksen tavoitteena on tunnistaa datanhallintajärjestelmän ja sen prosessien ongelmat, jotka voivat aiheuttaa datan eheysongelmia. Tutkimus käsittelee datan laadun ja luokituksen käsitteitä. Kirjallisuuskatsaus suoritettiin mahdollisten luokittelumenetelmien ja esikäsittelytekniikoiden tarkkailemiseksi. Luokittelumalli rakennettiin Wekalla, joka on avoimen lähdekoodin ohjelmisto koneoppimiseen ja tiedon louhintaan. Se sisältää laajan valikoiman algoritmeja koneoppimiseen ja työkaluja tietojen esikäsittelyyn. J48-luokittelualgoritmi valittiin luokittelijan rakentamiseen puuttuvan datan päättelyä varten.
Tutkimuksen tulokset viittaavat siihen, että puuttuvia viitedatan arvoja voidaan päätellä muiden arvojen avulla. Luokittelutarkkuuden optimoimiseksi tulisi kuitenkin testata lisää algoritmeja. Tutkimuksessa käytettiin yhtä datajoukkoa. Tulevaisuuden työskentelyä varten luokittelu tulisi laajentaa koskemaan myös muuta järjestelmästä löytyvää dataa. Tunnistetut eheysongelmat liittyivät pääasiassa useiden samanaikaisesti käytettävien järjestelmien ongelmaan. Viitedata tuodaan järjestelmään useasta lähteestä, joita ei ole integroitu. Viitedatan arvoja on saatettu päivittää yhdessä järjestelmässä, mutta toisessa on vielä vanhaa tietoa. Virheelliseen tai puuttuvaan viitedataan liittyvät ongelmat eskaloituvat, kun uusia suunnitteludokumentteja vastaanotetaan, eikä yhteyksiä datan välillä voida muodostaa.
