Product identifier governance in a fragmented data landscape : a case study of applying data catalog principles
Hokkanen, Joni (2025)
Diplomityö
Hokkanen, Joni
2025
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20251223125075
https://urn.fi/URN:NBN:fi-fe20251223125075
Tiivistelmä
This master’s thesis is a case study that evaluates solution options for implementing a data catalog in a company where data management is siloed and fragmented. The process starts by mapping the current state and collecting the relevant material. The study also included a review of benchmark cases from the literature to assess suitable solutions. The current-state description was complemented with stakeholder perspectives in order to define the key requirements for a data catalog and data discovery capabilities.
For stakeholders, the ProductID discovery and definition work was structured using Kipling’s 5W+1H method (who, what, when, where, why, and how, from a data catalog and data management perspective). Across departments, the same challenges were identified: data products do not have a unique product-level identifier, and naming practices differ between departments. This creates challenges in data management and in practical system integration. In the target state, the aim is to establish a unique identifier for the product and enrich its metadata for future needs, so that it can function as a single source of truth.
Based on the literature, these problems are typical in ICT organisations as the volume and complexity of products and data increase. The results indicate that functional data catalog solutions form a critical foundation for future development—especially for the effective use of modern AI, business analytics, and integration tools. Tämä diplomityö on tapaustutkimus, jossa arvioidaan yrityksen tarpeisiin soveltuvia ratkaisuja datakatalogin toteuttamiseksi tilanteessa, jossa datanhallinta on siiloutunutta ja pirstaleista. Prosessi alkaa nykytilan kartoittamisella ja olennaisen aineiston keräämisellä. Työhön sisältyi myös kirjallisuuden benchmark-tapausten tarkastelu soveltuvien ratkaisuiden arvioimiseksi. Nykytilan kuvausta täydennettiin sidosryhmien näkökulmilla, jotta voitiin määrittää datakatalogin ja data discovery -kyvykkyyksien keskeiset vaatimukset.
Kunkin sidosryhmien osalta tuotetunnisteen selvitysprosessia jäsennettiin Kiplingin 5W + 1H -menetelmän avulla (who, what, when, where, why ja how datakatalogi- ja datanhallinnan näkökulmasta). Kaikkia osastoja yhdisti samat haasteet: Datatuotteille ei ole yksikäsitteistä tuotekohtaista tunnistetta ja osastojen nimeämiskäytännöt poikkeavat toisistaan. Tämä luo haasteita datan hallinnassa, mutta myös käytännön integraatiossa. Tavoitetilassa tuotteelle pyritään luomaan yksikäsitteinen tunniste ja rikastamaan metatietoa tulevaisuuden tarpeisiin, jotta se voisi toimia yhden totuuden lähteenä.
Kirjallisuuden perusteella nämä ongelmat ovat tyypillisiä ICT-organisaatioissa tuotteiden ja datan määrän sekä monimutkaisuuden kasvaessa. Tulokset osoittavat, että tulevaa kehitystä — ja erityisesti modernien tekoäly-, business-analytiikka- ja integraatiotyökalujen tehokasta hyödyntämistä — varten toimivat datakatalogi-ratkaisut muodostavat kriittisen perustan.
For stakeholders, the ProductID discovery and definition work was structured using Kipling’s 5W+1H method (who, what, when, where, why, and how, from a data catalog and data management perspective). Across departments, the same challenges were identified: data products do not have a unique product-level identifier, and naming practices differ between departments. This creates challenges in data management and in practical system integration. In the target state, the aim is to establish a unique identifier for the product and enrich its metadata for future needs, so that it can function as a single source of truth.
Based on the literature, these problems are typical in ICT organisations as the volume and complexity of products and data increase. The results indicate that functional data catalog solutions form a critical foundation for future development—especially for the effective use of modern AI, business analytics, and integration tools.
Kunkin sidosryhmien osalta tuotetunnisteen selvitysprosessia jäsennettiin Kiplingin 5W + 1H -menetelmän avulla (who, what, when, where, why ja how datakatalogi- ja datanhallinnan näkökulmasta). Kaikkia osastoja yhdisti samat haasteet: Datatuotteille ei ole yksikäsitteistä tuotekohtaista tunnistetta ja osastojen nimeämiskäytännöt poikkeavat toisistaan. Tämä luo haasteita datan hallinnassa, mutta myös käytännön integraatiossa. Tavoitetilassa tuotteelle pyritään luomaan yksikäsitteinen tunniste ja rikastamaan metatietoa tulevaisuuden tarpeisiin, jotta se voisi toimia yhden totuuden lähteenä.
Kirjallisuuden perusteella nämä ongelmat ovat tyypillisiä ICT-organisaatioissa tuotteiden ja datan määrän sekä monimutkaisuuden kasvaessa. Tulokset osoittavat, että tulevaa kehitystä — ja erityisesti modernien tekoäly-, business-analytiikka- ja integraatiotyökalujen tehokasta hyödyntämistä — varten toimivat datakatalogi-ratkaisut muodostavat kriittisen perustan.
