Development of a framework for pre-processing domain-specific data using a technical language processing approach
Kettunen, Niklas (2025)
Diplomityö
Kettunen, Niklas
2025
School of Energy Systems, Sähkötekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe202501204639
https://urn.fi/URN:NBN:fi-fe202501204639
Tiivistelmä
The adoption of large language models (LLMs) has enabled businesses to automate complex tasks such as customer service and technical support. Retrieval-augmented generation (RAG) is a method used to combine sensitive information with publicly available language models. The performance of this approach is dependent on an effective pre-processing pipeline for the technical corpus. Research has shown that traditional natural language processing (NLP) methods do not work well for technical text. Although technical language processing (TLP) methods have been proposed as an alternative way to address challenges unique to technical texts, real-life case studies of processing such data remain largely undocumented.
This thesis designed and implemented a pre-processing pipeline to address common issues in a proprietary 3GPP-based technical document. This document is a technical blueprint for a component in a large 5G telecommunication system developed by Nokia. The three core issues in the document were textual inconsistencies, lack of table processing, and lack of relationship between technical text and section titles.
A structured questionnaire was developed and used to measure changes in the response accuracy before and after implementation. Six categories of questions were formulated. Each category had ten representative questions. The results show a 50 % improvement for table queries and a 20 % improvement for procedure queries. The average improvement was 15.3 % for all queries. The findings highlight the importance of a well-tuned semantic search step in retrieving the relevant context for a given technical query. Suurten kielimallien (LLM) käyttöönotto on mahdollistanut yrityksille monimutkaisten tehtävien, kuten asiakaspalvelun ja teknisen tuen, automatisoinnin. Hakupohjainen tekstin generointi (RAG) on menetelmä, jolla yhdistetään arkaluonteista tietoa julkisesti saatavilla oleviin kielimalleihin. Tämän lähestymistavan suorituskyky riippuu tehokkaasta teknisen korpuksen esikäsittelyprosessista. Tutkimukset ovat osoittaneet, että perinteiset luonnollisen kielen käsittelyn (NLP) menetelmät eivät toimi teknisten tekstien kanssa. Vaikka teknisen kielen käsittelyn (TLP) menetelmiä on ehdotettu ratkaisuksi teknisille teksteille ominaisiin haasteisiin, todelliset tapaustutkimukset tällaisen tiedon käsittelystä ovat edelleen suurelta osin dokumentoimatta.
Tässä diplomityössä suunniteltiin ja toteutettiin esikäsittelyketju, joka ratkaisee yleisiä ongelmia 3GPP-pohjaisessa, omistusoikeudellisesti suojatussa teknisessä dokumentissa. Kyseinen dokumentti toimii teknisenä suunnitelmana Nokian kehittämän 5G-telekommunikaatiojärjestelmän komponentille. Kolme keskeistä ongelmaa dokumentissa olivat tekstin epäjohdonmukaisuudet, taulukkojen käsittelyn puute, sekä teknisen tekstin ja otsikoiden välisen yhteyden puuttuminen.
Vertailuarviointimenetelmää kontrolloitujen kokeiden avulla käytettiin mittaamaan vastaustarkkuuden muutoksia ennen ja jälkeen toteutuksen. Kuusi kysymyskategoriaa määriteltiin, ja jokaisessa kategoriassa oli kymmenen kysymystä. Tulokset osoittivat 50 %:n parannuksen taulukkokyselyissä ja 20 %:n parannuksen menettelykyselyissä. Keskimääräinen parannus oli 15.3 % kaikissa kysymyksissä. Tulokset korostavat hyvin sovelletun semanttisen hakuvaiheen merkitystä, kun pyritään löytämään asiayhteys tekniseen kysymykseen.
This thesis designed and implemented a pre-processing pipeline to address common issues in a proprietary 3GPP-based technical document. This document is a technical blueprint for a component in a large 5G telecommunication system developed by Nokia. The three core issues in the document were textual inconsistencies, lack of table processing, and lack of relationship between technical text and section titles.
A structured questionnaire was developed and used to measure changes in the response accuracy before and after implementation. Six categories of questions were formulated. Each category had ten representative questions. The results show a 50 % improvement for table queries and a 20 % improvement for procedure queries. The average improvement was 15.3 % for all queries. The findings highlight the importance of a well-tuned semantic search step in retrieving the relevant context for a given technical query.
Tässä diplomityössä suunniteltiin ja toteutettiin esikäsittelyketju, joka ratkaisee yleisiä ongelmia 3GPP-pohjaisessa, omistusoikeudellisesti suojatussa teknisessä dokumentissa. Kyseinen dokumentti toimii teknisenä suunnitelmana Nokian kehittämän 5G-telekommunikaatiojärjestelmän komponentille. Kolme keskeistä ongelmaa dokumentissa olivat tekstin epäjohdonmukaisuudet, taulukkojen käsittelyn puute, sekä teknisen tekstin ja otsikoiden välisen yhteyden puuttuminen.
Vertailuarviointimenetelmää kontrolloitujen kokeiden avulla käytettiin mittaamaan vastaustarkkuuden muutoksia ennen ja jälkeen toteutuksen. Kuusi kysymyskategoriaa määriteltiin, ja jokaisessa kategoriassa oli kymmenen kysymystä. Tulokset osoittivat 50 %:n parannuksen taulukkokyselyissä ja 20 %:n parannuksen menettelykyselyissä. Keskimääräinen parannus oli 15.3 % kaikissa kysymyksissä. Tulokset korostavat hyvin sovelletun semanttisen hakuvaiheen merkitystä, kun pyritään löytämään asiayhteys tekniseen kysymykseen.
