Text classification using language models : leveraging pre-trained language models for hierarchical multi-class text classification under complex information management plans
Turunen, Joni (2025)
Diplomityö
Turunen, Joni
2025
School of Engineering Science, Tietotekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025053056076
https://urn.fi/URN:NBN:fi-fe2025053056076
Tiivistelmä
This thesis investigates the suitability of pre-trained language models for text classification tasks against public administration information management plans (IMP). In a hierarchical multi-class (HMC) text classification (TC) task, the ability of the models to find the correct document type from a hierarchical structure was investigated.
The study analysed public sector documents related to IMP and evaluated the suitability of AI/ML and NLP techniques for the HMC-TC task. The work produced a prototype classifier based on Zero-Shot Classification (ZSC), with the aim of improving the efficiency of information classification, minimising errors and easing the cognitive load of users. The modular prototype classifier navigates the IMP hierarchy and provides classification recommendations without any separate language model training or fine-tuning. The objectives of the study were to explore the potential for producing a widely deployable solution without the need for customisation, high computational requirements, or reliance on third-party services.
The key findings show that although ZSC models have potential, their performance depends on the quality of the data to be classified and the content of the documents. Multilingual language models with ZSC performance performed moderately well when using Finnish text and category options. The prediction accuracy of the first hierarchy level was around 35%, which is an improvement over the baseline accuracy (6.25%), but not sufficient for independent classification. The use of translations increases the classification time and does not provide accuracy improvements with the client material used. Further research is recommended to identify the best use cases for exploiting the technology. Tässä diplomityössä tutkitaan ennalta koulutettujen kielimallien sopivuutta tekstiluokittelutehtäviin julkishallinnon tiedonohjaussuunnitelmia (TOS) vasten. Työssä keskitytään moniluokaiseen tekstiluokitteluun ja tarkastellaan erilaisten kielimallien kykyä löytää oikea asiakirjatyyppi hierarkisesta rakenteesta annetulle asiakirjatekstille.
Tutkimuksessa analysoitiin TOS:iin liittyviä julkisen sektorin asiakirjoja ja arvioitiin soveltuvia AI/ML ja NLP-tekniikoita luokittelu tehtävään. Työssä tuotettiin Zero-Shot Classification (ZSC) -menetelmään perustuva prototyyppiluokittelija, tavoitteena parantaa tiedonluokittelun tehokkuutta, minimoida virheitä ja helpottaa toimeksiantajan tuotteiden välityksellä loppukäyttäjän työtehtäviä. Modulaarinen prototyyppiluokittelija navigoi TOS-hierarkiaa ja antaa luokitussuosituksia ilman erillistä kielimallin koulutusta tai hienosäätöä (fine-tuning). Tutkimuksen tavoitteisiin kuului selvittää mahdollisuudet laajalti käyttöönotettavan ratkaisun tuottamisesta ilman asiakasorganisaatiokohtaista sovitusta, suuria laskentatehovaatimuksia tai kolmansien osapuolten palveluihin tukeutumista.
Keskeiset havainnot osoittavat, että vaikka ZSC-malleissa on potentiaalia tehtävään, niiden suorituskyky on riippuvainen luokiteltavan aineiston, asiakirjojen, tekstisisällöstä. Monikieliset kielimallit ZSC-kyvykkyydellä menestyivät kohtalaisesti käytettäessä suomenkielistä tekstiä ja luokkavaihtoehtoja. Ensimmäisen hierarkiatason ennustustarkkuus oli noin 35 %, mikä on parannus lähtötasotarkkuuteen (6.25 %) verrattuna, mutta ei riittävä itsenäiseen luokitteluun. Käännösten käyttäminen lisää luokitteluaikaa eikä tarjonnut tarkkuusparannuksia käytössä olleella asiakasmateriaalilla. Jatkotutkimus on suositeltavaa selvittämään parhaat käyttötapaukset teknologian hyödyntämiseksi.
The study analysed public sector documents related to IMP and evaluated the suitability of AI/ML and NLP techniques for the HMC-TC task. The work produced a prototype classifier based on Zero-Shot Classification (ZSC), with the aim of improving the efficiency of information classification, minimising errors and easing the cognitive load of users. The modular prototype classifier navigates the IMP hierarchy and provides classification recommendations without any separate language model training or fine-tuning. The objectives of the study were to explore the potential for producing a widely deployable solution without the need for customisation, high computational requirements, or reliance on third-party services.
The key findings show that although ZSC models have potential, their performance depends on the quality of the data to be classified and the content of the documents. Multilingual language models with ZSC performance performed moderately well when using Finnish text and category options. The prediction accuracy of the first hierarchy level was around 35%, which is an improvement over the baseline accuracy (6.25%), but not sufficient for independent classification. The use of translations increases the classification time and does not provide accuracy improvements with the client material used. Further research is recommended to identify the best use cases for exploiting the technology.
Tutkimuksessa analysoitiin TOS:iin liittyviä julkisen sektorin asiakirjoja ja arvioitiin soveltuvia AI/ML ja NLP-tekniikoita luokittelu tehtävään. Työssä tuotettiin Zero-Shot Classification (ZSC) -menetelmään perustuva prototyyppiluokittelija, tavoitteena parantaa tiedonluokittelun tehokkuutta, minimoida virheitä ja helpottaa toimeksiantajan tuotteiden välityksellä loppukäyttäjän työtehtäviä. Modulaarinen prototyyppiluokittelija navigoi TOS-hierarkiaa ja antaa luokitussuosituksia ilman erillistä kielimallin koulutusta tai hienosäätöä (fine-tuning). Tutkimuksen tavoitteisiin kuului selvittää mahdollisuudet laajalti käyttöönotettavan ratkaisun tuottamisesta ilman asiakasorganisaatiokohtaista sovitusta, suuria laskentatehovaatimuksia tai kolmansien osapuolten palveluihin tukeutumista.
Keskeiset havainnot osoittavat, että vaikka ZSC-malleissa on potentiaalia tehtävään, niiden suorituskyky on riippuvainen luokiteltavan aineiston, asiakirjojen, tekstisisällöstä. Monikieliset kielimallit ZSC-kyvykkyydellä menestyivät kohtalaisesti käytettäessä suomenkielistä tekstiä ja luokkavaihtoehtoja. Ensimmäisen hierarkiatason ennustustarkkuus oli noin 35 %, mikä on parannus lähtötasotarkkuuteen (6.25 %) verrattuna, mutta ei riittävä itsenäiseen luokitteluun. Käännösten käyttäminen lisää luokitteluaikaa eikä tarjonnut tarkkuusparannuksia käytössä olleella asiakasmateriaalilla. Jatkotutkimus on suositeltavaa selvittämään parhaat käyttötapaukset teknologian hyödyntämiseksi.
Kokoelmat
Samankaltainen aineisto
Näytetään aineisto, joilla on samankaltaisia nimekkeitä, tekijöitä tai asiasanoja.
-
Purchasing portfolio analysis and supplier classification
Sivusuo, Jutta (2013)The purpose of the thesis is to classify suppliers and to enhance strategic purchasing in the case company. Supplier classification is conducted to fulfill the requirements of the company quality manual and international ... -
Toimittajahallintaprosessin kehittäminen
Järvinen, Kari (2015)Nykyaikaisessa monipuolisessa liiketoimintaympäristössä, tieto joka saadaan koko toimitusketjun osapuolilta, on perusedellytys menestykselle. Ammattimaisessa hankinnassa keskitytään kokonaisuuden hallintamenetelmiin, joissa ... -
Clustering and classification of material suppliers using machine learning algorithms
Lahtinen, Joel (2021)The purpose of this thesis is to serve as a feasibility study to investigate the usage of machine learning algorithms to enhance daily operations of procurement function. It seeks to find suitable variables from the given ...


