Enhancing large language model performance in the context of Espoo’s climate actions utilizing open-source data
Käyhkö, Arttu (2025)
Diplomityö
Käyhkö, Arttu
2025
School of Engineering Science, Tuotantotalous
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025052855463
https://urn.fi/URN:NBN:fi-fe2025052855463
Tiivistelmä
Evaluating climate action initiatives, outcomes, and forecasts is complex due to varying data formats and sources. This is where a large language model (LLM) could be leveraged, but the current foundation models are inadequately equipped when it comes to answering certain use-case-specific questions.
This study examines different LLM enhancement methods that leverage open-source data to solve these limitations in the context of Espoo’s climate actions. When it comes to successfully implementing these enhancements, data is the most critical factor, highly affecting all of the outcomes of the different enhancement methods.
Six enhanced LLMs were built, leveraging 21 Espoo’s climate actions-related datasets and three different enhancement methods. The results were evaluated both quantitatively and qualitatively using a constructed evaluation framework consisting of 10 evaluation metrics, focusing on overall performance, error rates, and textual similarity.
All the enhanced models, leveraging open-source data, outperformed the foundation models in the context of Espoo’s climate actions. The retrieval augmented generation (RAG) augmented GPT-4o model performed the best overall, achieving an accuracy of 84,2 % across all of the test questions. At the same time, the fine-tuned GPT-4o-mini showcased the best performance across textual evaluations. Ilmastoaloitteiden, tulosten ja ennusteiden arviointi on monimutkaista vaihtelevista data formaateista ja tietolähteisestä johtuen. Suuria kielimalleja (LLM) voitaisiin hyödyntää tähän tarkoitukseen, mutta tämänhetkiset peruskielimallit eivät kykene vastaamaan näihin käyttötapauskohtaisiin kysymyksiin.
Tässä tutkielmassa selvitetään erilaisten kielimallien tehostamismenetelmien kyvykkyyksiä rajoitteiden kiertämiseksi avointa dataa hyödyntäen Espoon ilmastotoimien kontekstissa. Merkittävin tekijä tehostusmenetelmien onnistumisen kannalta on käytettävä data, joka vaikuttaa merkittävästi kunkin menetelmän lopputuloksiin.
Tehostettuja kielimalleja rakennettiin kokonaisuudessaan kuusi, jotka hyödynsivät 21 Espoon ilmastotoimiin liittyvää tietoaineistoa ja kolmea eri tehostusmenetelmää. Tulokset arvioitiin sekä kvantitatiivisin että kvalitatiivisin menetelmin, käyttäen 10 arviointimittarista koostuvaa arviointikehystä, joka mittaa suorituskykyä, virhetasoja ja tekstin rakennetta.
Kaikki avointa dataa hyödyntävät tehostetut kielimallit päihittivät peruskielimallit Espoon ilmastotoimien kontekstissa. Parhaiten suoriutui retrieval augmented generation (RAG) hakutoimintoa hyödyntävä GPT-4o kielimalli, joka saavutti 84,2 % tarkkuuden testikysymyksissä. Parhaiten tekstuaalista samankaltaisuutta mittaavissa tuloksissa pärjäsi puolestaan GPT-4o-mini kielimalli.
This study examines different LLM enhancement methods that leverage open-source data to solve these limitations in the context of Espoo’s climate actions. When it comes to successfully implementing these enhancements, data is the most critical factor, highly affecting all of the outcomes of the different enhancement methods.
Six enhanced LLMs were built, leveraging 21 Espoo’s climate actions-related datasets and three different enhancement methods. The results were evaluated both quantitatively and qualitatively using a constructed evaluation framework consisting of 10 evaluation metrics, focusing on overall performance, error rates, and textual similarity.
All the enhanced models, leveraging open-source data, outperformed the foundation models in the context of Espoo’s climate actions. The retrieval augmented generation (RAG) augmented GPT-4o model performed the best overall, achieving an accuracy of 84,2 % across all of the test questions. At the same time, the fine-tuned GPT-4o-mini showcased the best performance across textual evaluations.
Tässä tutkielmassa selvitetään erilaisten kielimallien tehostamismenetelmien kyvykkyyksiä rajoitteiden kiertämiseksi avointa dataa hyödyntäen Espoon ilmastotoimien kontekstissa. Merkittävin tekijä tehostusmenetelmien onnistumisen kannalta on käytettävä data, joka vaikuttaa merkittävästi kunkin menetelmän lopputuloksiin.
Tehostettuja kielimalleja rakennettiin kokonaisuudessaan kuusi, jotka hyödynsivät 21 Espoon ilmastotoimiin liittyvää tietoaineistoa ja kolmea eri tehostusmenetelmää. Tulokset arvioitiin sekä kvantitatiivisin että kvalitatiivisin menetelmin, käyttäen 10 arviointimittarista koostuvaa arviointikehystä, joka mittaa suorituskykyä, virhetasoja ja tekstin rakennetta.
Kaikki avointa dataa hyödyntävät tehostetut kielimallit päihittivät peruskielimallit Espoon ilmastotoimien kontekstissa. Parhaiten suoriutui retrieval augmented generation (RAG) hakutoimintoa hyödyntävä GPT-4o kielimalli, joka saavutti 84,2 % tarkkuuden testikysymyksissä. Parhaiten tekstuaalista samankaltaisuutta mittaavissa tuloksissa pärjäsi puolestaan GPT-4o-mini kielimalli.
