Evaluating accuracy of local LLM-based data transformation for visualization
Perttola, Atte (2026)
Diplomityö
Perttola, Atte
2026
School of Engineering Science, Tietotekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2026052756612
https://urn.fi/URN:NBN:fi-fe2026052756612
Tiivistelmä
The world revolves around data and the ability to work with and understand data is becoming increasingly important in a modern society. Utilizing the capabilities of Large Language Models is a potential way to increase the data literacy of people and make data more accessible. Previous research has shown that LLM-based software solutions have potential in the field of data science has and some tools already exist as commercial solutions. There are, however, privacy concerns with sending data to LLM companies, which highlights the need for research into locally run alternative solutions.
This thesis focuses on the creation and evaluation of a tool that utilizes locally run LLMs to transform data for visualization. The tool was evaluated experimentally using several different models to determine how accurately the LLM-based tool can transform the data when compared to traditional programming methods. The results showed that the data could be transformed with good accuracy with the correct implementation of the technology, but with limitations on the type of data that could be transformed as well as the size of the dataset. When compared to traditional programming methods, the LLM-based approach also resulted in significant computational latency increase. Maailma pyörii datan ympärillä, ja kyky käsitellä ja ymmärtää dataa on yhä tärkeämpää nyky-yhteiskunnassa. Suurten kielimallien ominaisuuksien hyödyntäminen on yksi mahdollinen tapa parantaa ihmisten datanlukutaitoa ja tehdä datasta helpommin saatavilla olevaa. Aikaisemmat tutkimukset ovat osoittaneet, että kielimallipohjaisilla ohjelmistoratkaisuilla on potentiaalia datatieteen alalla, ja joitakin työkaluja on jo saatavilla kaupallisina ratkaisuina. Kielimalleja kehittäville yrityksille lähetettävään dataan liittyy kuitenkin tietosuojaan liittyviä huolenaiheita, mikä korostaa tarvetta tutkia paikallisesti käytettäviä vaihtoehtoisia ratkaisuja.
Tämä opinnäytetyö keskittyy sellaisen työkalun luomiseen ja arviointiin, joka hyödyntää paikallisesti käytettäviä kielimalleja datan transformaatioon visualisointia varten. Työkalua arvioitiin kokeellisesti käyttämällä useita erilaisia malleja, jotta saadaan selville, kuinka tarkasti kielimallipohjainen työkalu pystyy transformoimaan dataa verrattuna perinteisiin ohjelmointimenetelmiin. Tulokset osoittivat, että dataa voitiin transformoida hyvällä tarkkuudella, kun teknologiaa käytettiin oikein, mutta muunnettavan datan tyyppi ja datasetin koko osoittautuivat rajoituksiksi. Perinteisiin ohjelmointimenetelmiin verrattuna kielimallipohjainen lähestymistapa johti myös merkittävään laskennallisen viiveen kasvuun.
This thesis focuses on the creation and evaluation of a tool that utilizes locally run LLMs to transform data for visualization. The tool was evaluated experimentally using several different models to determine how accurately the LLM-based tool can transform the data when compared to traditional programming methods. The results showed that the data could be transformed with good accuracy with the correct implementation of the technology, but with limitations on the type of data that could be transformed as well as the size of the dataset. When compared to traditional programming methods, the LLM-based approach also resulted in significant computational latency increase.
Tämä opinnäytetyö keskittyy sellaisen työkalun luomiseen ja arviointiin, joka hyödyntää paikallisesti käytettäviä kielimalleja datan transformaatioon visualisointia varten. Työkalua arvioitiin kokeellisesti käyttämällä useita erilaisia malleja, jotta saadaan selville, kuinka tarkasti kielimallipohjainen työkalu pystyy transformoimaan dataa verrattuna perinteisiin ohjelmointimenetelmiin. Tulokset osoittivat, että dataa voitiin transformoida hyvällä tarkkuudella, kun teknologiaa käytettiin oikein, mutta muunnettavan datan tyyppi ja datasetin koko osoittautuivat rajoituksiksi. Perinteisiin ohjelmointimenetelmiin verrattuna kielimallipohjainen lähestymistapa johti myös merkittävään laskennallisen viiveen kasvuun.
