Large language models in graphical data analytics : a comparative study of three popular chatbots
Litmanen, Anna (2025)
Pro gradu -tutkielma
Litmanen, Anna
2025
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025040122751
https://urn.fi/URN:NBN:fi-fe2025040122751
Tiivistelmä
As the amount of data increases, and the needs for its management and use accelerate, data visualization has gained a significant role in data analytics. However, data visualization is a time-consuming part in data analytics and requires expertise and accuracy. The use of large language models (LLMs) in data visualization tasks has attracted interest because utilizing them could lead to more efficient ways to work and more accurate data visualizations.
This study aimed to find out how LLMs have been used, according to the literature in data visualization for graph creation tasks. In addition, the aim of the thesis was to increase the knowledge of how ChatGPT 4o-mini/4o limited use, Gemini Flash 1.5, and Llama 3 8B perform in creating Python codes to visualize data and how much they require prompting. The results, based on literature, show that LLMs could be used to enhance the performance of the creation of graphs and improve their quality.
In the empirical case study, all selected models showed performance in creating Python code for the purpose of data visualization. Considering the overall evaluation of all the graphs, ChatGPT showed the best overall performance, and Gemini took the second place. The models performed well in terms of the accuracy of data presentation. Details related to the clarity of the graphs presented some challenges. Results, taking into account the effort of prompting, suggest that using LLMs could potentially enhance data visualization tasks as well as improve the quality of graphs. In conclusion, the results of the empirical study are in line with the results of previous studies. Datan määrän lisääntyessä, ja sen hallinnan ja käytön tarpeiden nopeutuessa datan visualisointi on noussut merkittävään rooliin data-analytiikassa. Datan visualisointi on kuitenkin aikaa vievää ja vaatii osaamista sekä tarkkuutta. Laajojen kielimallien hyödyntäminen datan visualisoinnin tehtävissä onkin herättänyt kiinnostusta tiedon visualisoinnin tehtävien suorittamisen tehostamiseksi ja kuvaajien laadun parantamiseksi.
Tutkimuksen tavoitteena oli selvittää, miten laajoja kielimalleja on hyödynnetty datan visualisoinnissa. Lisäksi tavoitteena oli lisätä tietoa siitä, miten ChatGPT 4o-mini/4o limited use, Gemini Flash 1.5, ja Llama 3 8B suoriutuvat Python koodin luomisesta datan visualisoimiseksi, ja minkä verran mallit vaativat käskyttämistä. Aiemmissa tutkimuksissa on löydetty suuntaa antavia tuloksia, että laajat kielimallit voivat tehostaa kuvaajien luomista sekä parantaa niiden laatua.
Empiirisessä tapaustutkimuksessa kaikki valitut mallit suoriutuivat Python koodin luomisesta datan visualisoimiseksi. Kuvaajien yhteen vedetyn arvioinnin perusteella ChatGPT suoriutui parhaiten ja Gemini toiseksi parhaiten. Tietojen esittämisen tarkkuudessa mallit suoriutuivat pääosin hyvin. Yksityiskohdat liittyen kuvaajien selkeyteen tuottivat jonkin verran haasteita. Kokonainaisarvion perusteella, huomioiden myös vaadittu mallien käskyttäminen, laajojen kielimallien hyödyntäminen voisi mahdollisesti tehostaa datan visualisointia sekä parantaa kuvaajien laatua. Tulokset ovat linjassa aiempien tutkimusten tulosten kanssa.
This study aimed to find out how LLMs have been used, according to the literature in data visualization for graph creation tasks. In addition, the aim of the thesis was to increase the knowledge of how ChatGPT 4o-mini/4o limited use, Gemini Flash 1.5, and Llama 3 8B perform in creating Python codes to visualize data and how much they require prompting. The results, based on literature, show that LLMs could be used to enhance the performance of the creation of graphs and improve their quality.
In the empirical case study, all selected models showed performance in creating Python code for the purpose of data visualization. Considering the overall evaluation of all the graphs, ChatGPT showed the best overall performance, and Gemini took the second place. The models performed well in terms of the accuracy of data presentation. Details related to the clarity of the graphs presented some challenges. Results, taking into account the effort of prompting, suggest that using LLMs could potentially enhance data visualization tasks as well as improve the quality of graphs. In conclusion, the results of the empirical study are in line with the results of previous studies.
Tutkimuksen tavoitteena oli selvittää, miten laajoja kielimalleja on hyödynnetty datan visualisoinnissa. Lisäksi tavoitteena oli lisätä tietoa siitä, miten ChatGPT 4o-mini/4o limited use, Gemini Flash 1.5, ja Llama 3 8B suoriutuvat Python koodin luomisesta datan visualisoimiseksi, ja minkä verran mallit vaativat käskyttämistä. Aiemmissa tutkimuksissa on löydetty suuntaa antavia tuloksia, että laajat kielimallit voivat tehostaa kuvaajien luomista sekä parantaa niiden laatua.
Empiirisessä tapaustutkimuksessa kaikki valitut mallit suoriutuivat Python koodin luomisesta datan visualisoimiseksi. Kuvaajien yhteen vedetyn arvioinnin perusteella ChatGPT suoriutui parhaiten ja Gemini toiseksi parhaiten. Tietojen esittämisen tarkkuudessa mallit suoriutuivat pääosin hyvin. Yksityiskohdat liittyen kuvaajien selkeyteen tuottivat jonkin verran haasteita. Kokonainaisarvion perusteella, huomioiden myös vaadittu mallien käskyttäminen, laajojen kielimallien hyödyntäminen voisi mahdollisesti tehostaa datan visualisointia sekä parantaa kuvaajien laatua. Tulokset ovat linjassa aiempien tutkimusten tulosten kanssa.
