Tree-of-thoughts prompt engineering framework for financial analysis
Bragge, Joonas (2025)
Pro gradu -tutkielma
Bragge, Joonas
2025
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025072979842
https://urn.fi/URN:NBN:fi-fe2025072979842
Tiivistelmä
Large Language Models are increasingly capable of complex tasks and advanced reasoning. Use cases have been suggested for many high-stakes fields, such as law, medicine and finance. However, deploying these models for real world analytical tasks is still difficult and risky, as there are many considerations for model performance and result evaluation. Tasks also vary in context attributes, as for example legal documents often consist mainly of text data. Therefore, domain specificity is an important consideration, for example with business analytics tasks, where the context often consists mainly of structured numerical data.
This research aims to develop a prompting framework specifically for business analytics domain, and it uses a set of financial statements data from 110 Finnish SMEs to test the analytical consistency and performance of the OpenAI o3 model with a series of prompts compiled according to that framework. The results indicate that at best the analytical performance of the current models could be useful for real-world uses with well-developed prompt for the specific task. However, the results clearly show that human evaluation of the results cannot be bypassed when using the models.
This research emerged from the desire to develop low-threshold ways to adopt LLMs for recurrent and clearly structured analytics tasks, and to develop similarly low-threshold ways to evaluate and validate the model performance. The results of the thesis form a decent basis for such purposes. Kielimallit kykenevät yhä monimutkaisempiin tehtäviin ja kehittyneempään päättelyyn. Harkittuja käyttökohteita löytyy monilta merkittävien seurausten aloilta, kuten juridiikasta, lääketieteestä ja rahoituksesta. Mallien käyttöönotto oikean elämän analytiikkatehtävissä on kuitenkin yhä vaikeaa ja riskialtista, koska niiden suorituskykyyn ja tulosten arviointiin liittyy merkittäviä haasteita. Tehtävien datakontekstit vaihtelevat, esimerkiksi oikeudelliset asiakirjat ovat usein pääosin tekstiä, kun taas liiketoiminta-analytiikassa konteksti koostuu pääasiassa taulukoidusta numeerisesta datasta. Toimivat sovellutukset ovat siis hyvin alakohtaisia.
Tämä tutkimus pyrkii kehittämään nimenomaan liiketoiminta-analytiikkaan suunnitellun viitekehyksen kehotteille. Viitekehystä testattiin 110 suomalaisen pk-yrityksen tilinpäätösaineistolla, arvioiden OpenAI o3-mallin analyyttistä johdonmukaisuutta ja suorituskykyä sarjalla kyseisen viitekehyksen mukaisesti laadittuja kehotteita. Tulokset osoittavat, että parhaimmillaan nykyiset mallit voivat suorittaa oikeita analyysejä hyödynnettävällä tasolla, kun kehotteet on huolellisesti räätälöity kyseiseen tehtävään. Samalla tulokset kuitenkin korostavat, ettei ihmisen tekemää arviointia voida sivuuttaa kielimalleja käytettäessä.
Tutkimus sai alkunsa halusta kehittää matalan kynnyksen tapoja ottaa kielimalleja käyttöön toistuvissa ja selkeästi jäsennellyissä analytiikkatehtävissä sekä luoda vastaavasti matalan kynnyksen menetelmiä mallien suorituskyvyn arviointiin ja todentamiseen. Tutkimuksen tulokset muodostavat kohtuullisen lähtökohdan näihin tarkoituksiin.
This research aims to develop a prompting framework specifically for business analytics domain, and it uses a set of financial statements data from 110 Finnish SMEs to test the analytical consistency and performance of the OpenAI o3 model with a series of prompts compiled according to that framework. The results indicate that at best the analytical performance of the current models could be useful for real-world uses with well-developed prompt for the specific task. However, the results clearly show that human evaluation of the results cannot be bypassed when using the models.
This research emerged from the desire to develop low-threshold ways to adopt LLMs for recurrent and clearly structured analytics tasks, and to develop similarly low-threshold ways to evaluate and validate the model performance. The results of the thesis form a decent basis for such purposes.
Tämä tutkimus pyrkii kehittämään nimenomaan liiketoiminta-analytiikkaan suunnitellun viitekehyksen kehotteille. Viitekehystä testattiin 110 suomalaisen pk-yrityksen tilinpäätösaineistolla, arvioiden OpenAI o3-mallin analyyttistä johdonmukaisuutta ja suorituskykyä sarjalla kyseisen viitekehyksen mukaisesti laadittuja kehotteita. Tulokset osoittavat, että parhaimmillaan nykyiset mallit voivat suorittaa oikeita analyysejä hyödynnettävällä tasolla, kun kehotteet on huolellisesti räätälöity kyseiseen tehtävään. Samalla tulokset kuitenkin korostavat, ettei ihmisen tekemää arviointia voida sivuuttaa kielimalleja käytettäessä.
Tutkimus sai alkunsa halusta kehittää matalan kynnyksen tapoja ottaa kielimalleja käyttöön toistuvissa ja selkeästi jäsennellyissä analytiikkatehtävissä sekä luoda vastaavasti matalan kynnyksen menetelmiä mallien suorituskyvyn arviointiin ja todentamiseen. Tutkimuksen tulokset muodostavat kohtuullisen lähtökohdan näihin tarkoituksiin.
