Toward algorithm-based sell-side equity analyst storytelling
Laurila, Roope (2024)
Diplomityö
Laurila, Roope
2024
School of Engineering Science, Tuotantotalous
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024052737138
https://urn.fi/URN:NBN:fi-fe2024052737138
Tiivistelmä
Investment banks’ research departments play a crucial role in facilitating securities transactions mainly through analytical reports, which face growing demand for quality and frequency due to investment democratization and competition. The objective of this master’s thesis was to survey and synthesize a framework for the qualitative aspects of equity research, as well as to subsequently select a use case from the framework to design, develop and test an end-to-end natural language processing (NLP) solution leveraging state-of-the-art large language models (LLMs). This thesis was commissioned by a bank.
Applying the design science research (DSR) methodology, the study first mapped the data sources, fundamental analysis, reporting guidelines and narrative building deployed by sellside analysts by conducting a literature review and interviews. Secondly, a theoretical overview of text-to-text NLP was performed using recent literature. Lastly, these areas were combined to program a GPT-based technological artifact in an iterative manner with a use case to analyze risks from corporate reports of publicly listed Finnish companies.
Findings of the study note qualitative analysis and storytelling as being relatively unexplored areas especially from a process management perspective, as a part of equity research largely relies on tacit and private knowledge as well as nuanced reasoning and ways of working. Nonetheless, an abundance of data with established structure exists in its written materials. Retrieval-augmented generation (RAG) technology stood out as a promising addition to domain-specific LLM document processing tasks based on evaluation results. Numerous opportunities for further research exist for this research problem as the banking industry and said technology are undergoing a major transition. Investointipankkien tutkimusosastot ovat keskeisiä toimijoita arvopaperikaupan fasilitoinnissa muun muassa analyysiraporttiensa avulla, joiden laatuun ja määrään kohdistuu kasvavaa painetta sijoittamisen demokratisoitumisen ja kilpailun vuoksi. Tämän pankille tehdyn diplomityön tavoitteena oli tutkia ja luoda viitekehys osakeanalyysin laadulliselle puolelle, ja valita sieltä käyttötapaus, jolle suunniteltiin, kehitettiin ja testattiin luonnollisen kielen käsittelyn (NLP) ratkaisu, joka hyödyntää suurten kielimallien (LLM) teknologiaa.
Tutkimuksessa sovellettiin konstruktiivista tutkimusta (DSR), jossa ensin kartoitettiin myyntipuolen analyytikoiden tietolähteitä, fundamenttianalyysiä, raportoinnin sääntöjä ja narratiivin muodostamista suorittamalla kirjallisuuskatsaus ja haastatteluja. Toiseksi tekstiä tuottavasta NLP-käytännöistä tehtiin teoreettinen yleiskatsaus käyttäen ajankohtaista kirjallisuutta. Lopuksi nämä alueet yhdistettiin ohjelmoimalla iteratiivisesti GPT-pohjainen teknologinen artefakti, missä valittuna käyttötapauksena analysoitiin pörssiyhtiöiden riskejä niiden yritysraportteja käyttäen.
Tutkimustulokset nostavat esille laadullisen analyysin ja tarinankerronnan tutkimattomuuden erityisesti prosessinhallinnan näkökulmasta, sillä osa osaketutkimuksesta nojaa pitkälti hiljaiseen ja yksityiseen tietoon, sekä nyansoituneeseen päättelyyn ja työskentelytapoihin. Siitä huolimatta runsaasti dataa vakiintuneella rakenteella esiintyy alan materiaaleissa. Tulosten perusteella RAG-teknologia erottui lupaavana lisänä alakohtaisiin LLM-pohjaisiin dokumentinkäsittelytehtäviin. Nykyiseen tutkimusongelmaan liittyy lukuisia oljenkorsia jatkotutkimukselle, sillä sekä pankkitoimiala että kyseinen teknologia ovat murrosvaiheessa.
Applying the design science research (DSR) methodology, the study first mapped the data sources, fundamental analysis, reporting guidelines and narrative building deployed by sellside analysts by conducting a literature review and interviews. Secondly, a theoretical overview of text-to-text NLP was performed using recent literature. Lastly, these areas were combined to program a GPT-based technological artifact in an iterative manner with a use case to analyze risks from corporate reports of publicly listed Finnish companies.
Findings of the study note qualitative analysis and storytelling as being relatively unexplored areas especially from a process management perspective, as a part of equity research largely relies on tacit and private knowledge as well as nuanced reasoning and ways of working. Nonetheless, an abundance of data with established structure exists in its written materials. Retrieval-augmented generation (RAG) technology stood out as a promising addition to domain-specific LLM document processing tasks based on evaluation results. Numerous opportunities for further research exist for this research problem as the banking industry and said technology are undergoing a major transition.
Tutkimuksessa sovellettiin konstruktiivista tutkimusta (DSR), jossa ensin kartoitettiin myyntipuolen analyytikoiden tietolähteitä, fundamenttianalyysiä, raportoinnin sääntöjä ja narratiivin muodostamista suorittamalla kirjallisuuskatsaus ja haastatteluja. Toiseksi tekstiä tuottavasta NLP-käytännöistä tehtiin teoreettinen yleiskatsaus käyttäen ajankohtaista kirjallisuutta. Lopuksi nämä alueet yhdistettiin ohjelmoimalla iteratiivisesti GPT-pohjainen teknologinen artefakti, missä valittuna käyttötapauksena analysoitiin pörssiyhtiöiden riskejä niiden yritysraportteja käyttäen.
Tutkimustulokset nostavat esille laadullisen analyysin ja tarinankerronnan tutkimattomuuden erityisesti prosessinhallinnan näkökulmasta, sillä osa osaketutkimuksesta nojaa pitkälti hiljaiseen ja yksityiseen tietoon, sekä nyansoituneeseen päättelyyn ja työskentelytapoihin. Siitä huolimatta runsaasti dataa vakiintuneella rakenteella esiintyy alan materiaaleissa. Tulosten perusteella RAG-teknologia erottui lupaavana lisänä alakohtaisiin LLM-pohjaisiin dokumentinkäsittelytehtäviin. Nykyiseen tutkimusongelmaan liittyy lukuisia oljenkorsia jatkotutkimukselle, sillä sekä pankkitoimiala että kyseinen teknologia ovat murrosvaiheessa.
