Interactive document summarizer using LLM technology
Malinen, Esko (2024)
Diplomityö
Malinen, Esko
2024
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024040815263
https://urn.fi/URN:NBN:fi-fe2024040815263
Tiivistelmä
The development of large language models and generative AI has been astonishingly fast during the last years. ChatGPT published by OpenAI in 2022 finally brought these technologies visible to the public, although the research has been ongoing for decades in science communities. Generative AI is one of the hottest topics in technology and as such offers interesting topics for a design science research.
This master’s thesis delves into properties and usage of large language models and generative AI, as well as properties of Retrieval Augmented Generation and the possibilities it offers. As the practical part of thesis, a software application capable of interactive discussions in the context of given documents is implemented using modern development tools and environments. The resulting application of the development is tested with suitable test material and compared to existing applications with similar functionality, analyzing the test results.
The chosen implementation method successfully produced an application comparable to commercial solutions. This application can summarize even lengthy documents into clear, concise text and answer proposed questions with accurate and relevant information. While response times are currently slower than ideal, this can be attributed to the used low service level on the integrated external services. Future optimization efforts can focus on improving response speed and comparing use of different language models. Laajojen kielimallien ja generatiivisen tekoälyn kehitys on ollut viime vuosina huiman nopeaa. OpenAI:n vuonna 2022 julkaisema ChatGPT toi nämä teknologiat laajan yleisön tietoisuuteen, joskin tekoälytutkimusta on tehty tiedeyhteisöissä vuosikymmeniä. Generatiivinen tekoäly on yksi suurimpia teknologia-alan puheenaiheita tällä hetkellä, joten se myös tarjoaa kiinnostavia aiheita suunnittelututkimuksen kaltaiselle opinnäytetyölle.
Tässä diplomityössä perehdytään generatiivisen tekoälyn ja laajojen kielimallien ominaisuuksiin ja käyttöön, sekä Retrieval Augmented Generation -arkkitehtuurin (RAG) teoriaan sekä sen tarjoamiin mahdollisuuksiin. Käytännön osuutena toteutetaan annetussa dokumenttikontekstissa interaktiiviseen keskusteluun kykenevä ohjelmisto käyttäen moderneja kehitystyökaluja ja -ympäristöjä. Toteutustyön tuloksena syntynyttä sovellusta testataan sopivalla aineistolla, verrataan saatavilla oleviin vastaaviin sovelluksiin ja analysoidaan tuloksia.
Testitulokset osoittavat, että valitulla toteutustavalla pystytään tuottamaan kaupallisten työkalujen veroinen interaktiivinen kysymys-vastaus -sovellus, joka pystyy referoimaan pitkänkin dokumentin sisällön helppolukuiseksi tekstiksi ja vastaamaan annettuihin kysymyksiin faktapohjaisesti ja järkevästi. Vastausten hitaus nousee piirteenä esille, mutta tämän voidaan nähdä paljolti johtuvan ulkoisten palveluiden matalasta palvelutasosta, joka valittiin kustannussyistä. Jatkokehityksessä on syytä paneutua vastausnopeuden parantamiseen ja eri kielimallien ominaisuuksien vertailuun.
This master’s thesis delves into properties and usage of large language models and generative AI, as well as properties of Retrieval Augmented Generation and the possibilities it offers. As the practical part of thesis, a software application capable of interactive discussions in the context of given documents is implemented using modern development tools and environments. The resulting application of the development is tested with suitable test material and compared to existing applications with similar functionality, analyzing the test results.
The chosen implementation method successfully produced an application comparable to commercial solutions. This application can summarize even lengthy documents into clear, concise text and answer proposed questions with accurate and relevant information. While response times are currently slower than ideal, this can be attributed to the used low service level on the integrated external services. Future optimization efforts can focus on improving response speed and comparing use of different language models.
Tässä diplomityössä perehdytään generatiivisen tekoälyn ja laajojen kielimallien ominaisuuksiin ja käyttöön, sekä Retrieval Augmented Generation -arkkitehtuurin (RAG) teoriaan sekä sen tarjoamiin mahdollisuuksiin. Käytännön osuutena toteutetaan annetussa dokumenttikontekstissa interaktiiviseen keskusteluun kykenevä ohjelmisto käyttäen moderneja kehitystyökaluja ja -ympäristöjä. Toteutustyön tuloksena syntynyttä sovellusta testataan sopivalla aineistolla, verrataan saatavilla oleviin vastaaviin sovelluksiin ja analysoidaan tuloksia.
Testitulokset osoittavat, että valitulla toteutustavalla pystytään tuottamaan kaupallisten työkalujen veroinen interaktiivinen kysymys-vastaus -sovellus, joka pystyy referoimaan pitkänkin dokumentin sisällön helppolukuiseksi tekstiksi ja vastaamaan annettuihin kysymyksiin faktapohjaisesti ja järkevästi. Vastausten hitaus nousee piirteenä esille, mutta tämän voidaan nähdä paljolti johtuvan ulkoisten palveluiden matalasta palvelutasosta, joka valittiin kustannussyistä. Jatkokehityksessä on syytä paneutua vastausnopeuden parantamiseen ja eri kielimallien ominaisuuksien vertailuun.
