The Wizard : simple tool to benchmark capabilities of different large language models in technical debt finding and code remediation
Mäntysaari, Markku (2026)
Diplomityö
Mäntysaari, Markku
2026
School of Engineering Science, Tietotekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2026051142384
https://urn.fi/URN:NBN:fi-fe2026051142384
Tiivistelmä
This thesis investigates the effectiveness of AI-based software maintenance agent in identifying and remediating technical debt utilising Large Language Models. An artefact, The Wizard, was developed and evaluated across three iterative cycles using an Action Design Research approach. The study assesses capabilities of several Large Language Models on code, design and test debt, analysing performance across generation, integration and correctness stages. Results show that AI systems are highly capable of identifying technical debt and can partially achieve automated remediation, with effective fix rates exceeding 60% under improved orchestration. However, performance varies significantly depending on debt characteristics, model capabilities, and system design. Key limitations include challenges in reasoning about program behaviour, producing structurally valid outputs and ensuring functional correctness. The findings demonstrate that AI-based remediation is feasible but constrained and that effectiveness depends on both model selection and pipeline design. The research contributes a structured evaluation framework and highlights the need for hybrid, context-aware maintenance systems. Tämä opinnäytetyö tutkii tekoälypohjaisen agentin tehokkuutta ohjelmistojen teknisen velan tunnistamisessa ja korjaamisessa laajojen kielimallien avulla. Artefakti, Taikuri, kehitettiin ja arvioitiin kolmessa iteratiivisessa syklissä käyttäen Action Design Research -lähestymistapaa. Tutkimuksessa arvioidaan kielimallien kykyä havaita ja korjata koodi-, suunnittelu- ja testivelkaa analysoimalla niiden suorituskykyä korjauksen luonti-, integrointi- ja hyväksymisvaiheissa. Tulokset osoittavat, että tekoälyjärjestelmät pystyvät tunnistamaan teknisen velan erittäin hyvin ja voivat osittain automatisoida korjauksen. Kielimallia ohjeistamalla korjausprosentit ylittävät helposti 60 %. Suorituskyky vaihtelee kuitenkin merkittävästi teknisen velan ominaisuuksien, kielimallin ominaisuuksien ja järjestelmän suunnittelun mukaan. Keskeisiä rajoituksia ovat haasteet ohjelman käyttäytymisen päättelyssä, rakenteellisesti hyväksyttävien korjausten tuottamisessa ja toiminnallisen oikeellisuuden varmistamisessa. Tulokset osoittavat, että tekoälypohjainen korjaus on mahdollista, mutta rajoitettua, ja että tehokkuus riippuu sekä mallin valinnasta että prosessisuunnittelusta. Tutkimus luo arviointikehyksen ja korostaa hybridien, sisältötietoisten ylläpitojärjestelmien tarvetta.
