Discovering bias in a generative artificial intelligence model
Känsälä, Joonas (2025)
Diplomityö
Känsälä, Joonas
2025
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20251215119786
https://urn.fi/URN:NBN:fi-fe20251215119786
Tiivistelmä
GenAI has realized and unrealized potential and there is a widespread interest in implementing it in a way it would improve the speed and quality of services provided to the clients. LLM-based GenAI gathers its training data from various external sources created by human effort. This introduces the problem of bias. Bias is usually negative and can be harmful towards people via discrimination, offensive content, prejudice, and can show signs of violation. Bias can be based on individual’s age, race, gender, education, place of employment, location, and language proficiency. The goal of this thesis is to discover bias in LLM-based GenAI model by identifying why there is bias in GenAI models, how bias manifests itself in a GenAI model, how bias can be mitigated, and what types of outputs can be considered biased. To achieve these goals, a scenario-based approach is used where a recruitment team receives many applications for a posted job description. The GenAI output is assessed manually and by using scripts. In this thesis the results are gone through, and topics of further research are proposed. GenAI (generoiva tekoäly) sisältää havaittuja ja havaitsemattomia mahdollisuuksia ja on havaittu, että se mahdollisesti tehostaa asiakkaille kohdistettua palvelua. LLM-pohjainen GenAI käyttää itsensä kouluttamiseen dataa, joka saadaan ulkoisista lähteistä inhimillisin tavoin. Tämä ilmiö johtaa harhoihin GenAIn tuottamissa vastauksissa. Harhat mielletään usein negatiivisiksi ilmiöiksi ja voivat olla vahingollisia ihmisiä kohtaan syrjimisen, loukkaavan sisällön, ennakkoluuloisuuden ja loukkauksien merkeissä. Harhat voivat pohjautua yksilön ikään, rotuun, sukupuoleen, koulutukseen, työpaikaan, sijaintiin ja kielitaitoon. Tämän opinnäytetyön tavoitteena on havaita harhoja LLM-pohjaisesta GenAI mallista tunnistamalla miksi GenAI malleissa on harhoja, miten harhat ilmenevät GenAI mallissa, miten harhoja voidaan estää ja minkä tyyppisiä vastauksia voidaan määritellä sisältävän harhaa. Näiden tavoitteiden saavuttamiseksi määriteltiin tilannepohjainen lähestymistapa, missä rekrytointitiimi vastaanottaa useita hakemuksia julkaistuun työkuvaukseen. GenAI arvioidaan manuaalisesti ja skriptien avulla. Tässä opinnäytetyössä tulokset käydään läpi ja ehdotetaan jatkotutkimusaiheita.
