α-stabiilien bayesilaisten neuroverkkojen teoreettiset ominaisuudet
Eskelinen, Elias (2024)
Kandidaatintyö
Eskelinen, Elias
2024
School of Engineering Science, Laskennallinen tekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe202501287451
https://urn.fi/URN:NBN:fi-fe202501287451
Tiivistelmä
Bayesilaiset neuroverkot (BNN) tarjoavat viitekehyksen epävarmuuden mallintamiseen syväoppimisessa soveltamalla bayesilaisen oppimisen periaatteita oppimisprosessiin. Bayesilaisessa oppimisessa pyritään mallintamaan tutkittavan ilmiön todennäköisyysjakaumaa posteriorijakaumalla, joka päätellään priorijakaumasta koulutusdatan perusteella. Priorijakauman huolellinen määritteleminen on tärkeää tehokkaan oppimisen varmistamiseksi; sen tulee kuvata uskomuksia mallinnettavasta ilmiöstä ennen datan tarkastelua. Gaussiset jakaumat ovat tavallinen valinta priorijakaumaksi. On osoitettu, että äärettömän leveä BNN gaussisilla prioreilla suppenee gaussiseksi prosessiksi, joka on tunnetusti tehokas työkalu koneoppimisessa. Gaussiset priorit eivät kuitenkaan sovellu kaikkien ongelmien mallintamiseen. α-stabiilit jakaumat mahdollistavat suuren varianssin raskashäntäiset jakaumat, joilla ääriarvojen saaminen on verrattain todennäköistä. Tästä syystä ne soveltuvat gaussisia jakaumia paremmin tiettyjen luonnonilmiöiden ja taloudellisten ilmiöiden mallintamiseen. Tässä tutkimuksessa tarkastellaan symmetristen α-stabiilien jakaumien käyttöä priorijakaumina äärettömän leveissä BNN:ssa, ja tutkitaan prosesseja, joita tällaiset neuroverkot tuottavat. Työssä esitellään α-stabiili jakauma ja α-stabiili stokastinen prosessi, sekä tutustutaan bayesilaisiin neuroverkkoihin ja niiden prioreihin. Kokeellisissa tuloksissa esitellään prosessien realisaatioita, jotka on tuotettu äärettömän leveitä neuroverkkoja approksimoivilla α-stabiileilla BNN:lla. Tuloksista nähdään, että stabiiliusparametria α ja skaalausparametria γ säätämällä voidaan tuottaa prosesseja, jotka sisältävät suuria epäjatkuvuuksia. Lisäksi tuloksista voidaan nähdä, miten kerrosten lukumäärä ja piilotettujen kerroksien yksiköissä käytettyjen aktivointifunktioiden valinta voivat vaikuttaa prosesseihin. Bayesian Neural Networks (BNNs) offer a framework for modeling uncertainty in deep learning by applying the principles of Bayesian learning to the learning process. In Bayesian learning, the goal is to model the probability distribution of the problem with a posterior distribution inferred from a prior distribution by looking at training data. The choice of prior distribution is critical to ensure efficient learning; it should represent beliefs about the problem before looking at the data. A usual choice for the prior distribution is the Gaussian distribution. It has been shown that an infinitely wide BNN with Gaussian priors converges to a Gaussian process, which is a well-studied and powerful tool in the context of machine learning. However, Gaussian priors are not optimal for every problem. α-stable distributions enable heavy-tailed distributions with large variance, meaning that extreme values are comparatively probable. For this reason, these distributions are better at modeling certain natural and financial phenomena than Gaussian distributions. This study examines the use of symmetric α-stable distributions as priors in infinitely wide BNNs and explores which kinds of processes these networks produce. The study introduces α-stable distributions, α-stable processes, and Bayesian neural networks along with their priors. Experimental results present realizations from α-stable BNNs that approximate infinitely wide networks. Results show that by adjusting the stability index α and scaling parameter γ, processes with large discontinuities can be achieved. Additionally, the results highlight how the number of layers and the choice of activation functions in the hidden units can influence the processes.
