Empirical cumulative distribution functions for calibrating random processes
Rajaniemi, Veeti (2024)
Kandidaatintyö
Rajaniemi, Veeti
2024
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024051329458
https://urn.fi/URN:NBN:fi-fe2024051329458
Tiivistelmä
Empirical cumulative distribution function (eCDF) method can be used to identify the initialparameters of mathematical models which include randomness. This thesis introduces the eCDF method and the ecdf_estimator Python package which uses the method in practice. Jupyter Notebook user manuals demonstrating the usage of the package can be found here.
We clarify that the package works well with normal distribution data in different simplified situations. We identify standard deviation and mean parameters individually with one known parameter, as well as jointly, without prior knowledge of either. Both standard and bootstrap eCDF methods are used in their normal way and with synthetic likelihood.
We noted that the individual parameters can be well identified with all methods when using optimal training data size, subset sizes and distance function. Mean parameter was proved to be more challenging to identify than deviation parameter. When jointly identifying both parameters, the reliability of the results diminishes. The package works well for evaluating both integers and more parameter values within a continuous range. Empiiristen kumulatiivisten jakaumafunktioiden (eCDF) avulla voidaan tunnistaa satunnaisuutta sisältävien matemaattisten mallien alkuperäisiä parametreja. Tämä opinnäytetyö esittelee näitä funktioita käyttävän eCDF-metodin sekä ecdf_estimator -Python-kirjaston, joka hyödyntää metodia käytännössä. Kirjaston käyttöä opastamaan tehdyt Jupyter Notebook -käyttöohjeet löytyvät täältä.
Kirjaston toimiminen todennetaan normaalijakautuneella datalla erilaisissa tilanteissa sekä tavallisella eCDF-metodilla että niin kutsutulla bootstrap-metodilla. Sekä keskiarvo- että keskihajontaparametria pyritään tunnistamaan. Osassa tilanteista toinen parametri on tunnettu, mutta myös kahden parametrin estimointia testataan molempien ollessa alkuun tuntemattomia.
Kaikki metodit todettiin toimiviksi, kun käytettiin sopivaa opetusdatan ja otosjoukkojen kokoa sekä tilanteeseen soveltuvaa etäisyysfunktiota. Keskiarvon todettiin olevan keskihajontaa vaikeammin estimoitava parametri. Kun molemmat parametreista olivat alkuun tuntemattomia, saadut tulokset eivät olleet yhtä luotettavia kuin yhtä parametria estimoitaessa. Havaittiin, että kirjasto toimii pelkkien kokonaislukujen testauksen lisäksi myös silloin, kun testataan tietyllä välillä useampia arvoja.
We clarify that the package works well with normal distribution data in different simplified situations. We identify standard deviation and mean parameters individually with one known parameter, as well as jointly, without prior knowledge of either. Both standard and bootstrap eCDF methods are used in their normal way and with synthetic likelihood.
We noted that the individual parameters can be well identified with all methods when using optimal training data size, subset sizes and distance function. Mean parameter was proved to be more challenging to identify than deviation parameter. When jointly identifying both parameters, the reliability of the results diminishes. The package works well for evaluating both integers and more parameter values within a continuous range.
Kirjaston toimiminen todennetaan normaalijakautuneella datalla erilaisissa tilanteissa sekä tavallisella eCDF-metodilla että niin kutsutulla bootstrap-metodilla. Sekä keskiarvo- että keskihajontaparametria pyritään tunnistamaan. Osassa tilanteista toinen parametri on tunnettu, mutta myös kahden parametrin estimointia testataan molempien ollessa alkuun tuntemattomia.
Kaikki metodit todettiin toimiviksi, kun käytettiin sopivaa opetusdatan ja otosjoukkojen kokoa sekä tilanteeseen soveltuvaa etäisyysfunktiota. Keskiarvon todettiin olevan keskihajontaa vaikeammin estimoitava parametri. Kun molemmat parametreista olivat alkuun tuntemattomia, saadut tulokset eivät olleet yhtä luotettavia kuin yhtä parametria estimoitaessa. Havaittiin, että kirjasto toimii pelkkien kokonaislukujen testauksen lisäksi myös silloin, kun testataan tietyllä välillä useampia arvoja.