Reinforcement learning in multi-mirror adaptive optics
Krokberg, Tomi (2022)
Diplomityö
Krokberg, Tomi
2022
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022081555333
https://urn.fi/URN:NBN:fi-fe2022081555333
Tiivistelmä
When imaging astronomical objects from the earth, the turbulent air in the atmosphere causes perturbations to the wavefront of the arriving light. This can then be seen as a blur in the final images. These perturbations can be minimised by using an adaptive optics system, where they are corrected in real time by using special deformable mirrors. These systems are crucial in exoplanet imaging, where the imaged object can be right next to an object a billion times brighter. The light from this nearby object is blocked using an instrument called a coronagraph. However, any perturbations left at the arriving wavefront cause the light from this brighter object to partly miss the block, causing it to leak into the final image and possibly washing out the planet's light. This leads to a situation where the performance of the adaptive optics system is the limiting factor in the imaging quality, with control algorithms playing a major role. While traditional control algorithms have proven to be quite effective in minimising these perturbations, with the rise of popularity in data-based learning methods, the interests have been shifting towards machine learning. Especially reinforcement learning has been an interesting subject of research, as it only requires a criterion of optimality for the presented solution to be known, rather than the actual solution required by supervised learning methods. This property allows the algorithm to explore and discover optimal control strategies by itself. In this thesis, a reinforcement learning based control algorithm is implemented on a dual mirror adaptive optics system designed for exoplanet imaging. It is also shown to outperform an optimised traditional integrator controller under tested conditions. Maanpinnalta tapahtuvassa taivaankappaleiden kuvaamisessa turbulenttinen ilmakehä aiheuttaa vääristymiä saapuvan valon aaltorintamiin. Tämä näkyy kuvissa kohteiden sumentumisena. Tätä ongelmaa voidaan korjata reaaliajassa käyttämällä adaptiivista optiikkaa, joka hyödyntää muotoiltavia peilejä vääristymien korjaamiseen. Nämä ratkaisut ovat erityisen tärkeitä eksoplaneetoiden kuvaamisessa, joissa planeetta sijaitsee usein jopa miljardi kertaa kirkkaamman tähden vieressä. Tämän kirkkaamman tähden valo voidaan estää käyttämällä koronagraafia. Silti, pienetkin ilmakehän aiheuttamat vääristymät johtavat siihen että osa kirkkaamman tähden valosta ohittaa tämän esteen, jolloin eksoplaneetan valo voi peittyä kuvassa tämän alle. Tästä johtuen adaptiivisen optiikan suorituskyky onkin usein kuvanlaadun rajoittava tekijä, jossa käytetyt kontrollimenetelmät ovat merkittävässä roolissa. Vaikka perinteiset kontrollimenetelmät ovat osoittaneet hyviä tuloksia, on huomio viime aikoina keskittynyt datapohjaisiin koneoppimismenetelmiin. Erityisesti vahvistusoppimismentelmät ovat kiinnittäneet huomiota, sillä niiden ohjaamiseen tarvitsee arvioida vain lopputuloksen hyvyyttä, ilman että valmista ratkaisua tarvitsisi tietää. Tämä tarkoittaa että ne voivat itse tutkia ja oppia optimaalisia kontrollistrategioita. Tässä työssä esitellään vahvistusoppimiseen perustuva kontrollialgoritmi, joka on implementoitu eksoplaneetoiden kuvantamiseen suunnitellulle kahden peilin systeemille. Tämän systeemin osoitetaan myös suoriutuvan perinteistä integraattoriohjainta paremmin testatuissa olosuhteissa.