Deep reinforcement learning for option hedging with actor-critic methods
Malm, Eelis (2025)
Pro gradu -tutkielma
Malm, Eelis
2025
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20251217121413
https://urn.fi/URN:NBN:fi-fe20251217121413
Tiivistelmä
This thesis studies the use of multiple actor-critic deep reinforcement learning (DRL) algorithms, namely DDPG, TD3, SAC, and TQC, for options hedging when proportional transaction costs are present. The synthetic data in numerical experiments was generated by geometric Brownian motion (GBM). DDPG, TD3, and SAC were evaluated in two different settings: standard volatility and high volatility. In each setting, they were tested with three levels of proportional transaction costs: none, moderate and high, and compared to the Black-Scholes-Merton (BSM) delta-hedging strategy. The performance was compared with the mean and standard deviation of episode reward P&L.
In this thesis, a state-of-the-art algorithm, TQC, is introduced for options hedging, which, to the author’s best knowledge, has not been previously used. DDPG, TD3, and SAC are benchmarked against TQC across two of the most demanding environments: standard volatility with high transaction costs and high volatility with high transaction costs. An attempt was also made to compare the performance of deep reinforcement learning algorithms with limited data on the S&P 500 using a single SPX option data from 2020 to 2023.
The findings showed that the TQC algorithm outperforms DDPG, TD3, and SAC in the mean episode reward P&L when both volatility and transaction costs are high, and had the second-lowest standard deviation in episode reward P&L. Results on TD3 were consistent with previous findings, as it performs better than the BSM delta-hedging strategy when uncertainty in the environment is high. Empirical tests confirmed that deep reinforcement learning agents do not learn properly without a large amount of data. Tässä pro gradu -tutkielmassa tutkitaan useiden toimija-kriitikko (actor-critic) syvävahvistusoppimisen (deep reinforcement learning) algoritmien, DDPG, TD3, SAC ja TQC käyttöä optioiden suojauksessa transaktiokustannusten ollessa läsnä. Numeeristen testien synteettinen data luotiin geometrisella Brownin liikkeellä (GBM). DDPG, TD3 ja SAC arvioitiin kahdessa eri ympäristössä: normaali markkinavolatiliteetti ja korkea volatiliteetti. Kummassakin ympäristössä niitä testattiin kolmella transaktiokustannusten tasolla: ei kustannuksia, keskitason kustannukset ja korkeat kustannukset. Suoriutumista verrattiin Black-Scholes-Merton (BSM) delta-suojausstrategiaan. Suorituskykyä arvioitiin episodipalkkion P&L (profit-and-loss) keskiarvoon ja keskihajontaan.
Tässä tutkielmassa esitellään TQC algoritmi optioiden suojaukseen, jota ei parhaan tietämyksen mukaan ole aiemmin käytetty optiosuojauksessa. DDPG, TD3 ja SAC verrataan TQC algoritmiin kahdessa volatiliteettiympäristössä, joissa molemmissa on korkeat transaktiokustannukset. Tutkielmassa yritettiin myös verrata algoritmien suorituskykyä S&P 500 -dataan käyttämällä yhden SPX-optiodatan tietoja vuosilta 2020–2023.
Tulokset osoittivat TQC algoritmin suoriutuvan paremmin kuin DDPG, TD3 ja SAC episodipalkkioiden P&L keskiarvoissa, kun sekä volatiliteetti että transaktiokustannukset ovat korkeat. Lisäksi sillä oli toiseksi pienin keskihajonta episodipalkkioiden P&L:ssa. TD3 tulokset olivat yhdenmukaisia aiempien tutkimusten kanssa, sillä se suoriutui paremmin kuin BSM delta-suojausstrategia ympäristön epävarmuuden ollessa korkea. Empiiriset testit vahvistivat, että syvävahvistusoppimisagentit eivät opi kunnolla ilman suurta määrää dataa.
In this thesis, a state-of-the-art algorithm, TQC, is introduced for options hedging, which, to the author’s best knowledge, has not been previously used. DDPG, TD3, and SAC are benchmarked against TQC across two of the most demanding environments: standard volatility with high transaction costs and high volatility with high transaction costs. An attempt was also made to compare the performance of deep reinforcement learning algorithms with limited data on the S&P 500 using a single SPX option data from 2020 to 2023.
The findings showed that the TQC algorithm outperforms DDPG, TD3, and SAC in the mean episode reward P&L when both volatility and transaction costs are high, and had the second-lowest standard deviation in episode reward P&L. Results on TD3 were consistent with previous findings, as it performs better than the BSM delta-hedging strategy when uncertainty in the environment is high. Empirical tests confirmed that deep reinforcement learning agents do not learn properly without a large amount of data.
Tässä tutkielmassa esitellään TQC algoritmi optioiden suojaukseen, jota ei parhaan tietämyksen mukaan ole aiemmin käytetty optiosuojauksessa. DDPG, TD3 ja SAC verrataan TQC algoritmiin kahdessa volatiliteettiympäristössä, joissa molemmissa on korkeat transaktiokustannukset. Tutkielmassa yritettiin myös verrata algoritmien suorituskykyä S&P 500 -dataan käyttämällä yhden SPX-optiodatan tietoja vuosilta 2020–2023.
Tulokset osoittivat TQC algoritmin suoriutuvan paremmin kuin DDPG, TD3 ja SAC episodipalkkioiden P&L keskiarvoissa, kun sekä volatiliteetti että transaktiokustannukset ovat korkeat. Lisäksi sillä oli toiseksi pienin keskihajonta episodipalkkioiden P&L:ssa. TD3 tulokset olivat yhdenmukaisia aiempien tutkimusten kanssa, sillä se suoriutui paremmin kuin BSM delta-suojausstrategia ympäristön epävarmuuden ollessa korkea. Empiiriset testit vahvistivat, että syvävahvistusoppimisagentit eivät opi kunnolla ilman suurta määrää dataa.
