Predicting advertising spend and attributed sales of books using machine learning
Eronen, Eetu (2025)
Pro gradu -tutkielma
Eronen, Eetu
2025
School of Business and Management, Kauppatieteet
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025061971961
https://urn.fi/URN:NBN:fi-fe2025061971961
Tiivistelmä
This thesis addresses the challenge of forecasting daily advertising spend and attributed book sales within the Amazon Ads ecosystem, using advanced machine learning methodologies. Utilizing comprehensive data from a verified Amazon Ads partner agency, combined with contextual product data retrieved via the Keepa API, the research constructs predictive models leveraging historical advertising performance, book-specific attributes, and contextual variables. A robust predictive analytics workflow is implemented, evaluating multiple models – XGBoost, Random Forest, Long Short-Term Memory (LSTM), and Gated Recurrent Units (GRU) – against naïve carry-forward and ARIMA baselines. A Boruta-SHAP feature selection algorithm is implemented to identify the most promising features before model fitting.
The findings demonstrate that machine learning models, particularly GRU, consistently outperform the naïve model in forecasting both advertising spend and attributed sales overall. A notable observation was that due to the heavy imbalance of the sales data, none of the models could beat the simple naïve prediction among cases where the actual spend was positive. The neural models excelled at identifying the zero-sales cases. The incremental value of variables outside the target variable’s own history was also revealed to be very marginal for both prediction tasks. Tämä pro gradu -tutkielma käsittelee päivittäisten mainoskulujen ja mainoksille attribuoidun kirjamyynnin ennustamista koneoppimista hyodyntäen. Tutkimuksessa käytetään yhteistyössä toimineen mainostoimiston keräämää Amazon Ads -mainosalustan dataa, ja Keepa-rajapinnan kautta haettuja kontekstuaalisia tuotetietoja kirjoista. Näiden avulla rakennetaan ennustemalleja, jotka pohjautuvat aiemman mainonnan historialliseen suoriutumiseen, kirjakohtaisiin ominaisuuksiin ja muihin kontekstimuuttujiin. Työssä arvioidaan analyyttisesti useita malleja – XGBoost, Random Forest, Long Short-Term Memory (LSTM) ja Gated Recurrent Units (GRU) – vertaamalla niitä yksinkertaiseen naiiviin (“carry forward”) -malliin ja ARIMAan. Lupaavimmat selittävät muuttujat tunnistetaan ennen mallinnusta Boruta-SHAP-algoritmilla.
Tulokset osoittavat, että koneoppimismallit, erityisesti GRU, päihittävät naiivin vertailumallin sekä mainoskulujen että attribuoidun myynnin ennustamisessa kokonaisuudessaan. Merkittävä havainto on kuitenkin se, että myyntidatan voimakkaan epätasapainon vuoksi mikään malli ei kyennyt päihittämään yksinkertaista naiivia ennustetta niissä tapauksissa, joissa todellista myyntiä esiintyi. Neuroverkkomallit sen sijaan onnistuivat erinomaisesti nollamyyntitilanteiden tunnistamisessa. Lisäksi havaittiin, että tavoitemuuttujan oman historian ulkopuolisten muuttujien lisäarvo oli kummankin ennustetehtävän kannalta varsin marginaalinen.
The findings demonstrate that machine learning models, particularly GRU, consistently outperform the naïve model in forecasting both advertising spend and attributed sales overall. A notable observation was that due to the heavy imbalance of the sales data, none of the models could beat the simple naïve prediction among cases where the actual spend was positive. The neural models excelled at identifying the zero-sales cases. The incremental value of variables outside the target variable’s own history was also revealed to be very marginal for both prediction tasks.
Tulokset osoittavat, että koneoppimismallit, erityisesti GRU, päihittävät naiivin vertailumallin sekä mainoskulujen että attribuoidun myynnin ennustamisessa kokonaisuudessaan. Merkittävä havainto on kuitenkin se, että myyntidatan voimakkaan epätasapainon vuoksi mikään malli ei kyennyt päihittämään yksinkertaista naiivia ennustetta niissä tapauksissa, joissa todellista myyntiä esiintyi. Neuroverkkomallit sen sijaan onnistuivat erinomaisesti nollamyyntitilanteiden tunnistamisessa. Lisäksi havaittiin, että tavoitemuuttujan oman historian ulkopuolisten muuttujien lisäarvo oli kummankin ennustetehtävän kannalta varsin marginaalinen.