Identifying performance thresholds in modern OLAP databases
Haapanen, Johannes (2026)
Diplomityö
Haapanen, Johannes
2026
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2026051949543
https://urn.fi/URN:NBN:fi-fe2026051949543
Tiivistelmä
The thesis work evaluates the features and performance thresholds of DuckDB in the context of replacing Apache Spark for analytical workloads. Apache Spark is a well established a software made for distributed data processing. However, it consumes relatively large amounts of system memory and as such makes it difficult to run with limited hardware resources. DuckDB is embedded analytical database system which does have overlapping feature set with Apache Spark but doesn’t scale in a predictable manner despite being much lighter to use in regards of system resources. Both tools have ideal use cases and the decision to use one or the other heavily depends on the use case. Tämä opinnäytetyö tarkastelee DuckDB:n ominaisuuksia ja suorituskyvyn rajoja Apache Sparkin korvaamisen kontekstissa. Apache Spark on laajalti käytetty ohjelmisto, jolla käsitellään informaatiota hajautetusti. Se kuitenkin vaatii suuria määriä keskusmuistia, joka tekee sen käyttämisestä hankalaa ympäristöissä joissa on vähän resursseja. DuckDB on sulautettu analyyttinen tietokanta järjestelmä, jolla on osittain samoja ominaisuuksia kuin Apache Spark:lla. DuckDB:n skaalautuminen on vaikeasti ennustettavissa, vaikka se vaatiikin huomattavasti vähemmän järjestelmäresursseja. Molemmilla työkaluilla on ideaalit käyttötapaukset mutta valinta työkalujen välillä riippuu suuresti käyttötapauksesta itsestään
