Analysis and implementation of web scrapers
Malinen, Tom (2025)
Kandidaatintyö
Malinen, Tom
2025
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2025042530785
https://urn.fi/URN:NBN:fi-fe2025042530785
Tiivistelmä
The creation of the internet was in 1969. Since then, the amount of data available online has reached near unfathomable amounts. Nowadays there are many tools available to gather this information, such as web scrapers.
How could someone implement a web scraper and how does it compare to other data collection tools? This thesis aims to answer the questions through comprehensive literature analysis. In addition, an implemented web scraper will provide hands-on insight into how a web scraper functions in the modern landscape of the internet.
The thesis highlights how web scrapers function and what possible restrictions they face in modern times. With analysis of other works, web scrapers are shown to be more versatile and thorough than other data collection tools but are held back by restrictions placed by website owners. The implemented web scraper successfully shows how to implement a web scraper and gives insight into how one could make their own personal web scraper. Internet luotiin vuonna 1969. Siitä lähtien verkossa saatavilla olevan datan määrä on kasvanut lähes käsittämättömään määrään. Nykyään on olemassa monia työkaluja tämän tiedon keräämiseen, kuten verkonharavointiohjelmat.
Kuinka joku voisi aloittaa verkonharavoinnin ja miten se vertautuisi muihin datan keräystyökaluihin? Tämän opinnäytetyön tavoite on vastata kysymyksiin kattavan kirjallisuusanalyysin avulla. Lisäksi toteutettu verkonharavointiohjelma tarjoaa käytännön käsityksen verkonharavointiohjelmien toiminnasta nykyaikaisessa internetin maisemassa.
Tämä opinnäytetyö korostaa, kuinka verkonharavointiohjelmat toimivat ja mitä mahdollisia rajoituksia ne kohtaavat nykyaikana. Muiden akateemisten töiden analyysissä verkonharavointiohjelmat näkyvät monipuolisempina ja perusteellisempina kuin muut tiedonkeräystyökalut, mutta niitä estävät verkkosivujen omistajien asettamat rajoitukset. Toteutettu verkonharavointiohjelma näyttää onnistuneesti, kuinka verkonharavointiohjelma toteutetaan ja antaa käsityksen siitä, kuinka voisi tehdä oman henkilökohtaisen verkonharavointiohjelman.
How could someone implement a web scraper and how does it compare to other data collection tools? This thesis aims to answer the questions through comprehensive literature analysis. In addition, an implemented web scraper will provide hands-on insight into how a web scraper functions in the modern landscape of the internet.
The thesis highlights how web scrapers function and what possible restrictions they face in modern times. With analysis of other works, web scrapers are shown to be more versatile and thorough than other data collection tools but are held back by restrictions placed by website owners. The implemented web scraper successfully shows how to implement a web scraper and gives insight into how one could make their own personal web scraper.
Kuinka joku voisi aloittaa verkonharavoinnin ja miten se vertautuisi muihin datan keräystyökaluihin? Tämän opinnäytetyön tavoite on vastata kysymyksiin kattavan kirjallisuusanalyysin avulla. Lisäksi toteutettu verkonharavointiohjelma tarjoaa käytännön käsityksen verkonharavointiohjelmien toiminnasta nykyaikaisessa internetin maisemassa.
Tämä opinnäytetyö korostaa, kuinka verkonharavointiohjelmat toimivat ja mitä mahdollisia rajoituksia ne kohtaavat nykyaikana. Muiden akateemisten töiden analyysissä verkonharavointiohjelmat näkyvät monipuolisempina ja perusteellisempina kuin muut tiedonkeräystyökalut, mutta niitä estävät verkkosivujen omistajien asettamat rajoitukset. Toteutettu verkonharavointiohjelma näyttää onnistuneesti, kuinka verkonharavointiohjelma toteutetaan ja antaa käsityksen siitä, kuinka voisi tehdä oman henkilökohtaisen verkonharavointiohjelman.