Tieteellisten artikkelien metatietojen skanneri
Toropainen, Helmi (2023)
Kandidaatintyö
Toropainen, Helmi
2023
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2023061354665
https://urn.fi/URN:NBN:fi-fe2023061354665
Tiivistelmä
Optinen merkintunnistus (OCR) tarkoittaa tyypillisesti tekstin kuvantamista ja muuntamista digitaaliseen muotoon. Tämän kandidaatintyön aiheena on toteuttaa tulostettujen tieteellisten artikkelien metatietojen skanneri OCR:n avulla. Tässä työssä esitetään heuristinen menetelmä artikkelin metatietojen, kuten artikkelin otsikon, erotteluun artikkelista tunnistetusta tekstistä. Toteutetun sovelluksen avulla voidaan automatisoida tulostettujen tieteellisten artikkelien digitointi ja edelleen metatietojen erottelu, joiden avulla artikkelista voidaan hakea sähköinen kopio. Työssä toteutettiin tulostetuille artikkeleille soveltuva kuvantamisjärjestelmä sekä Python-ohjelmointikielen sovellus metatietojen erotteluun Tesseract OCR -moottorin avulla ja hakulausekkeen muodostamiseksi.
Työssä tarkastellaan artikkelin kuvantamisjärjestelmään liittyvien parametriarvojen vaikutusta metatietojen erotteluun sekä erottelun onnistumista erilaisten artikkelien tapauksissa. Kokeellisten tulosten perusteella valittu menetelmä soveltuu tulostettujen artikkelien metatietojen erotteluun. Lisäksi työssä kehitettiin heuristien menetelmä sähköisen artikkelikopion etsimiselle Google Scholar -hakupalvelusta Python-ohjelman tuottamien ehdotusten avulla. Valitulla menetelmällä saatiin toteutettua sovellus, joka on hyödyllinen sähköisten artikkelikopioiden etsimisen automatisointiin. Lisäksi työssä käsitellään sitä, miten toteutettua sovellusta voisi edelleen kehittää.
Työssä tarkastellaan artikkelin kuvantamisjärjestelmään liittyvien parametriarvojen vaikutusta metatietojen erotteluun sekä erottelun onnistumista erilaisten artikkelien tapauksissa. Kokeellisten tulosten perusteella valittu menetelmä soveltuu tulostettujen artikkelien metatietojen erotteluun. Lisäksi työssä kehitettiin heuristien menetelmä sähköisen artikkelikopion etsimiselle Google Scholar -hakupalvelusta Python-ohjelman tuottamien ehdotusten avulla. Valitulla menetelmällä saatiin toteutettua sovellus, joka on hyödyllinen sähköisten artikkelikopioiden etsimisen automatisointiin. Lisäksi työssä käsitellään sitä, miten toteutettua sovellusta voisi edelleen kehittää.
