Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
  •   Etusivu
  • LUTPub
  • Kandidaatin tutkintojen opinnäytetyöt
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Tieteellisten artikkelien metatietojen skanneri

Toropainen, Helmi (2023)

Katso/Avaa
Kandidaatintyo_Helmi_Toropainen.pdf (5.307Mb)
Lataukset: 


Kandidaatintyö

Toropainen, Helmi
2023

School of Engineering Science, Laskennallinen tekniikka

Kaikki oikeudet pidätetään.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2023061354665

Tiivistelmä

Optinen merkintunnistus (OCR) tarkoittaa tyypillisesti tekstin kuvantamista ja muuntamista digitaaliseen muotoon. Tämän kandidaatintyön aiheena on toteuttaa tulostettujen tieteellisten artikkelien metatietojen skanneri OCR:n avulla. Tässä työssä esitetään heuristinen menetelmä artikkelin metatietojen, kuten artikkelin otsikon, erotteluun artikkelista tunnistetusta tekstistä. Toteutetun sovelluksen avulla voidaan automatisoida tulostettujen tieteellisten artikkelien digitointi ja edelleen metatietojen erottelu, joiden avulla artikkelista voidaan hakea sähköinen kopio. Työssä toteutettiin tulostetuille artikkeleille soveltuva kuvantamisjärjestelmä sekä Python-ohjelmointikielen sovellus metatietojen erotteluun Tesseract OCR -moottorin avulla ja hakulausekkeen muodostamiseksi.

Työssä tarkastellaan artikkelin kuvantamisjärjestelmään liittyvien parametriarvojen vaikutusta metatietojen erotteluun sekä erottelun onnistumista erilaisten artikkelien tapauksissa. Kokeellisten tulosten perusteella valittu menetelmä soveltuu tulostettujen artikkelien metatietojen erotteluun. Lisäksi työssä kehitettiin heuristien menetelmä sähköisen artikkelikopion etsimiselle Google Scholar -hakupalvelusta Python-ohjelman tuottamien ehdotusten avulla. Valitulla menetelmällä saatiin toteutettua sovellus, joka on hyödyllinen sähköisten artikkelikopioiden etsimisen automatisointiin. Lisäksi työssä käsitellään sitä, miten toteutettua sovellusta voisi edelleen kehittää.
Kokoelmat
  • Kandidaatin tutkintojen opinnäytetyöt [6688]
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetKoulutusohjelmaAvainsanatSyöttöajatYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
LUT-yliopisto
PL 20
53851 Lappeenranta
Ota yhteyttä | Tietosuoja | Saavutettavuusseloste