Internet-lähteistä haettujen uutisten ryhmittely
Karttunen, Jani (2006)
Tiivistelmä
Tämän diplomityön tarkoituksena on tutkia, mitä vaaditaan uutisten samanlaisuuden
automaattiseen tunnistamiseen. Uutiset ovat tekstipohjaisia uutisia, jotka on haettu eri
uutislähteistä. Uutisista on tarkoitus tunnistaa ensinnäkin ne uutiset, jotka tarkoittavat
samaa asiaa, sekä ne uutiset, jotka eivät ole aivan sama asia, mutta liittyvät kuitenkin
toisiinsa. Tässä diplomityössä tutkitaan, millä algoritmeilla tämä tunnistus onnistuu
tehokkaimmin sekä suomalaisessa, että englanninkielisessä tekstissä. Diplomityössä
vertaillaan valmiita algoritmeja. Tavoitteena on valita sellainen algoritmiyhdistelmä,
että 90 % vertailluista uutisista tunnistuu oikein.
Tutkimuksessa käytetään 2 eri ryhmittelyalgoritmia, sekä 3 eri stemmaus-algoritmia.
Näitä algoritmeja vertaillaan sekä uutisten tunnistustehokkuuden, että niiden
suorituskyvyn suhteen. Parhaimmaksi stemmaus-algoritmiksi osoittautui sekä suomen-,
että englanninkielisten uutisten vertailussa Porterin algoritmi. Ryhmittely-algoritmeista
tehokkaammaksi osoittautui yksinkertaisempi erilaisiin tunnuslukuihin perustuva
algoritmi. The objective of this study was to research how one can automatically identify, if two
news topics are discussing about the same event, or are these events somehow related to
each other. Two clustering algorithms and three stemming algorithms are compared in
this study. The performance and accuracy of these algorithms are tested, and the best
clustering algorithm and stemming algorithm are chosen. The success rate of the chosen
algorithm should be over 90 %.
Based on therecognition and performance tests, the best stemming algorithm is the
Porter algorithm. The result is the same when stemming English and Finnish news
topics. The best clustering algorithm is the simple self made algorithm.
automaattiseen tunnistamiseen. Uutiset ovat tekstipohjaisia uutisia, jotka on haettu eri
uutislähteistä. Uutisista on tarkoitus tunnistaa ensinnäkin ne uutiset, jotka tarkoittavat
samaa asiaa, sekä ne uutiset, jotka eivät ole aivan sama asia, mutta liittyvät kuitenkin
toisiinsa. Tässä diplomityössä tutkitaan, millä algoritmeilla tämä tunnistus onnistuu
tehokkaimmin sekä suomalaisessa, että englanninkielisessä tekstissä. Diplomityössä
vertaillaan valmiita algoritmeja. Tavoitteena on valita sellainen algoritmiyhdistelmä,
että 90 % vertailluista uutisista tunnistuu oikein.
Tutkimuksessa käytetään 2 eri ryhmittelyalgoritmia, sekä 3 eri stemmaus-algoritmia.
Näitä algoritmeja vertaillaan sekä uutisten tunnistustehokkuuden, että niiden
suorituskyvyn suhteen. Parhaimmaksi stemmaus-algoritmiksi osoittautui sekä suomen-,
että englanninkielisten uutisten vertailussa Porterin algoritmi. Ryhmittely-algoritmeista
tehokkaammaksi osoittautui yksinkertaisempi erilaisiin tunnuslukuihin perustuva
algoritmi.
news topics are discussing about the same event, or are these events somehow related to
each other. Two clustering algorithms and three stemming algorithms are compared in
this study. The performance and accuracy of these algorithms are tested, and the best
clustering algorithm and stemming algorithm are chosen. The success rate of the chosen
algorithm should be over 90 %.
Based on therecognition and performance tests, the best stemming algorithm is the
Porter algorithm. The result is the same when stemming English and Finnish news
topics. The best clustering algorithm is the simple self made algorithm.