Tez No İndirme Tez Künye Durumu
524609
Lexicon-based emotion analysis in Turkish / Türkçe metinlerde sözlük tabanlı duygu analizi
Yazar:MANSUR ALP TOÇOĞLU
Danışman: DOÇ. DR. ADİL ALPKOÇAK
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2018
111 s.
Bu tez, Türkçe metinlerde duygu analizi çalışmaları yapmak için yeni bir veri seti ve yeni bir sözlük ortaya koymaktadır. Bu veri setini oluşturmak için, 4,709 katılımcıdan 27,350 adet doküman toplandığı bir anket yürütülmüştür. Ardından, etiketleyicilerin her bir dokümanın duygu kategorisini birer birer doğruladıkları bir doğrulama süreci yürütülmüştür. Sonuç olarak, biri ham, biri de doğrulanmış olarak adlandırılan iki adet veri seti elde edilmiştir. İki adet köke indirgeme metodu kullanılarak bu iki veri setinden dört adet versiyonu elde edilmiş ve sonrasında bir uzay vektör modeli yardımıyla bu dört versiyon modellenmiştir. Doğruluk, kesinlik, hassasiyet ve F ölçüm değerlerini hesaplamak için makine öğrenme algoritmaları çalıştırılmıştır. Elde edilen sonuçlara dayanarak; SVM sınıflandırıcısının en yüksek performans değerini sağladığı ve doğrulanmış veri seti ile çalıştırılan modellerin, doğrulanmamış veri seti ile çalıştırılan modellerden daha doğru sonuçlar verdiği tespit edilmiştir. Tezin ikinci aşamasında, tez içinde oluşturulmuş olan veri seti kullanılarak, Türkçe metinlerde sözlük bazlı duygu analizi için bir sözlük önerilmektedir. Köke indirgeme, terim ağırlığı, sözlük zenginleştirme ve terim seçimi yaklaşımlarının etkileri araştırılmıştır. Dokümanların farklı yaklaşımlar kullanılarak işlenmesiyle her terimin kökü elde edilmiştir. Daha sonra, terim sınıf frekanslarına ve karşılıklı bilgi değerlerine dayanan iki ağırlıklandırma şeması kullanılmıştır. Sözlük zenginleştirmesi için bi-gram ve kavram hiyerarşisi kullanılmıştır. Sonrasında, verimlilik sorunları için terim seçimi uygulanmıştır. Son olarak, sözlüğün performansı ayrı bir Türkçe veri setinde anahtar kelime tespiti tekniği kullanılarak ölçülmüştür. Yapılmış olan deneyler, önerilmiş olan sözlükteki anahtar kelime tespiti tekniğinin kullanımının Türkçe metinlerden duygu çıkarımı için tatmin edici sonuçlar verdiğini göstermiştir.
This thesis presents a new dataset and a new lexicon for emotion analysis studies in Turkish text. To gather this dataset, we conducted a survey and collected 27,350 entries from 4,709 individuals. Then, we performed a validation process in which annotators validated each entry one by one by assigning a related emotion category. As a result, we obtained two datasets, one raw and the other validated. Subsequently, we generated four versions of these two datasets using two different stemming methods and then modeled them using a vector space model. Then, we ran machine learning algorithms on the models to calculate the accuracy, precision, recall and F measure values. Based on the results we obtained, we concluded that the SVM classifier yielded the highest performance value and that the models trained with a validated dataset provide more accurate results than the models trained with a non validated dataset. In the second phase of the thesis, we propose a lexicon for the use of lexicon-based emotion analysis in Turkish text by using the dataset we constructed within the thesis. We explored the effects of stemming, term weighting, lexicon enrichment and term selection approaches for lexicon-based emotion analysis. We first pre-processed the documents (entries) to obtain stems of each term using different approaches. Afterward, we proposed two different weighting schemas based on term class frequencies and Mutual Information values. Next, we examined bi-grams and concept hierarchy for lexicon enrichment. Furthermore, we applied term selection for efficiency issues. Lastly, we evaluated the performance of the lexicon by using keyword-spotting technique on a separate Turkish dataset. The experiments showed that use of our proposed lexicon in keyword spotting technique produces a satisfactory result in emotion analysis in Turkish Text.