Tez No İndirme Tez Künye Durumu
424224
Feature selection for sentiment analysis in turkish texts / Türkçe metinlerde duygu analizi için nitelik seçimi
Yazar:TUBA PARLAR
Danışman: DOÇ. DR. SELMA AYŞE ÖZEL
Yer Bilgisi: Çukurova Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2016
127 s.
Duygu analizi yorum belgelerinde ifade edilen duygunun sınıflandırılmasıdır. Diğer bütün sınıflandırma işlevlerinde olduğu gibi, veri önişleme, nitelik seçimi ve metin sınıflandırma adımlarından oluşur. Bu çalışmanın amaçlarından biri, Türkçe yorumların duygu analizinde çeşitli veri önişleme kombinasyonlarının incelenmesi ve hangi nitelik seçimi yöntemleri ile etkin sonuçlar elde edildiğinin araştırılmasıdır. Bir diğer amacımız ise duygu analizindeki en değerli niteliklerin seçiminde yeni bir nitelik seçimi yönteminin önerilmesidir. Duygu analizi için kullanılan Ki-kare, Information Gain, Document Frequency Difference ve Optimal Orthogonal Centroid gibi nitelik seçimi yöntemleri ile duygu analizi sürecinin doğruluk ve verimlilik özelliklerini geliştirmek hedeflenmiştir. Ayrıca bu yöntemlerle önerdiğimiz yeni nitelik seçimi yöntemi karşılaştırılmıştır. Deneyler için yaygın olarak kullanılan dört sınıflandırıcı tercih edilmiştir: Naïve Bayes Multinomial, Destek Vektör Makineleri, Logistic Regression ve Karar Ağacı. Türkçe yorumların analizinde belirli noktalama işaretlerini ve etkisiz kelimeleri nitelik olarak tutmanın olumlu katkı sağladığını ve kullandığımız nitelik seçim yöntemleriyle de daha iyi sonuçlar elde etmeye katkı sağladığını gözlemledik. Ayrıca dört temel terim ağırlıklandırma yöntemlerinin duygu analizi üzerindeki etkileri incelenmiştir. Bu yöntemlerin farklı nitelik seçimi yöntemleri üzerindeki etkileri ve bu yöntemlerin azaltılmış nitelikler ile nasıl sonuç verdikleri incelenerek analiz edilmiştir. Sonuç olarak, Türkçe yorumlar üzerine uygulanan deneyler, İngilizce yorumlar üzerinde de uygulanmış ve farklılıklar incelenmiştir.
Sentiment analysis is the classification of sentiments expressed in review documents. Like other classification tasks, it involves data preprocessing, feature selection, and classification steps. One aim of this study is to determine which preprocessing combinations and feature selection methods are effective for the sentiment analysis of Turkish reviews. Another aim is to propose a new feature selection method that helps identify the most valuable features for sentiment analysis. We consider several major feature selection methods, including Chi-square, Information Gain, Document Frequency Difference, and Optimal Orthogonal Centroid so that we can improve both the accuracy and efficiency of the sentiment analysis process and compare the performance of our new proposal. Experiments are conducted using four commonly used classifiers: Naïve Bayes Multinomial, Support Vector Machines, Logistic Regression, and Decision Trees. We find that keeping certain punctuation marks and stop words is helpful for Turkish reviews, and using feature selection methods of Chi-square, Information Gain, and Document Frequency Difference with Naïve Bayes Multinomial classifier tends to give us better results. Our proposed method achieves better classification performance with respect to the other methods. We further consider four common term weighting methods and investigate their effects on the sentiment analysis. We also try these weighting methods with different feature selection methods and examine how these term weighting methods respond to the reduced text representation. Finally, similar experiments are conducted on English reviews in order to compare their differences with Turkish reviews.