Tez No İndirme Tez Künye Durumu
478447
Multilevel sentiment analysis in Arabic / Arapça için çok düzeyli duygu analizi
Yazar:AHMED NASSAR
Danışman: PROF. DR. EBRU AKÇAPINAR SEZER
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2017
96 s.
Duygu analizi yorum, haber, blog gibi türlerde gömülü olan genel duyguyu (yani olumlu, olumsuz veya tarafsız) belirlemek için tümcelerin sınıflandırılması işi olarak tanımlanabilir. Bu alanda yapılan çalışmaların büyük çoğunluğu İngilizce metinler için duygu analizi üzerine yoğunlaşırken; Arapça, Türkçe, İspanyolca ve Hollandaca gibi diller için de yapılmış sınırlı sayıda araştırma bulunmaktadır. Tez çalışmasında duyguları sınıflandırmak için sıklıkla kullanılan makine öğrenme (ML) yöntemlerini araştırarak, Arapça belgeler üzerinde duygu analizinin performans sonuçlarının iyileştirilmesi amaçlanmıştır. Aynı zamanda ML ile modelleme sürecinde girdilerin temsilinde yeni vektör biçimleri oluşturulmuştur. İkinci olarak maksimum, ortalama ve çıkarma gibi toplama işlevlerine dayalı farklı formülleri kullanarak terim ve belge düzeylerinde sözcük tabanlı yaklaşımın uygulanması amaçlanmıştır. Sözcük tabanlı yaklaşımın performans sonuçlarındaki en iyi yaklaşımların, Arapça'da sözcüğe dayalı duygu analizinin terim ve belge seviyesi ile birlikte kullanılabileceğini göstermek için kullanılmıştır. Ayrıca, her iki seviye için kuralların kullanım etkinliği de gösterilmiştir. Son olarak, kuralların ML yöntemlerine entegre edildiği hibrid bir yöntem önerilmiştir. Deneylerde OCA derlemi ve Arapça duygular için Arapça'nın zorluklarını çözümlemede geniş kapsamlı bir duygu sözlüğü olan (ArSenL) kullanılmıştır. Deneylerin ilkinde, modellemede kullanılan özellikler OCA derlemininden hem terim hem de doküman düzeyleri için bağımsız olarak seçilmiştir. İkincisinde ise, derlemde Destek Vektör Makinesi (SVM), Karar Ağacı (D-Ağacı) ve Yapay Sinir Ağı (ANN) gibi farklı ML yöntemleri hem tek başlarına ve hem de kurallarla birlikte uygulanmıştır. Üçüncüsünde ise, bir belgedeki her terim için kuralların uygulanabilmesi için belge seviyesinde sözcük temelli yaklaşım uygulanmış ve sonuçlar arasında karşılaştırmalar yapılmıştır. Bu çalışmada elde edilen en başarılı sonuçlar şöyledir: (i) makine öğrenimi kullanımında, ANN sınıflandırıcısı, pozitif test sınıfları için terim ortalamasında elde edilen F-skorunun ortalaması 0.92 olan Arapça duygu analizinde terim düzeyinde ve belge düzeyinde en iyi sınıflandırıcı olarak adlandırılmıştır ve negatif sınıflarda da 0.92'dir. ANN modellinin belge seviyesinde, pozitif test sınıfları için F-skor ortalaması 0.94, negatif sınıflarda ise 0.93'tür. (ii) Sözcüğe dayalı yaklaşıma göre, en iyi sonucun her terim için kurala dayalı yöntemler uygulayarak, sonra her cümle skorunu DMax_Sub formülüyle hesaplayarak ve son olarak, belge skoru hesaplaması için ilk cümle puanı formülü kullanılarak elde edildiği sonucuna ulaşılmıştır. Genel olarak makine öğrenimi yaklaşımı sonuçları sözlük kullanımı yaklaşımına göre daha iyi sonuçlar vermiştir. Anahtar Kelimeler: Arapça Duygu Analizi, Düşünce Madenciliği, Makine Öğrenmesi Yaklaşımı, Sözlük Tabanlı yaklaşım, Kurallar.
Sentiment analysis has a great necessity to classify sentences like review, news, blog, etc. in order to hold the overall sentiment (i.e. negative, positive or neutral) embedded in them. The vast majority of studies focused on sentiment analysis for English texts, while there is small number of researches has focused on other texts such as Arabic, Turkish, Spanish and Dutch. In this study, we aimed at improving the performance results of Arabic sentiment analysis in the level of document by: firstly, investigating the most successfully Machine Learning (ML) methods to classify sentiments, at the same time rules have been implemented to create new vector formats for representation of inputs with ML based modeling process. Secondly, applying Lexicon Based (LB) approach in both term and document levels by using different formulae based on aggregating functions like maximum, average and subtraction. However, the rules have been applied in the experiments. Performance results of LB approach have been used to identify the best formulae can be used with term level and document level of lexicon based SA at Arabic Language, also the effectiveness of using rules in both levels has been illustrated. As a final point, employed methods of the two different approaches (i.e. ML and LB) have been tried to create a combined method with considering rules. The OCA corpus was used in the experiments and a sentiment lexicon for Arabic sentiments (ArSenL) was used to resolve the challenges of Arabic Language. Several experiments have been performed as followed: Firstly, features have been selected for both term and document levels of the OCA corpus independently. Secondly, different linear ML methods such as Decision Tree (D-Tree), Support Vector Machine (SVM), and Artificial Neural Network (ANN) have been applied on both of OCA corpus levels with considering applying and not applying rules on both levels of the corpus. Thirdly, LB approach have been applied on the document level with considering applying rules to each term in a document. And finally comparisons between the results have been done to identify the best way to classify sentiment Arabic documents. The most successful results in the study are as follows: (i) In ML approach, ANN classifier has been nominated as best classifier in the term level and in the document level of Arabic SA. Furthermore, the average of F-score achieved in the term level for positive testing classes is 0.92, and also in negative classes is 0.92, however, in the document level, the average of F-score for positive testing classes is 0.94, while in negative classes is 0.93. (ii) In the LB approach, it is concluded that the best results have been achieved by applying rules for each term, then computing each sentence score by DMax_Sub formula, and finally, using first sentence score formulae for document score computing. In general, the results of the ML approach are better than the results of the LB approach. Keywords: Arabic sentiment analysis, Opinion mining, Machine learning approach, Lexicon based approach, Rules.