Tez No |
İndirme |
Tez Künye |
Durumu |
491136
|
|
Aspect-based sentiment analysis in Arabic for healthcare / Sağlık alanı için Arapça metinlerden özellik-tabanlı duygu durum analizi
Yazar:HUNAIDA RAMADAN MOHAMMAD AWWAD
Danışman: DOÇ. DR. ADİL ALPKOÇAK
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
|
Onaylandı
Doktora
İngilizce
2017
118 s.
|
|
Bu tezde, hastaların hastane hakkında Arapça yazılmış yorumlarından özellik-tabanlı duygu durum analizi için denetimsiz bir yaklaşım önerilmektedir. Duygu durum analizi problemini iki ana aşamada değerlendirildik: özellik yakalama ve kutuplaşmanın belirlenmesi. Özellik yakalama için sözdizimi-tabanlı bir yaklaşım kullandık ve özyükleme algoritmasını noktasal karşılıklı bilgi yöntemiyle iyileştirdik. Kutup analizi için sözlüğe dayalı bir yaklaşım kullandık. Duygu durum analizi için iki yaklaşım kullandık: cümle ve belge seviyelerinde olmak üzere, sözlük tabanlı ve sözdizimi tabanlı. Cümle seviyesi için, duygu durum değeri ve belge kutuplaşması için toplam altı farklı yöntem önerilmiştir. Deney sonuçları cümlelerin belge içindeki yerinin sonucunu yakından etkilediğini göstermiştir. İlk ve son cümleye ekstra ağırlıklar verilmesinin genel sonucu etkilediğini gözlemlendiği için, yeni bir ağırlıklandırma yaklaşımı önerdik.
Bunların yanında, bu tez Arapça metinlerde cümle ve belge seviyesinde sözlük tabanlı duygu durum analizi için yeni bir iki aşamalı bir kök bulma yaklaşımı da sunar. Bu yaklaşım, duygu içeren sözcüklerin bulunmasında kök-tabanlı ve hafif kök bulma yaklaşımlarını birlikte kullanımında dayalıdır. Elde ettiğimiz sonuçlar, iki aşamalı kök bulma algoritmasının Arapça metinlerden duygu durum analizinde kök tabanlı ve hafif kök bulma algoritmalarına göre daha iyi doğruluk oranına sahiptir.
Özellik tabanlı duygu durum analizi yaklaşımımızı değerlendirmek için, Twitter, hastane ve kitap yorumları olmak üzere farklı alanlardan veri setleri kullandık. İlave olarak, çeşitli Ürdün hastanelerinden gelen hastane yorumlarını derledik ve elle özellik kategorisi ve duygu durumu için etiketleyerek yeni bir veri seti yarattık. Deneysel sonuçlar, yaklaşımımızın literatürde var olan benzer tekniklerden daha iyi performans gösterdiğini ortaya koymuştur. Ayrıca, yaklaşımımız herhangi etiketlenmiş bir veriye bağlı olmadığından, başka herhangi bir alana kolaylıkla taşınabilir.
|
|
This thesis presents unsupervised approach for aspect-based sentiment analysis (SA) in hospital reviews in Arabic. We considered the sentiment analysis in two main phases: detection of the aspect and polarity analysis. For aspect detection, we prose a syntax-based method, which is improved by Pointwise Mutual Information in bootstrapping algorithm. For polarity analysis, we used two approaches; lexicon-based approach and syntax-based approach for sentence and document levels. For sentence level, we suggested six different methods for sentiment values and document polarity. The results show that sentence location within a document affects SA performance. We observed that giving extra weight for the first and last sentences improves the overall SA, so that we proposed a weighting scheme.
Besides, this thesis presents a two-phased stemming approach to enhance lexicon based sentiment analysis (SA) in Arabic in both sentence level and document level. Our two-phased approach uses root-based stemmers and light stemmers together to enhance the likelihood of finding sentiment words. Moreover, the results we obtained demonstrate that the presented two-phased stemming approach is more accurate than both root-based stemmers and light stemmers when they are using separately for sentiment analysis in Arabic.
To evaluate our aspect-based sentiment analysis approach, we used several datasets from different domains; hospital reviews, Twitter dataset, and books reviews. Additionally, we compiled hospital reviews from several Jordanian Hospitals and manually annotated them by volunteers, considering both aspect category and polarity classification. Experimental results showed that our approach outperforms similar studies already exist in the literature. Furthermore, since our approach does not require a training set it can be easily ported to any other domain. |