Tez No |
İndirme |
Tez Künye |
Durumu |
461078
|
|
Twitter tabanlı duygu analizi / Sentiment analysis based on twitter
Yazar:ABDULLAH TALHA KABAKUŞ
Danışman: DOÇ. DR. RESUL KARA
Yer Bilgisi: Düzce Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
|
Onaylandı
Doktora
Türkçe
2017
132 s.
|
|
Duygu analizi sosyal medyanın özellikle de yapısal ve erişime açık veri sağladığı için Twitter'ın doğuşuyla beraber çok daha önemli hale gelmiştir. TwitterSentiDetector, tez çalışması kapsamında geliştirilen yazım hataları, harf tekrarları, hashtag, gülücük, emoji ve metinsel gülme kullanımı gibi Twitter'da kullanılan resmi olmayan dilden kaynaklı farklılıkları hedef alan, alandan bağımsız ve eğiticisiz Twitter duygu analizi aracıdır. TwitterSentiDetector, polarite değerleri geniş kullanımı olan duygu sözlüklerinden elde edilen polarite değerleri üzerinden doğal dil işleme tekniklerinin yanı sıra öne sürülen dilbilimsel metotları kullanarak tweet'lerin duygularını pozitif, negatif ve nötr olarak sınıflandırmaktadır. Geniş kullanımı olan ve elle duygu etiket tespiti yapılmış Twitter verisetleri üzerinde yapılan testlere göre TwitterSentiDetector %69'a kadar doğru duygu tespiti gerçekleştirebilmektedir. Hedef duygu kümesi pozitif ve negatife indirgendiği zaman ise, doğru duygu tespit oranı %87'ye kadar yükselmektedir. Sonuçlar, aynı veri seti bağlam duyarlı duygu analizi modülü ile oldukça benzer hesaplanmıştır ki bu durum iki yöntemin de geçerliliğini ispatlamaktadır. Bir Twitter duygu analizi servisinin Twitter'da hala yaygın olan ve amaçlarından birisi de Twitter tabanlı servislerin geçerliliğini gasp etmek olan spam tweet'lerden haberdar olması gerekmektedir. Deneysel sonuçlara göre, TwitterSentiDetector'e entegre edilen spam tespit modülünün doğruluğu 0,943 olarak hesaplanmıştır. Yine TwitterSentiDetector'le entegre çalışan graf tabanlı cümle seviyesinde yazım hatası kontrol uygulama çatısı üç farklı listeden elde edilen İngilizce'de en çok yazım yanlışı yapılan kelimeler kullanılarak test edildiğinde doğruluğu 0,84 olarak hesaplanmıştır.
|
|
Sentiment analysis has become more crucial after the rise of social media, especially for the Twitter since it provides structured and publicly available data. TwitterSentiDetector is a domain-dependent and unsupervised Twitter sentiment analyzer that focuses on the differences occurred by the informal language used in Twitter such as spelling mistakes, letter repetitions, usage of hashtags, emoticons, emojis, and laughs. TwitterSentiDetector uses natural language processing techniques alongside the proposed linguistic methods to classify sentiments of tweets into positive, negative, and neutral through the polarity scores obtained from widely used sentiment lexicons. According to tests on the widely-used Twitter datasets that contain manually detected sentiment labels alongside tweets, TwitterSentiDetector's sentiment detection ratio is calculated as up to 69%. When the target sentiment classes are decreased to positive and negative, the detection ratio is increased up to 87%. The results are calculated very similarly when the same dataset is evaluated by the proposed tweet-level context aware sentiment analysis module which confirms the validity of each approach. A Twitter sentiment analyzer services should be aware of spam since it is still widespread in Twitter and one of its aim is to hijack the validity of the services based on Twitter. According to the experimental results, the integrated spam detection framework's accuracy is calculated as 0.943. Similarly, when the developed graph based sentence level spell checking framework which is integrated into TwitterSentiDetector is evaluated using the most commonly misspelled words in English which are based on three lists, the accuracy is calculated as 0.84. |