Tez No İndirme Tez Künye Durumu
663064
Improving machine learning methods for social media data in Turkish / Türkçe sosyal ortam verileri için makine öğrenme yöntemlerinin geliştirilmesi
Yazar:BUKET ERŞAHİN
Danışman: DR. ÖĞR. ÜYESİ ÖZLEM AKTAŞ
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2021
68 s.
Bu çalışmada Türkçe duygu analizi için sözlük ve makine öğrenmesi tabanlı yaklaşımları birleştiren hibrit (karma) bir yöntem geliştirilmiştir. Sözlük tabanlı kısımda kullanılmak üzere, SentiTürkNet eş anlamlılar sözlüğü olan ASDICT ile genişletilerek bir duygu analizi sözlüğü oluşturulmuştur. Bunun yanında, makine öğrenmesi tarafında Naïve Bayes, Support Vector Machines ve J48 adlı üç gözetimli öğrenme algoritması ile sınıflandırma sorunu çözülmüştür. Hibrit yöntemimiz bu iki yaklaşımı özellik üretimi algoritmamızı kullanarak yeni bir sözlük tabanlı değer hesaplayıp ve bunu makine öğrenmesi sınıflandırıcılarına yeni bir özellik olarak ekleyerek birleştirmektedir. Film, otel ve Twitter olmak üzere üç farklı veri seti üzerinde sınamalar gerçekleştirilmiştir. Türkçe'nin morfolojik yapısından kaynaklı dilbilimsel zorluklara rağmen, deneysel sonuçlar çalışmamızın doğruluk oranını diğer çalışmalara göre ortalama %7 artırdığını göstermektedir. Sonuç olarak, çalışmamızın katkıları şunlardır: Bu çalışma Türkçe duygu analizi için geliştirilmiş ilk hibrit yaklaşımdır. Ayrıca, pozitif ve negatif anlamı kaybetmemek için kök çözümleme algoritması iyileştirilmiştir. Son olarak, ilk kapsamlı polarite sözlüğü olan STN genişletilerek eSTN adında daha kapsamlı bir sözlük oluşturulmuştur.
In this thesis, we have presented a hybrid methodology, which combines the lexicon-based and machine learning (ML)-based approaches for sentiment analysis in Turkish. To use on the lexicon-based side, we have generated a sentiment dictionary by extending SentiTürkNet with a synonym dictionary, ASDICT. Besides this, we have tackled the classification problem with three supervised classifiers, Naive Bayes, Support Vector Machines, and J48, on the ML side. Our hybrid methodology combines these two approaches by generating a new lexicon-based value according to our proposed feature generation algorithm and feeds it as one of the features to ML classifiers. We have experimented on three different datasets such as Movie, Hotel, and Twitter. Despite the linguistic challenges caused by the morphological structure of Turkish, the experimental results show that it improves the accuracy by 7% on average. In conclusion, we have achieved these contributions in our study: It is the first hybrid approach for Turkish sentiment analysis. We have also adapted lemmatization in natural language processing for Turkish SA to preserve the positive and negative meanings of tokens. Finally, we have generated eSTN by extending STN, which is the first comprehensive polarity lexicon for Turkish.