Tez No İndirme Tez Künye Durumu
650984
Neural word embeddings for sentiment analysis / Duygu analizi için sinirsel sözcük öz yerleşikleri
Yazar:BEHZAD NADERALVOJOUD
Danışman: PROF. DR. EBRU SEZER
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2020
100 s.
Ön-eğitimli kelime özyerleşiklerinin çoğu, büyük bir metin derlemi üzerinde eğitilmiş bağlam tabanlı öğrenme algoritmalarından elde edilmektedir. Bu durum, benzer bağlamlarda sıkça yer alan ancak farklı anlamlar taşıyan kelimeler için benzer vektörlerin öğrenilmesine yol açmaktadır. Bu nedenle, kelimelerin karmaşık özellikleri bu modeller kullanılarak tam olarak öğrenilememektedir. Bu sorundan etkilenen doğal dil işleme uygulamalarından birisi de duygu analizidir. Bu görevde, zıt duygulara sahip iki kelime, ön-eğitimli kelime özyerleşikleri kullanılarak iyi ayırt edilmemektedir. Bu tez, bu sorunu çözmeyi hedeflemektedir ve çözüm için duygu analizine özel kelime özyerleşikleri öğrenmek amacıyla ampirik olarak etkili iki yaklaşım önermektedir. Her iki yaklaşım da duygu sözlüklerini kullanmaktadır ve kelime özyerleşiklerini öğrenirken kelimelerin duygu eğilimlerini dikkate almaktadır. İlk yaklaşım, kelimelerin duygu bilgisini mevcut ön-eğitimli kelime özyerleşiklerine kodlarken, ikincisi diğer anlamsal bağlamlarla birlikte modelleri eğitmek için sentetik duygusal bağlamlar oluşturmaktadır. Her iki yaklaşımdan elde edilen kelime özyerleşikleri, Skip-gram ve GloVe modelleri kullanılarak çeşitli duygu sınıflandırma görevlerinde değerlendirilmiştir. Sonuçlar, her iki yaklaşımın da duygu analizi referans veri kümeleri üzerinde derin öğrenme modelleri kullanarak elde edilen en başarılı sonuçları geçtiğini göstermektedir.
Most pre-trained word embeddings are achieved from context-based learning algorithms trained over a large text corpus. This leads to learning similar vectors for words that share most of their contexts, while expressing different meanings. Therefore, the complex characteristics of words cannot be fully learned by using such models. One of the natural language processing applications that suffers from this problem is sentiment analysis. In this task, two words with opposite sentiments are not distinguished well by using common pre-trained word embeddings. This thesis addresses this problem and proposes two empirically effective approaches to learn word embeddings for sentiment analysis. The both approaches exploit sentiment lexicons and take into account the polarity of words in learning word embeddings. While the first approach encodes the sentiment information of words into existing pre-trained word embeddings, the second one builds synthetic sentimental contexts for embedding models along with other semantic contexts. The word embeddings obtained from both approaches are evaluated on several sentiment classification tasks using Skip-gram and GloVe models. Results show that both approaches improve state-of-the-art results using basic deep learning models over sentiment analysis benchmarks.