Tez No İndirme Tez Künye Durumu
560656
Sentiment analysis in Iraqi Arabic dialects based on ‎distributed ‎representations of sentences and machine learning approach / Cümlelerin dağıtılmış temsilleri ve makine öğrenmesi yaklaşımına dayalı Irak lehçelerinde duygu analizi
Yazar:ANWAR ADNAN MZHER ALNAWAS
Danışman: DOÇ. DR. NURSAL ARICI ; PROF. DR. MEHMET HAKKI SUÇİN
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Fikir madenciliği = Opinion mining ; Metin madenciliği = Text mining ; Veri madenciliği = Data mining
Onaylandı
Doktora
İngilizce
2019
100 s.
Duygu Analizi, hesaplamalı dilbilimi ve veri madenciliği içinde yer alan bilgisayar ‎bilimlerinin bir alt disiplindir. Duygu analizinin amacı, kişilerin veya toplulukların bir ‎konu hakkındaki duygu ve düşüncelerinin metinsel dökümanlardan çıkarılmasıdır. Son ‎yıllarda araştırmacılar için ilginç bir araştırma konusu haline gelen duygu analizi alanında ‎bilimsel literatürde İngilizce için birçok çalışma bulunmaktadır. Bununla birlikte, Arapça ‎için henüz çok fazla çalışma yayınlanmamıştır. Arapça; konuşmacıların sayısı, tarihi ve ‎dini miras açısından önemli bir dildir. Arapçada resmi dil, klasik ve modern standart ‎Arapçadan oluşur. Klasik Arapça, Kuran dilini temsil eder. Modern Standart Arapça, ‎haber bültenlerinde ve eğitimde kullanır. İnternette Arapça kullanımı giderek artmakla ‎birlikte, sosyal ağ ortamlarında bu iki tür kullanılmaz. Günlük pratik hayatta kullanılan ‎yerel lehçeler daha çok tercih edilir. Bu nedenle, lehçelere dayalı Arapça içerikli ‎metinlerden Duygu Analizi çalışmaları gittikçe önem kazanan araştırma konularından ‎biridir. Bu doktora tezinde, Arap Irak lehçesinde Duygu Analizi çalışması ‎gerçekleştirilmektedir. Çalışmanın ilk aşamasında üç tür veri kümesini toplanmıştır. ‎Bunlar: önceki çalışmalardan sınıflandırılmış veri setleri, sınıflandırılmamış Irak Arapça ‎lehçesi ve sınıflandırılmış Irak Arapça lehçesidir. İkinci aşama ön işleme aşamasıdır. Bu ‎aşamada, karmaşıklığı en aza indirmek ve metin biçimini standartlaştırmak için veri ‎kümelerinden gereksiz terimler ortadan kaldırılmıştır. Üçüncü aşamada, özelliklerin ‎çıkarılması ve bir kelimeyi Doc2Vec modelini kullanarak vektör olarak temsil edilmesi ‎sağlanmıştır. Dördüncü aşamada, bir duygu tahmin modeli oluşturmak için oluşturulan ‎vektörler dört makine öğrenme algoritmasıyla eğitilmiştir. Beşinci aşamada, duygu ‎tahmin modeli değerlendirilmiştir. Ayrıca deneysel çalışmada, değişken parametrelerin ‎külliyat (derlem) sınıflandırma performansına etkisi de incelenmiştir. ‎
Sentiment analysis is a sub-discipline of computer science involved in computational ‎linguistics and data mining. The purpose of Sentiment analysis is the inference of ‎individuals 'and communities' feelings and thoughts about a topic from textual documents. ‎In the field of Sentiment analysis, which has become an interesting research topic for ‎researchers in recent years, there are many studies on English in the scientific literature. ‎However, not enough studies have yet been published on Arabic. Arabic; it is an ‎important language in terms of number of speakers, history, and religious heritage. The ‎official language in Arabic consists of classical and modern standard Arabic. Classical ‎Arabic represents the language of the Qur'an. Modern Standard Arabic is used in ‎newsletters and education. Although the use of Arabic on the Internet is increasing, these ‎two types are not used in social networking environments. Local dialects used in daily ‎practice are more preferred. Therefore Sentiment Analysis of the Arabic texts based on ‎dialects, is an important research topic. In this doctoral dissertation, Sentiment Analysis is ‎conducted in the Arabic-Iraqi dialect. In the first stage of the study, three types of data ‎were collected. These are: data sets classified from previous studies, unclassified Iraqi ‎Arabic dialect and classified Iraqi Arabic dialect. The second stage is the pre-processing ‎stage. At this stage, unnecessary terms from the datasets have been eliminated to ‎minimize complexity and standardize text format. In the third stage, features were ‎extracted to represent a word as a vector using Doc2Vec model. In the fourth step, the ‎vectors created were trained through four machine learning algorithms to create a ‎sentiment estimation model. Lastly, the sentiment predictive model was evaluated. ‎Moreover, at the experimental ‎phase, the effects of variable parameters and the ‎background corpora on classification performance was evaluated.‎