Tez No İndirme Tez Künye Durumu
587951
Otomatik duygu sözlüğü geliştirilmesi ve haberlerin duygu analizi / Automated sentiment lexicon generation and sentiment analysis of news
Yazar:FATİH SAĞLAM
Danışman: DR. ÖĞR. ÜYESİ FUAT AKAL ; PROF. DR. HAYRİ SEVER
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
162 s.
Kitle iletişim araçlarının toplumu bilgilendirme, farkındalık yaratma, etkileme ve hatta harekete geçirebilme konusunda günümüzde ulaştığı seviye oldukça yüksektir. Ana akım haber medyaları ön sıralarda yer alan kitle iletişim araçları olup, devasa boyutta ve çeşitlilikte içerik üretilmektedir. Araştırmacılar perspektifinden bakıldığında hazine niteliğindeki ve çoğunlukla metin türündeki bu içeriklerin analiz edilebilmesi, karar vericilerden politika üreticilerine kadar çok geniş bir yelpaze için oldukça önemlidir. Metinlerin analizi Doğal Dil İşleme disiplininin ilgi alanına girmekte olup, bu disiplinin bir alt dalı olan Duygu Analizi de, içeriğin duygu boyutuyla değerlendirilerek bakış açısının zenginleşmesine katkı sunmaktadır. İçeriğin analizinde temel gereksinim, dile özgü kaynakların varlığını gerekli kılarken, analizin doğruluğu ise bu kaynakların kapsam ve içerik olarak yeterliliğini gündeme taşımaktadır. İngilizce dili için mevcut olan kaynakların ve kütüphanelerin gelişmişlik düzeyi, Türkçe'nin de içinde bulunduğu birçok diğer dile göre ileri seviyededir ve literatürdeki birçok çalışma da dile özgü kalmaktadır. Türkçe duygu analizi çalışmalarında araştırmacılar ağırlıklı olarak çeviri temelli yaklaşımlar sergilemişlerdir. Ancak diller arasındaki çeviri performansının genel başarımı doğrudan etkileyeceği açıktır ve de Türkçe gibi eklemeli dillerde problem biraz daha derinleşmektedir. Çalışmadaki temel hipotezimiz, dilin kaynaklarının dilin içerisinden üretilmesinin gerekliliğidir. Bu çerçevede içerik olarak zengin ve doğru polaritelenmiş Genel Amaçlı Türkçe Duygu Sözlüğü geliştirilmesi tezin iki temel hedefinden birincisidir. Böylece Türkçe çalışma yapan bütün disiplinlere açık erişimli bir kaynak sunulmuş olacaktır. Tezde hedeflenen ikinci husus ise duygu analizini farklı bir perspektiften ele alan Duygu Haritası Modelinin geliştirilmesidir. Tez, temel olarak üç fazda çalışılmıştır. Birinci fazda, ana akım haber medyalarındaki haber metinleri kullanılarak Türkçe Duygu Sözlüğü geliştirilmesi hedeflenmiştir. Bu kapsamda, polaritesi bilinen haberlerden büyük bir derlem oluşturulmuştur. Bu metinlerden elde edilen terimlerin ton ve polarite değerleri belirlenerek, mevcut bir diğer Türkçe duygu sözlüğü ile birleştirilmiş ve toplamda 37K hacmindeki, adını SWNetTR-PLUS olarak verdiğimiz Türkçe duygu sözlüğünün ilk sürümü oluşturulmuştur. İkinci fazda, SWNetTR-PLUS kütüphanesinin zenginleştirilmesi ile terimlerin polarite ve ton değerlerinin daha kararlı hale getirilmesi hedeflenmiştir. Sözlüğümüzdeki mevcut terimlerin negatif karşılıklarının tespiti için ZIT anlamlılarının, sözlüğümüzün kapsamının genişletilmesine yönelik olarak da EŞ anlamlı karşılıklarının kullanılmasına odaklanılmıştır. Bu yaklaşım kullanılarak farklı kaynaklarla sözlük zenginleştirilmiş ancak hatalı eşleşmelerin varlığı ile sözlüğe yeni kazandırılan terimlerin polarite ve ton değerlerinin tespitine yönelik sorunlar gündeme gelmiştir. Bu noktada problem, varlıklar arasındaki ilişkileri temsil gücü ve ilişkisel işlemlerde sağladığı kolaylıklar sebebiyle çizge kullanılarak modellenmiştir. Bağ gücü, ton yayılımı, yanlılık dengelemesi matematiksel modelleri geliştirilerek bahsedilen problemlere uygulanmış ve sonuçlar değerlendirilmiştir. Bu fazın sonunda adını SWNetTR++ olarak isimlendirdiğimiz 49K kapasiteli Genel Amaçlı Türkçe Duygu Sözlüğü oluşturulmuştur. Üçüncü fazda, duygu analizi literatürüne Duygu Haritası Modeli önerilmiştir. Bu modele götüren temel motivasyon özellikle doküman seviyesindeki duygu analizi çalışmalarının, metni pozitif/nötr/negatif şeklinde bir sınıflandırma ile sayısal bir skor atama şeklinde ele almasından kaynaklanmaktadır. Bu yaklaşıma getirdiğimiz eleştiri ise, metinlerdeki duygu dalgalanmalarının göz ardı ediliyor olması ve dokümanın salt bir polarite ile etiketlenmesinin her durumda doğru bir yaklaşım olamayacağıdır. Çözüm önerisi olarak analize tabi tutulan içeriğin bünyesindeki duygu dalgalanmalarının ortaya çıkarılmasına, görsel olarak sunulmasına ve yorumlanmasına imkan sağlayan Duygu Haritası Modeli geliştirilmiştir. Model, örnek içerikler üzerinde uygulanarak sonuçlar değerlendirilmiştir.
The level reached by mass media today, with respect to informing the society, raising awareness, affecting opinions, and even mobilizing masses, is impressive. Being mass communication tools, mainstream news media produces enormous amounts of content. Analysis of this content, which is mostly textual and treasurized from an academic perspective, is also crucial for people in a large spectrum, from decision makers to policy makers. Text analysis is studied under the discipline of Natural Language Processing (NLP), and Sentiment Analysis, which is a subdiscipline of NLP, is focused on enriching this analysis by evaluating the content with respect to sentimentality. The main requirement in content analysis is the existence of necessary language resources, whereas the correctness of the analysis depends on the coverage and sufficiency of these resources. Availability and state of the resources in the English language far surpasses the resources in many other languages, including Turkish. Most studies in the literature are, hence, language dependent. In Turkish sentiment analysis studies, researchers mostly followed a route through translation. However, it is obvious that the correctness of the translation between the languages will deeply impact the performance of the analysis, with the effect being amplified in agglomerative languages, such as Turkish. Our base hypothesis in this work is that the language resources need to be produced within the language. With respect to this philosopohy, the first goal of this thesis is to produce a rich and correctly polarized General Purpose Turkish Sentiment Lexicon. Thus, we aim to provide an open resource to all disciplines working on the Turkish language. Our second goal, then, is to propose a Sentiment Map Model, which brings a fresh perspective to document sentiment analysis. This thesis is mainly prepared in three phases. In the first phase, we aimed to produce a Turkish Sentiment Lexicon based on texts from main stream news media. To this end, a large corpus with known polarities was constructed. Once the tone and polarity values of the words from these texts were identified, they were merged with an existing Turkish Sentiment Lexicon, resulting in the first version of SWNetTR-PLUS, a 37K Turkish sentiment lexicon. In the second phase, it was aimed to enrich SWNetTR-PLUS even further and stabilize the polarity and tone values of the words in the lexicon. To this end, synonyms and antonyms of the words in the lexicon were derived from different resources to extent the coverage of both positive and negative sentiments. At this point, it was chosen to model the whole lexicon with graphs to make it easier to explain and study the sentiment relations between the words. In order to compute missing polarities and tone values, and to stabilize the lexicon, we developed the concepts and methodologies of Tie Strength, Tone Propagation and Bias Balancing. At the end, we obtained SWNetTR++, which is a General Purpose Turkish Sentiment Lexicon with a capacity of 49K words. In the third and the last phase, we proposed a new document sentiment analysis technique, namely Sentiment Map Model. Here, the motivation was the fact that in the literatüre document sentiment analysis is mostly based on assigning a positive/neutral/negative sentiment value to a document, and this omits the sentiment fluctuations within the text, crippling the richness of the text. As a solution to that, we proposed Sentiment Map Model, which allows detecting, exposing and interpreting sentiment shifts within an analysed document. The proposed model was extensively tested on multiple texts to outline its applicability and sufficiency.