Tez No İndirme Tez Künye Durumu
503385
Konu tabanlı sosyal topluluklar için etkili kullanıcı ağırlıklandırılmış duygu analizi yöntemi / Influential user weighted sentiment analysis on topic based microblogging community
Yazar:ALPASLAN BURAK ELİAÇIK
Danışman: PROF. DR. TAKUHİ NADİA ERDOĞAN
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2018
126 s.
Günümüzde sosyal mikroblog servisleri insanların düşüncelerini diğer insanlara aktarmak için kullandığı popüler bir anlatım biçimi haline gelmektedir. İnsanlar bu platformları farklı konu başlıklarında içerik üretmek ve paylaşmak için gerçek zamanlı olarak kullanmaktadırlar. Sosyal mikroblog alanlarının yaygınlaşmasıyla birlikte, sayısız yazılı metin dijital formda araştırmacıların erişimine sunulmaktadır. Bu dönüşüm ile, farklı sosyolojik alanlarda daha derin ve detaylı duygu analizi araştırmaları gerçekleştirilmektedir. Böylece politika, ekonomi, siyaset ve finans gibi birçok farklı sosyolojik alan bu araştırma sonuçlarından beslenmektedir. Mikroblog servisleri üzerine gerçekleştirilen önceki duygu analizi araştırmaları, genellikle servisler üzerinden bireyler tarafından gerçekleştirilen paylaşımlarına ait olan metinleri bilgi kaynağı olarak kullanmaktadırlar. Bu araştırmalar sosyal mikroblog servislerindeki topluluk bireylerini tanımlamak için kullanılan bilgileri çok dikkate almamaktadır. Bunun yanı sıra günümüze kadar gerçekleştirilen sosyal ağ analizi araştırmalarında ve duygu analizi çalışmalarında, bir topluluktaki insanlara duyulan güvenin o topluluğun bir konu hakkındaki duygu seviyesinin belirlenmesinde önemli bir yer tuttuğu belirtilmektedir. Literatürdeki sosyoloji alanında yapılan çalışmalar incelendiğinde, bir topluluktaki güven duyulan kullanıcının aslında etkili kullanıcı olduğu görülmektedir. Dolayısıyla, bu tez kapsamında önceki gerçekleştirilen duygu analizi çalışmalarının başarımını arttırmak için etkili kişilere ait olan tanımlayıcı bilgileri de dikkate alan yeni bir duygu analizi yaklaşımı önerilmektedir. Ayrıca bu çalışmada topluluk içerisindeki etkili kişilerin konu tabanlı bir mikroblog topluluğunun duygu polaritesi üzerindeki etkisine konsantre olunmaktadır. Tez kapsamında gerçekleştirilen çalışmada ilk olarak literatürdeki sosyoloji alanında gerçekleştirilen etkili kullanıcı çalışmaları detaylı bir biçimde ele alındı. Sonra bu literatür taramasından ortaya çıkan bilgi birikimi yardımıyla mikroblog servislerindeki etkili kullanıcıların sahip olması gereken özellikler ve hangi tür paylaşımların mikroblog servislerinde daha etkili olduğu tanımlandı. Bir sonraki adımda bu özellikler göz önünden bulundurularak literatürde tanımlanan etkili kullanıcı yöntemleri değerlendirilip eksiklikleri belirlendi. Etkili kullanıcı yöntemlerinin değerlendirilmesinden sonra önerilecek yeni yöntemde kullanılmak üzere literatürde başarımı yüksek çalışmalarda çokça kullanılan PageRank yaklaşımı seçildi. Daha sonra bu yöntem belirlenen etkili kullanıcı özellikleri göz önünde bulundurularak genişletildi ve eksiklikleri giderildi. Tez çalışmasının ikinci aşamasında mikroblog servisleri üzerinde gerçekleştirilen duygu analizi çalışmaları incelendi. Bu inceleme sonucunda konu tabanlı sosyal ağlarda topluluk üyelerinin paylaşımlarının kalitesini ölçmek için bireylere ait özelliklerin tam anlamıyla göz önünde bulundurulmadığı görüldü. Bu problemi çözmek için bu tez kapsamında önerilen PageRank tabanlı yöntem ile bireylerin etkileme seviyesi belirlendi ve paylaşımları bu değere göre ağırlıklandırıldı. Böylece önceki gerçekleştirilen yalnızca metin içeriğini dikkate alan duygu analizi çalışmaları genişletildi. Sonuç olarak bu tez çalışması kapsamında konu tabanlı topluluklardaki etkili kullanıcıları duygu analizi yöntemlerine tam anlamıyla dâhil eden yeni bir duygu analizi çalışması tanımlandı. Çalışmanın deneysel kısmı finans alanı üzerinde gerçekleştirildi. Gerekli verinin toplanması için Twitter mikroblog servisi seçildi. Seçilen mikroblog servisinden alan doğrultusunda iki sosyal topluluk ve bu topluluklara ait veri kümeleri oluşturuldu. Kümelere ait veriler normal dağılım gösterdiği için deney kısmında Pearson korelasyon katsayısı metodu kullanarak finansal sosyal topluluğun duygu polaritesi ile BIST100 olarak adlandırılan, Türkiye merkezli en iyi 100 kamuya açık şirketi içeren ve bu şirketlerin borsadaki bileşik değerini bildiren Türkiye'nin borsa endeksi ile arasındaki ilişkiyi analiz eden kapsamlı bir deneysel çalışma yapıldı. Deneysel kısmın çıktıları incelendiğinde bu tez çalışması kapsamında önerilen duygu analizi yönteminin konu tabanlı mikroblog topluluğunun duygu polaritesini bulmada literatürdeki diğer yaklaşımlara göre daha etkili olduğu kanıtlandı.
In recent years, the number of social microblogging services has grown rapidly. They have become a popular expression platform of what people think. People use these platforms to produce content on different topics in real time. With the proliferation of social microblogging sites, the massive amount of opinion texts have become available in digital forms, thus enabling research on sentiment analysis to both deepen and broaden in different sociological fields. Sentiment analysis research field, also named as opinion mining, is a sub discipline of computational linguistics and data mining. The aim of this research field is to determine a person's mood and opinion from the textual documents created by him. Nowadays, because of the proliferation of social microblogging services, sentiment analysis has become a popular research area in computer science. The researchers have made several important sentiment analysis studies in different sociological topics such as politics, economy and especially in the finance field on microblogging service. The research area of influence is derived from sociology and psychology. A number of studies are conducted to identify influence. In an important study, influence means change in a person's attitude or behavior, which has its origin in another person or group of people. In another definition in the literature, influence is defined as affect other people in their immediate environment. In another study, researcher describes influence as the behavior of an individual which can directly or indirectly impress the thoughts, opinions, and actions of other people in a population. Social Microblogging services have built an audience in nearly every topic. Today, it is a common practice for people to follow each other to get relevant information about their topics of interest. Thereby, common interest communities are formed in social networks. By the agency of these communities, information about the topic is spread very quickly and influences the community members very effectively. Thus, microblogging users who have common interests influence each other in an active way. Some users in a microblogging community have a higher degree of influence on the opinions of community members. These people called as influential users. When studies in the literature about influential users in social network are examined, it is seen that trusted users in a community are actually influential users. Because, many studies in the literature indicate that influential users are generally more involved and updated on the topic in which they are interested. Other community members see them as experts and trustworthy about the topic and are closely influenced by them. For this reason, it is easily to say that their postings reflect opinions more realistic than the opinions of other community members. Therefore, calculating users's influence values in a community is highly important in determining a community's opinion about the topic. In this study, existing sentiment analysis studies on microblogging services are examined in details. After a comprehensive analysis of previous research it is seen that they generally focused only on the text contents of microblogging sites and ignored the users in a social community. The researchers regarded microblogging users as equals in their studies. They ignored the users trust as well as their postings reliability in their analysis. Some researchers considered the user's importance on the community as well. In their studies, they only used sentiment analysis methods, which incorporate social network analysis methods to assess a user posting's sentiment polarity or a user's sentiment mood. They did not use social network analysis methods to evaluate the user's trust for sentiment analysis in a topic based community. On the other hand, some researchers define influential users and communities in order to assign sentiment of the communities towards selected topics but they did not use his influence value on the social community to measure the reliability of his postings. In this study, it is proposed that the effect of influential users should also be addressed while analyzing and determining a community's opinion about a topic. Hence, this thesis research proposes a novel sentiment analysis approach that takes into account the social network information as well. The study concentrates on the effect of influential users on the sentiment polarity of a topic based microblogging community. The method, which is proposed in this study, extends the classical sentiment analysis methods, which only consider text content, by adding a novel PageRank based influential user-finding method. In this thesis in order to suggest an influential user weighted setniment analysis and prove the research's suggestions, firstly, a detailed research is carried out on how people influence each other in social communities and why some social sharing information is more influential than the others. With the information obtained as a result of these researches, the necessary features of influential user in microblogging services has been defined. In the next step, these features are considered in order to identify the new influential user metrics to solve deficiencies of previous influential user-finding approaches. After examination previous influential user-finding methods, the PageRank based approaches which are the best solution but has some deficiencies for finding influential user in social network, has been chosen to bu used in the proposed novel method. Next the PageRank method was extended with the new defined influential user's metrics to eliminate the deficiencies. So that new influential user-finding method is defined. In the second phase of this thesis study, in order to adress the effect of influential users while analyzing and determining a community's sentiment about any topic, the level values of influential user were determined by the proposed PageRank based method and microblogging community's users sharings were weighted according to these values. Thus, previous sentiment analysis studies which incorporate social network analysis methods have been extended. As a result, this study defined a new sentiment analysis method that includes the influential users in topic-based microblogging communities. Finally, in the experiment section, The comprehensive empirical study of two real world Twitter datasets are carried out to analyze the correlation between the sentiment polarity of the financial social community and the behavior of the stock exchange of Turkey, namely BIST100, using Pearson correlation coefficient method. The proposed method is compared with previous classical sentiment analysis methods which use only text content in sentiment polarity calculation, and also with other sentiment analysis methods that are extended with different PageRank based approaches. Experimental results validate the research's assumptions and show that the proposed PageRank based influential user weighted sentiment analysis method is more effective than previous studies in finding topic based microblogging community's sentiment polarity.