Tez No İndirme Tez Künye Durumu
682908
Derin öğrenme yöntemleriyle sosyal medya analizi ve kullanıcı temsili / Social media analysis and user representation with deep learning methods
Yazar:İBRAHİM RIZA HALLAÇ
Danışman: DOÇ. DR. GALİP AYDIN
Yer Bilgisi: Fırat Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Kuramsal Temeller Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2021
155 s.
Eğitim, alışveriş, eğlence gibi hayatın önemli bir bölümünün çevrimiçi dünyaya taşındığı günümüzde her an devasa miktarlarda veri üretilmektedir. Sadece metin, ses ve görüntülerin yalın formatlarının değil, çevrimiçi dünyada yer alan kişilerin (sosyal medya profili, yazar, eğitimci, öğrenci, vb.), ürünlerin (giysi, kitap, film, şarkı) ve daha birçok nesnenin semantik temsillerinin elde edilmesi amacıyla geliştirilecek yöntemlerin makine öğrenmesinin yakın geleceğinde önemli bir yer bulacağı kuvvetle muhtemeldir. Bu tez çalışmasında, Twitter kullanıcılarının profil temsilleri elde edilerek sosyal medya analizi uygulamalarında geniş bir yelpazede kullanım alanı bulacak bir yöntem geliştirilmiştir. Güncel en iyi durumun sunduğu derin öğrenme tabanlı metin temsil yöntemlerinden yararlanılarak, yapısal ve yapısal olmayan kullanıcı bilgilerinden bir arada yararlanabilen denetimsiz bir kullanıcı temsil öğrenme modeli önerilmiştir. Önerilen yöntemin gerçekleştirilmesi ve başarı testlerinde kullanılmak üzere, semantik olarak gruplara ayrılmış kullanıcılara ait profil bilgileri, paylaşımları, yorumları ve beğenileri gibi birçok bilgiden oluşan türünün tek örneği bir sosyal medya veri seti oluşturulmuştur. Önerilen kullanıcı temsil modelinin elde edilmesinde tf-idf, word2vec, doc2vec, ELMO, BERT gibi birçok metin temsil yönteminin farklı şekillerde kullanılması sonucunda elde edilen sonuçlar detaylı bir şekilde karşılaştırılmıştır. Özellikle, dağıtık doküman temsili modelleri için kapsamlı bir parametre incelemesi yapılmıştır. Kullanıcı temsillerinin elde edilmesine ek olarak sosyal medya ve diğer internet kullanıcılarının oluşturdukları içerikler üzerinde derin öğrenme yöntemleriyle metin sınıflandırma ve duygu analizi uygulamalarında karşılaşılan iki önemli probleme yönelik önerilen yaklaşımlarla literatüre katkı sağlanmıştır. Duygu analizi probleminde, farklı kaynaklardan elde edilen zengin bir Türkçe veri seti oluşturularak bu veri setinin dengesiz olmasından kaynaklanan ve derin öğrenme modelinin başarısını sınırlayan koşulların aşırı örnekleme yöntemleriyle aşılmasına yönelik kapsamlı bir çalışma gerçekleştirilmiştir. Metin sınıflandırma probleminde ise, az miktarda etiketli tweetin olduğu koşullarda yüksek doğrulukta sınıflandırma yapan, derin öğrenme modelleri üzerinde uygulanabilecek bir alan adaptasyonu yaklaşımı önerilmiştir. Çalışmada kullanılmak üzere 5 sınıf için etiketlenmiş Türkçe tweet veri seti oluşturulmuştur. Önerilen yaklaşımlar CNN, LSTM gibi klasik derin öğrenme yöntemleriyle birlikte, bir arada kullanıldıkları hibrit mimariler tasarlanarak kapsamlı bir inceleme yapılmıştır.
In today's world, where a significant part of life such as education, shopping and entertainment has shifted to the online world, huge amounts of data are being produced at every moment. It is very likely that besides the representation of simple text, sound and images, studies on semantic representation of things such as people (social media profile, author, educator, student, etc.), products (clothes, books, movies, songs) and many other objects in the online world will find an important place in the near future of machine learning. In this thesis, we propose a method for obtaining profile representations of Twitter users that will find a wide range of use cases in social media analysis applications. Our method, based on state-of-the-art deep learning-based text representation methods, can learn from both structured and unstructured user data in an unsupervised manner. We created a one-of-a-kind social media dataset to implement and evaluate the models. The dataset consists of rich user information such as profile information (biography, location, etc.), shares (retweets), comments and likes from semantically grouped users. The proposed user representation models were compared in detail for the different scenarios of exploring different text representation techniques such as tf-idf, word2vec, doc2vec, ELMO, BERT. In particular, a comprehensive parameter review has been performed for distributed document representation models. In addition to obtaining user representations, another contribution has been made by proposing approaches to two important problems encountered in text classification and sentiment analysis applications using deep learning methods on the text content created by social media and other Internet users. In the sentiment analysis problem, a Turkish dataset was created from multiple sources and a comprehensive study was conducted using the oversampling technique to overcome the imbalanced class distribution problem that limits the success of deep learning models. In the case of the text classification problem, a domain adaptation approach is proposed that can be applied to deep learning models that classify with high accuracy under conditions with a small amount of labelled tweets. For use in the study, a Turkish tweet dataset was created and labelled for 5 classes. For both studies, a comprehensive investigation of the proposed approaches was conducted using classical deep learning methods such as CNN, LSTM and hybrid architectures where they are used together.