| Tez No |
İndirme |
Tez Künye |
Durumu |
| 637747
|
|
Twitter sentiment analysis using deep learning / Derin öğrenme ile twitter sentiment analizi
Yazar:GHAZI ABDALLA ABDALRAHMAN
Danışman: DR. ÖĞR. ÜYESİ FATİH ÖZYURT
Yer Bilgisi: Fırat Üniversitesi / Fen Bilimleri Enstitüsü / Yazılım Mühendisliği Ana Bilim Dalı
Konu:Mühendislik Bilimleri = Engineering Sciences
Dizin:
|
Onaylandı
Yüksek Lisans
İngilizce
2020
50 s.
|
|
|
Güncel yenilikler, tüm dünyayı hızla değişmekte ve, internet kullanımını insanların yaşamında temel bir gereklilik haline getirmiştir. Günümüzde insanlar, aynı ürünü alan diğer müşterilerin bir ürün hakkında ne düşündüğünü kontrol edebilir, ayrıca İnternet'ten satın almadan önce herhangi bir ürün hakkında görüş ve deneyim alışverişinde bulunabilirler. İnsanların bir ürün hakkındaki fikirlerini toplamak ve analiz etmek, iş uygulamaları için doğru bir şekilde çıkarılıp analiz edildiğinde çok önemlidir. Ancak içerik yapılandırılmamış olduğunda, fikirleri manuel olarak analiz etmek imkânsızdır. Bu nedenle, yapılandırılmamış verileri otomatik olarak ayıklayan, analiz eden ve duyarlılık analizi uygulayan bir çalışma sunulmuştur. Bu tez çalışması ile şirketlerin ürün veya hizmetlerinin kalitesi için insanların görüş ve düşüncelerinin yazılı olarak ifadesi analiz edilebilinir.
Bu çalışmada, McDonald's, Kentucky fried chicken, ve Burger king fast food restoranlarının üç ürün incelemesi için duyguların sınıflandırılmasına odaklanıldı. Analiz yapmak için veri kaynağı olarak Twitter seçildi. Tweetler, otomatik olarak Tweepy kullanılarak toplandı, 50 bin,100 bin ve 200 bin 'den oluşan üç farklı veri seti denendi. Öncelikle, ham veriler ön işleme tabi tutuldu. Her bir tweet önceden eğitilmiş bir Word2Vec modeli ile işlenerek kelimeler vektörlere dönüştürüldü. Deneysel çalışma aşamasında, bu veriler sınıflandırıclara verilerek eğitildi. Daha sonra test verileri modele verilerek pozitif veya negatif olarak sınıflandırıldı.
Bu çalışmada, CNN, CNN-Bi-LSTM ve Bi-LSTM olmak üzere üç derin öğrenme tekniği uygulanmıştır. Tüm veri kümeleri eğitim, doğrulama ve test kümesine ayrılmıştır. Her tekniğin performansı doğruluk, kesinlik, geri çağırma ve F1 skoru açısından ölçülmüş ve karşılaştırılmıştır. Ayrıca, en iyi model için hesaplanan karışıklık matrisi verilmiştir. Son olarak, Bi-LSTM, diğer iki modele kıyasla tüm metriklerde 200 bin Twitter veri kümesinde en yüksek performansı elde etti ve % 95.35'lik oranla en yüksek doğruluğa ulaştı.
|
|
|
Current innovations are rapidly changing the world, and internet usage has become a basic requirement in people's lives. Nowadays, people can check what other customers think, about a product, also they can exchange views and experience about any product before they buy on the Internet. Collecting and analyzing people's opinions about a product is essential for business applications when it is properly extracted and analyzed. But, it is impossible to analyze opinions manually because the content is unstructured. For this reason, we applied sentiment analysis that extracts and analyzes the unstructured data automatically. With this thesis, people's opinions and sentiments can be analyzed that help corporation to enhance the quality of the products or services.
This study focused on the classification of sentiments for three product reviews of fast-food restaurants, which are McDonald's, Kentucky fried chicken, and Burger king. Twitter was chosen as the data source for analysis. Tweets were collected automatically by using Tweepy, and three different data sets consisting of 50k, 100k, and 200k experimented. First, the raw data was pre-processed. Each tweet was processed with a pre-trained Word2Vec model, and the words were converted into vectors. During the experimental study, these data were trained by giving them to the classifiers. Then, the test data were given to the model and classified as positive or negative.
In this study, three deep learning techniques implemented, which are CNN, CNN-Bi-LSTM, and Bi-LSTM. All datasets are split into training, validation, and testing. The performance of each technique was measured and compared in terms of accuracy, precision, recall, and F1-score. Also, the confusion matrix calculated for the best model is given. Finally, Bi-LSTM achieved the highest performance in 200K Twitter dataset in all metrics compared to the other two models and achieved the highest accuracy of 95.35%. |