Tez No İndirme Tez Künye Durumu
688906
Türkçe his analizinde optimizasyon ve ön-eğitimli modellerin kullanımı / Use of optimization and pre-trained models in Turkish emotion analysis
Yazar:ALAETTİN UÇAN
Danışman: PROF. DR. EBRU SEZER
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
127 s.
His analizi sayısal içerikte yer alan hislerin otomatik olarak belirlenmesi işlemidir. İnternet ve sayısal iletişimde yaşanan baş döndürücü teknolojik gelişmeler ve bunların etkisiyle oluşan toplumsal değişimler sonucunda ortaya çıkan büyük verinin his analizi yöntemleriyle damıtılarak kıymetlendirilmesi bir gereklilik haline gelmiştir. Ancak makine öğrenmesi yöntemleriyle his analizi yapmak için dengeli sınıf dağılımına sahip çok miktarda etiketli veriye ihtiyaç duyulmaktadır. Öte yandan hislerin jest ve mimikler olmadan sadece kelimelerle ifade edilmesi probleme büyük bir belirsizlik katmaktadır. Bu tez kapsamında, makine öğrenmesi yöntemleriyle yüksek performanslı Türkçe his analizi yapmak amaçlanmıştır. Bu amaçla belirsizliği arttıran dengesiz sınıf dağılımı ve veri azlığı problemlerine çözümler önerilerek his analizinin performansı arttırılmaktadır. Çalışmada dengesiz dağılım gösteren veri kümelerinde yer alan tüm sınıfların başarısını ölçmek için sınıf içi performanslar kullanılmaktadır. Belirsizliği azaltmak amacıyla geliştirilen optimum his vektörleri yöntemiyle derin öğrenme karar mekanizmasına getirilen yenilik sayesinde elde edilen genel doğruluk performansları korunurken, sınıf içi his analizi performansları arttırılmıştır. Ayrıca Türkçe için ilk kez, ön-eğitimli dil modelleri his analizine adapte edilerek, çok miktarda etiketli veri ihtiyacı olmayan ön-eğitimli his modeli geliştirilmiştir. Geliştirilen yöntemden elde edilen sonuçlar farklı veri kümeleri ve öğrenme yöntemleriyle karşılaştırmalı olarak sunulmaktadır. Ön-eğitimli his modeliyle Türkçe his veri kümeleri üzerinde gerçekleştirilen deneyler sonucunda alandaki en yüksek performans elde edilmiştir. Önerilen çalışma Türkçe kaynaklarda daha isabetli kamuoyu yoklaması, müşteri ilişkileri yönetimi, marka yönetimi, siber zorbalığın tespiti, seçimlerdeki yönelimin tespiti, partizan yorumları belirleme gibi üst seviye yapay zekâ görevlerin daha başarılı olarak yapılmasına olanak sağlayacaktır. Ayrıca bu alandaki araştırmacılar için bir kaynak olacak Türkçe metin madenciliği görevlerinde kullanılabilecektir.
Emotion analysis means to automatic determination of the emotions in any digital content. It has become a necessity to distill and evaluate with emotion analysis the big data that emerged as a result of the dizzying technological developments in the internet and digital communication and the social changes caused by these. However, a large amount of labeled data with proportional class distribution is needed to perform emotion analysis with machine learning methods. On the other hand, expressing feelings only in words without gestures adds a great uncertainty to the problem. Herein, it is aimed to perform high-performance Turkish emotion analysis with machine learning techniques. For this purpose, the performance of emotion analysis is increased by proposing solutions to unbalanced class distribution which increases uncertainty, and data scarcity. In the study, in-class performances are used to measure the success of all classes in datasets showing imbalanced distribution. While maintaining the general accuracy performances achieved by the innovation brought to the deep learning decision mechanism with the optimum emotion vectors method developed to reduce uncertainty, the in-class emotion analysis performances were increased. In addition, for the first time in Turkish, pre-trained language models were adapted to emotion analysis, and a pre-trained emotion model, which does not require large amounts of labeled data, was developed. The results obtained from the developed method are presented comparatively with different data sets and learning methods. As a result of the experiments performed on the Turkish emotion data sets with the pre-trained emotion model, the highest performance in the field was obtained. The proposed study will enable high-level artificial intelligence tasks such as more accurate public opinion polling, customer relationship management, brand management, detection of cyberbullying, determination of the tendency in elections, determining partisan comments in Turkish resources. It will also be a resource for researchers in this field, and can be used in Turkish text mining tasks.