Tez No İndirme Tez Künye Durumu
570089
A novel approach to emotion recognition in voice: A convolutional neural network approach and grad-cam generation / Seste duygu tanımlaması üstüne yeni bir yaklaşım: Konvolusyonel sinir ağları ve grad-cam oluşturulması
Yazar:SALİH FIRAT CANPOLAT
Danışman: PROF. DR. DENİZ ZEYREK BOZŞAHİN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Bilişsel Bilim Ana Bilim Dalı
Konu:Bilim ve Teknoloji = Science and Technology ; Dilbilim = Linguistics ; Psikoloji = Psychology
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2019
93 s.
Duygu, insan ve insan-makine etkileşiminin temel bileşenlerinden biridir. İnsan ve insan-makine etkileşiminde sık kullanılan iletişim kanallarından biri de sestir. Ses sinyalinde duygu tanımayı sağlayan temel yapıları anlamak iki tip etkileşimi de geliştirmek için önemli bir basamaktır. Bu amaçla, bu çalışma kapsamında, yeni bir duygu tanıma modeli ve Türkçeye özgü olan, Türk Ses-Duygu (TurEV) veritabanı geliştirildi. Veritabanı, dört duygu tipinin (kızgın, sakin, mutlu ve üzgün) üç farklı frekans bandında bir kelimelik seslendirmelerinden oluşmaktadır. Model, TurEV kullanılarak eğitildi ve insan doğrulama çalışmaları yapıldı. Sonuçlar, modelin duygu tanımada kullanılabilir bir yapıya sahip olduğuna işaret etmektedir. Karşılaştırmalı analizler, bilgisayarlı modellerin özellik bakımından zengin frekans bantlarını kullanarak daha iyi sonuç almasına karşın, insan zihninin ses sinyalinin diğer tüm özelliklerini kullandığını göstermektedir.
Emotion is one of the essential components in human and human-machine interaction. One of the most common communication channels is the sound. Understanding the underlying mechanisms of emotion recognition in the sound signal is an essential step in improving both types of interaction. For this purpose, we developed an emotion recognition model, and a Turkish-specific database, referred to as the Turkish Emotion-Voice (TurEV) database. The database contains one-word-vocalizations of four emotion types; angry, calm, happy, and sad in three different frequency bands. The model was trained using TurEV, and human validation studies were conducted. The results indicate that the model is feasible for emotion recognition tasks. The comparison of the humans with the computational model indicate that the model achieves better results using feature-rich frequency bands, the humans use all other aspects of the sound signal.