Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
794117		Videodan derin öğrenme tabanlı duygu tanıma / Deep learning-based emotion recognition on video Yazar:ORHAN ATİLA Danışman: PROF. DR. ABDULKADİR ŞENGÜR Yer Bilgisi: Fırat Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı / Telekomünikasyon Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering Dizin:	Onaylandı Doktora Türkçe 2023 107 s.

İnsan-makine etkileşimi için Otomatik Duygu Tanıma (ODT) sistemleri popülerliği gittikçe artan bir çalışma konusu olarak ön plana çıkmaktadır. Bu tez çalışmasında ODT sistemleri için görsel ve işitsel özellikleri bir arada kullanan derin öğrenme tabanlı yeni bir model önerilmiştir. Önerilen model ile video dizilerinden işitsel ve görsel özellikler ayrı ayrı çıkarılarak üç boyutlu bir özellik kapsülü içinde birleştirilmiştir. Elde edilen bu üç boyutlu özellik kapsülleri aynı şekilde üç boyutlu derin öğrenme tabanlı bir sınıflandırıcı kullanılarak sınıflandırılmıştır. Bu çalışmada, dikkat katmanı eklenmiş bir 3 Boyutlu Katlamalı Sinir Ağı (3BKSA) ve Uzun Kısa Süreli Bellek (UKSB) ağ yapısı ile uçtan uca birleştirilerek tasarlanmış özgün bir 3BKSA-UKSB ağ modeli önerilmiştir. Önerilen çalışmada işitsel özellik çıkartma aşamasında konuşma sinyallerinin görüntülere dönüştürülmesi için Spektrogram, Mel Frekans Kepstral Katsayılı (MFKK) özellik haritaları, Koklegram ve pencerelenmiş fraktal özellik haritaları kullanılmıştır. Görsel özellikler çıkarılırken ise iki aşamalı bir yöntem izlenmiştir. İlk olarak video özetleme olarak da adlandırılan ve anahtar çerçeve seçimine dayanan bir algoritma ile video dizisi, duygu tanıma için belirleyici yüz çerçevelerini seçerek özetlenmiştir. Sonrasında bu aşamada elde edilen anahtar çerçevelerden yüzdeki nirengi noktalarının koordinatları bulunarak geometrik özellikler çıkarılmış ve bu özellikler, özellik haritası görüntülerine dönüştürülmüştür. Eğitim ve test aşamasında işitsel ve görsel özelliklerden oluşan tüm özellik görüntüleri üç boyutlu bir özellik kapsülü içinde birleştirilerek, tasarlanan üç boyutlu ağ yapısı ile sınıflandırılmıştır. Önerilen yöntem video formatında hazırlanmış olan CREMA-D, RAVDESS, SAVEE ve RML veri setleri kullanılarak test edilmiş ve sınıflandırma başarımları ele alınmıştır. Bu çalışmada elde edilen sonuçlar son zamanlarda yapılan çalışmalarla kıyaslanmış ve önerilen yöntemin diğer çalışmalara göre daha üstün performans sergilediği görülmüştür. Anahtar Kelimeler: Otomatik Duygu Tanıma, Derin Öğrenme, Üç Boyutlu Katlamalı Sinir Ağı, Uzun Kısa Süreli Bellek, Fraktal, Mel Frekans Kepstrum Katsayıları

Automatic Emotion Recognition (AER) systems for human-machine interaction are foregrounded as a topic of study that is growing in popularity. In this thesis, a new model based on deep learning that uses visual and auditory features together has been proposed for AER systems. With the proposed model, auditory and visual features are extracted separately from the video sequences and combined in a three-dimensional feature capsule. These obtained three-dimensional feature capsules were also classified by using a three-dimensional deep learning based classifier. In this study an originally designed 3DCNN-LSTM network model was proposed by combining an attention layer added 3D Convolutional Neural Network with Long Short-Term Memory end-to-end fashion. In the proposed study Spectrogram, Mel-Frequency Cepstral Coefficient (MFCC) feature maps, Cochlegram and windowed fractal feature maps were used to convert speech signals into the images in the auditory feature extraction stage. A two-stage method was applied in the extraction of visual features. Firstly, video sequence was summarized by choosing face frames detecting for emotion recognition with an algorithm which is also named as video summary and based on key frame selection. Then geometric features were extracted by finding the coordinates of landmark points on the face from the obtained key fames in this stage and these features were converted into feature map images. All the feature images consisting of auditory and visual features in th training and testing stages were classified with three-dimensional neural network model designed by being combined in a feature capsule. The proposed method was tested by using the CREMA-D, RAVDESS, SAVEE and RML datasets prepared in video format and the classification performances were discussed. The obtained results in this study were compared with the recent studies and it was seen that the proposed method showed a much better performance than the other studies. Keywords: Automatic Emotion Recognition, Deep Learning, 3D Convolutional Neural Network, Long Short-Term Memory, Fractal, Mel-Frequency Cepstral Coefficient