Tez No İndirme Tez Künye Durumu
409255
Robust machine learning methods for computational paralinguistics and multimodal affective computing / Hesaplamasal paralinguistik ve çok-kipli duyuşsal hesaplama için gürbüz yapay öğrenme yönemleri
Yazar:HEYSEM KAYA
Danışman: YRD. DOÇ. DR. ALBERT ALİ SALAH ; PROF. DR. SADIK FİKRET GÜRGEN
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Görüntü işleme yöntemleri = Image processing methods ; Sayısal işaret işleme = Digital signal processing ; Veri güdümlü öğrenme = Data-driven learning
Onaylandı
Doktora
İngilizce
2015
175 s.
İnsan-makina iletişimini insan-insan iletişimine yaklaştırmak için, insan-makina etkileşim alanında duygu durum (örn. duygu, ruh hali), özellik (örn. kişilik) ve sosyal işaretler (örn. düş kırıklığı, fikir ayrılığı) analizine artan ilgi söz konusudur. Bunun akıllı eğitim sistemlerinden duyguları anlayabilen robotlara, akıllı çağrı merkezlerinden uzaktan hastaları takip eden sistemlere kadar çeşitli uygulamaları vardır. Konuşmacı durum ve özelliklerini kapsayan hesaplamasal paralinguistik çalışma alanı, konuşmacı ve veritabanı değişkenliği gibi gerçek hayat problemleriyle yüzleşmektedir. Bu tezde, bu problemleri çözmek için çeşitli yapay öğrenme yöntemleri geliştirilmesi hedeflenmiştir. Yüksek boyutlu paralinguistik verilerin modellenmesi için otomatik model seçim yöntemleri geliştirilmiştir. Bu yaklaşımlar farklı değişkenlik kaynaklarını parametrik bir şekilde ele alabilmektedir. İstatistiksel modeller ve sınıflayıcılara özlü, potansiyeli yüksek öznitelikler sağlamak için ayrımsayıcı izdüşüm tabanlı yeni değişken seçim yöntemleri tanıtılmıştır. Ek olarak, zorlu koşullarda gürbüz duyuşsal hesaplama için çok-kipli tümleştirme teknikleri irdelenmiştir. Önerilen yöntem ve yaklaşımlar INTERSPEECH Computational Paralinguistics Challenge (2013-2015), Audio-Visual Emotion Challenge (2013/2014), ve Emotion Recognition in the Wild Challenge 2014 gibi bir dizi yakın tarihli yarışma veri kümelerinde geçerlenmiştir. Bu tezde önerilen yöntemler sadelik ve hesaplamasal verimlilik özelliklerini taşımakla beraber, bu veri kümelerinin çoğunda problem üzerinde raporlanmış en iyi çözümlere çok yakın veya daha yüksek başarı elde etmiştir.
The analysis of affect (e.g. emotions or mood), traits (e.g. personality), and social signals (e.g. frustration, disagreement) are of increasing interest in human computer interaction, in order to drive human-machine communication to become closer to human-human communication. It has manifold applications ranging from intelligent tutoring systems to affect sensitive robots, from smart call centers to patient telemonitoring. The study of computational paralinguistics, which covers the analysis of speaker states and traits, faces with real life challenges of inter-speaker and inter-corpus variability. In this thesis, machine learning methods addressing these challenges are targeted. Automatic model selection methods are explored for modeling high dimensional paralinguistics data. These approaches can deal with different sources of variability in a parametric manner. To provide statistical models and classifiers with a compact set of potent features, novel feature selection methods based on discriminative projections are introduced. In addition, multimodal fusion techniques are sought for robust affective computing in the wild. The proposed methods and approaches are validated over a set of recent challenge corpora, including INTERSPEECH Computational Paralinguistics Challenge (2013-2015), Audio-Visual Emotion Challenge (2013/2014), and Emotion Recognition in the Wild Challenge 2014. The methods proposed in this thesis advance the state-of-the-art in most of these corpora and yield competitive results in others, while enjoying the properties of parsimony and computational efficiency.