Tez No İndirme Tez Künye Durumu
642035
Multi-modal deception detection from videos / Videolardan çoklu-modalite ile aldatmaca kestirimi
Yazar:MEHMET UMUT ŞEN
Danışman: PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
Yer Bilgisi: Sabancı Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:Aldatma = Deception ; Belge işleme = Document processing ; Derin öğrenme = Deep learning ; Destek vektör makineleri = Support vector machines ; Doğal dil işleme = Natural language processing ; Gradyan temelli öğrenme = Gradient-based learning ; Konuşma iyileştirme = Speech enhancement ; Makine öğrenmesi = Machine learning ; Makine öğrenmesi yöntemleri = Machine learning methods ; Çoklu çözümlü öğrenme = Multimodal learning
Onaylandı
Doktora
İngilizce
2020
113 s.
Sanık ve tanıkların duruşma konuşmaları mahkeme sonuçlarını etkileyen önemli bir faktördür. Mahkeme kararlarının ilgili insanların hayatları üzerinde önemli sonuçlarının olacağı düşünüldüğünde, hakimlerin ve/veya jüri üyelerinin doğru kararları vermelerine yardımcı olabilecek bilgisayımsal modellerin geliştirilmesi önemli bir araştırma alanıdır. Bu tezde, gerçek hayatta geçen mahkeme videolarında aldatmaca saptaması üzerinde çalışılmıştır. Bu amaçla, sonuçlanmış olan kamuya açık mahkemelerin video kayıtlarından oluşan bir verikümesi kullanılmıştır. Verilen bir videodaki kişinin yanıltıcı olup olmadığını kestirmeyi hedefleyen çoklu-modaliteli bir aldatmaca kestirimi sistemi geliştirilmiştir. Aldatmacanın sınıflandırılması için görsel, işitsel ve metinsel olmak üzere 3 farklı modalite ayrı olarak değerlendirilmiştir. Son sınıflandırıcı sistemi, bu 3 farklı modalitenin skor seviyesinde birleştirilmesiyle elde edilmiştir ve 83.05% doğruluk oranıyla aldatmacaları yakalamıştır. Mahkeme videolarının çoklu-modaliteli analizinin çeşitli zorlukları vardır. Son sistemin geliştirilmesinden önce, aldatmaca kestiriminin performansını artırmaya faydalı olabilecek alt-problemler üzerinde çalışılmıştır. Videolardaki yüksek sesli arka-plan sesleri, konuşma özniteliklerinin kalitesini düşürmektedir; ayrıca otomatik sisteminin içerisinde bulunan konuşma tanıma sisteminin hata oranlarını artırmaktadır. Bu doğrultuda, konuşmaları arka-plan seslerinden ayrıştıran bir yapay sinir ağı temelli tek-kanallı kaynak ayrıştırma modeli geliştirilmiştir. Kelime temsil vektörleri, metin verisi içeren problemlerin en gelişkin çözümlerinde kullanılan bir tekniktir. Kelime temsil vektörleri, İngilizce metinsel konuşma kayıtlarından aldatmacanın kestirimi için denenmiş ve iyi sonuçlar alınmıştır. Bunun yanında, kelime temsil vektörlerinin Türkçe üzerindeki başarımının ölçümü üzerine de çalışmalar yapılmış; Türkçe metin kategorizasyonu ve anlambilimsel metin eşleme problemleri için kullanılmıştır. Bu çalışmalar kelime temsil vektörlerinin Türkçe aldatmaca kestirimi probleminde kullanımı için bir ön-çalışma niteliği taşımaktadır.
Hearings of witnesses and defendants play a crucial role when reaching court trial decisions. Given the high-stakes nature of trial outcomes, developing computational models that assist the decision-making process is an important research venue. In this thesis, we address the deception detection in real-life trial videos. Using a dataset consisting of videos collected from concluded public court trials, we explore the use of verbal and non-verbal modalities to build a multimodal deception detection system that aims to classify the defendant in a given video as deceptive or not. Three complementary modalities (visual, acoustic and linguistic) are evaluated separately for the classification of deception. The final classifier is obtained by combining the three modalities via score-level classification, achieving 83.05% accuracy. Multimodal analysis of trial videos involves many challenges. Prior to developing the final deception detection system, we have worked on sub-problems that would be helpful on improving deception detection performance. High volume of background sounds in a video decreases the quality of the speech features, and it results in low speech recognition performance. We developed a neural network based single-channel source separation model to extricate the speech from the mixed sound recording. Word embeddings, is the state-of-art technique in processing of textual data. In addition to evaluating pretrained word embeddings in developing the deception system for English, we have also worked on learning word embeddings for Turkish and used them for categorizing text documents. This work can be applied in future for a deception system in Turkish.