Tez No İndirme Tez Künye Durumu
611880
A gaze-centered multimodal approach to face-to-face interaction / Yüz yüze iletişime bakış merkezli çok modlu yaklaşım
Yazar:ÜLKÜ ARSLAN AYDIN
Danışman: DOÇ. DR. CENGİZ ACARTÜRK ; DOÇ. DR. SİNAN KALKAN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Bilişsel Bilim Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Göz izleme = Eye tracking ; Konuşma etiketleme = Speech labeling ; Yüz yüze iletişim = Face to face communication ; Çok değişkenli zaman serileri = Multivariate time series ; Öbekleme teknikleri = Computational methods
Onaylandı
Doktora
İngilizce
2020
185 s.
Yüz yüze iletişim, doğası gereği, etkileşimin, hem sözsel hem de sözsel olmayan sinyallerini içeren çok modlu bir yaklaşımla karakterize edilmesini gerektirir. Bakış, iletişim sürecinde, sosyal hedeflere ulaşmada kilit rol oynayan sözsüz bir ipucudur. Bu çalışmanın amacı iki yönlüdür: (i) bakış davranışını (göz kaçırma ve yüze bakma) yüz yüze iletişimdeki bakış ve konuşma arasındaki ilişkilerle incelemek, (ii) bakış davranışlarını tahmin etmek için, üst seviye konuşma özellikleri kullanan hesaplamalı modeler oluşturmak. Çiftlerin (mülakatı yapan bir profesyonel ve iş başvurusu yapan aday) sahte iş görüşmeleri yaptığı iş görüşmeleri ayarladık. Deneyde anadil konuşanlarından oluşan 28 çift yer aldı. İki göz izleme gözlüğü, çevredeki görüntü, ses ve katılımcıların baktıkları pozisyonları kaydetti. İlk amaca yönelik olarak, yüz izlemede kullanılan görüntü, göz izleme cihazlarından bakış ve konuşma segmentasyonunda kullanılan sesi içeren, çok modlu verilerin analizleri için MAGiC (İletişimde Bakışları Analiz Etmek için Çok Modlu Çerçeve) adlı açık kaynaklı bir çerçeve geliştirdik. Konuşmayı iki yöntemle etiketledik: (i) Diyalog Eylemi Etiketleme için ISO 24617-2 standardı ve (ii) sosyal bağlamda bakış davranışlarını inceleyen önceki çalışmalarda kullanılan etiketleri kullanma. Daha sonra her iki etiketleme yöntemini kullanarak iki CNN mimarisinin, VGGNet ve ResNet, basitleştirilmiş versiyonlarını eğittik.
Face-to-face conversation implies that interaction should be characterized as an inherently multimodal phenomenon involving both verbal and nonverbal signals. Gaze is a nonverbal cue that plays a key role in achieving social goals during the course of conversation. The purpose of this study is twofold: (i) to examine gaze behavior (i.e., aversion and gaze on face) and relations between gaze and speech in face to face interaction, (ii) to construct computational models to predict gaze behavior using high-level speech features. We employed a job interview setting, where pairs (a professional interviewer and an interviewee) conducted mock job interviews. Twenty-eight pairs of native speakers took part in the experiment. Two eye-tracking glasses recorded the scene video, the audio and the eye gaze position of the participants. To achieve the first purpose, we developed an open-source framework, named MAGiC (A Multimodal Framework for Analyzing Gaze in Communication), for the analyses of multimodal data including video recording data for face tracking, gaze data from the eye trackers, and the audio data for speech segmentation. We annotated speech with two methods: (i) ISO 24617-2 Standard for Dialogue Act Annotation and, (ii) using tags employed by the previous studies that examined gaze behavior in a social context. We then trained simplified versions of two CNN architectures (VGGNet and ResNet) by using both speech annotation methods.