Tez No İndirme Tez Künye Durumu
539297
Emotion recognition process analysis by using eye tracker, sensor and application log data / Göz izleme cihazı, sensör ve uygulama verileri ile insanlarda duygu tanıma analizi
Yazar:MAHİYE ÖZTÜRK
Danışman: PROF. DR. ZEHRA ÇATALTEPE
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2019
126 s.
Dikkat eksikliği ve hiperaktivite bozukluğu (DEHB) (İng. ADHD – Attention Deficit and Hyperactivity Disorder) olan ve Otizm Spektrum Bozukluğu (OSB) (İng. ASD – Autism Spectrum Disorders) olan çocuklar duygu tanımada yaşıtlarına göre farklılıklar gösterebilmektedir. Bu farklılıklar günlük ve akademik yaşamlarında zorluk yaşamalarına neden olmaktadır. Bu çalışmanın amacı, DEHB'li ve OSB'li çocukların duygu tanıma süreçleri ile tipik gelişen çocukların duygu tanıma süreçlerini karşılaştırmaktır. Eğer gruplar arasında önemli farklar olduğu tespit edilirse, bu farklılıklar ileride teşhiste ayırt edici olarak ya da eğitim amacı ile kullanılabilir. Çalışmada DEHB'li, OSB'li ve tipik gelişim gösteren 8-12 yaş aralığında katılımcılar yer almaktadır. DEHB'li ve OSB'li katılımcılar Marmara Eğitim ve Araştırma Hastanesi ile Göztepe Eğitim ve Araştırma Hastanesi'nden uzman psikiyatrist doktorların seçtiği, aileleri çalışmaya katılmayı uygun gören çocuklardan ve kendisi ya da ailesinin onayı alınmış tipik gelişen çocuklardan oluşmaktadır. Deneylerde bakmaları gereken bir ekran olduğu için ve bu esnada göz izleme cihazı takmaları gerektiğinden, katılımcıların deneylerden önce göz doktoru tarafından göz muayeneleri yapılmıştır, göz kusuru bulunan kişiler katılımcı olarak alınmamıştır. OSB'li bireyler arasından orta ya da hafif derecede otizm gösteren katılımcılar alınmıştır. Bu çalışmada DEHB'li, OSB'li ve tipik gelişen çocuklarda duygu tanıma yeteneklerini tespit edebilmek için bir deney ortamı hazırlanmıştır. Deney esnasında katılımcılara mutlu, üzgün, korkmuş, kızgın ve duygusuz olmak üzere 5 farklı tipte duygu ifadesi sergilemiş, tıp doktorları tarafından da onaylanmış Cohn-Kanade veri kümesinden insan resimleri gösterilmiştir ve bu resimlerdeki duygunun ne olduğu katılımcılara sorulmuştur. Resimlerdeki duygu yoğunluğu farklı seviyelerdedir. Bazı resimlerdeki duygular açıkça belli iken bazı resimlerdeki duygular belli belirsizdir. Böylece katılımcıların aynı duygunun farklı yoğunluktaki hallerini tanıyıp tanıyamadıkları test edilmiştir. Deney sırasında katılımcılara 40 adet resim gösterilmiştir. Gösterilecek resmin hangi duygu ve seviyede olacağına rastgele olarak karar verilmiştir ve resimler her katılımcıya aynı sırada gösterilmiştir. Katılımcıların duyguları tanıma yetenekleri yanı sıra, kendilerine yöneltilen "resimdeki duygu nedir" sorusuna ne kadar sürede cevap verdikleri de ölçülmüştür. Ayrıca deney esnasında katılımcılara göz izleme cihazı takılmış ve bu cihaz sayesinde katılımcıların deney esnasında baktıkları yerler tespit edilmiştir. Göz izleme cihazı, bir kullanıcının göz hareketlerine bağlı olarak nereye baktığının anlaşılmasını sağlayan bir alettir. Kullanıcı bu cihazı normal bir gözlük gibi takar. Bu tezde, duygu tanıma deneyleri esnasında toplanan veriler ile katılımcı gruplarının birbirinden ayırt edilip edilemeyeceği konusu üzerinde durulmuştur. Bu anlamda yapılan çalışma Türkiye'de bir ilk ve kullanılan yöntemler ve hazırlanan veri kümesi açısından dünyada ilk olma özelliği taşımaktadır. Daha önceki çalışmalarda genelde hazır veri setleri üzerinde çalışılmıştır. Yeni bir deney düzeneği oluşturarak veri toplamak bu çalışmanın yenilikçi kısımlarından biridir. Elde edilen veriler ile öncelikle hangi duygu tiplerinin katılımcılar üzerinde ayırt edici bir etki oluşturup oluşturmadığına bakılmıştır. Bu analizler için katılımcıların resimlere verdikleri cevaplar ve cevap verme süreleri temel alınmıştır. Cevap ve cevaplama süresi verilerinin istatistiksel olarak anlamlı bir şekilde grupları ayırt edip edemedikleri ANOVA istatiksel analiz metodu kullanılarak tespit edilmiştir. Elde edilen sonuçlara göre korku duygu ifadesine sahip resimlerin normal gelişim gösteren çocuklar tarafından tanınma oranları OSB ve DEHB'li çocuklara göre istatistiksel olarak daha fazladır. Öte yandan mutlu, üzgün, kızgın, nötr duygu ifadeli resimler tüm gruplar tarafından aynı oranda tanınabilmiştir, dolayısıyla ayırt edici olmamışlardır. Cevaplama süresi verisinin ise tüm duygular için katılımcı grupları arasında ayırt edici özelliğe sahip olduğu gözlenmiştir. OSB'li çocuklar, diğer çocuklardan hep daha uzun sürede cevap vermiştir. Sonuç olarak cevaplama süresinin grupları ayırt etmede önemli bir öznitelik olduğu ortaya çıkmıştır. İstatistiksel analizlerden sonra makine öğrenmesi yöntemleri kullanılarak katılımcıların sınıflandırılması yapılmıştır. Öncelikle sınıflandırma işlemi sadece cevaplar ve cevaplama süresi öznitelikleri kullanılarak yapılmıştır. ANOVA testlerinden elde edilen sonuçlara göre katılımcıların resimlere verdikleri cevaplar, katılımcı grupları için ayırt edici olamamıştır. Bu durum bize, cevap ve cevaplama süresini kullanarak hazırladığımız sınıflandırıcılardan gelen sonuçların, kullandığımız tek-kayıt çıkışlı çapraz doğrulama (İng. leave-one record- out) doğrulama tekniği sayesinde yüksek çıktığını, aslında yeterli olmadığını göstermiştir. Dolayısıyla dördüncü ve beşinci bölümdeki sonuçlar tek-katılımcı çıkışlı çapraz doğrulama (İng. leave-one participant-out) doğrulama tekniği kullanılarak sınanmış ve daha güvenilir sonuçlar elde edilmiştir. Dördüncü bölümde öznitelik tabanlı sınıflandırıcılardan yararlanılmıştır. Ancak cevap ve cevaplama süresi verilerine ek olarak göz hareketi özniteliği olan sabitleme (İng. fixation) verisi de sınıflandırma işleminde kullanılmıştır. Sabitleme verisi göz izleme cihazının ürettiği, katılımcının odaklandığı noktanın koordinatlarını, baktığı bir noktaya bakma süresini, göz bebeği çapı gibi bilgileri içerir. Bu çalışmada, katılımcının deney düzeneğine baktığı andaki sabitleme verileri kullanılmıştır. Böylece verideki gürültünün azaltılması ve analizlerden daha doğru sonuçlar alınması hedeflenmiştir. Her resimde her katılımcının kaç tane sabitleme verisi ürettiği tespit edilebilmektedir. Her katılımcı farklı resimler üzerinde farklı miktarda sabitleme verisi üretebilmektedir. Sabitleme verisi, her bir resim için tek bir değerden oluşan cevap ve cevaplama süresi öznitelikleri ile birleştirilmek istendiğinde, bir kişinin her resim üzerinde oluşturduğu sabitleme verisinin ortalaması alınmıştır. Oluşan bu yeni veriye ET_log denmiştir. Bilindiği gibi Rastgele Orman( İng. Random Forest) algoritması en iyi ve en gerekli öznitelikleri kullanarak sınıflandırma yapar. Bu nedenle çalışmanın bu kısmında öznitelik seçme yöntemleri kullanmak, sınıflandırma performansını anlamlı bir şekilde etkilememiştir. Ancak veride gürültü temizleme yöntemi olan Tomek link atma metodunu kullanmak ET_log verisi ile alınan sınıflandırma sonuçlarını iyileştirmiştir. Bunun yanında ham sabitleme verisi ile alınan sonuçlar üzerinde bir etkisi olmamıştır. Bu nedenle işlemi bir adım öteye götürerek grupların sınıflandırılmasında derin öğrenme tekniklerinden yararlanılmıştır. Derin öğrenme teknikleri, çoklu soyutlama seviyesine sahip verilerin temsillerini öğrenebilmek için, çoklu işlem katmanlarına sahip modellerin üretilmesini sağlar. Biz bu çalışmada derin öğrenme tekniklerinden Evrişimsel Sinir Ağları (İng. CNN - Convolution Neural Network) ve Uzun Kısa Vadeli Hafıza Ağları (İng. LSTM - Long Short Term Memory) algoritmalarına yoğunlaştık. Kurulan yapay sinir ağı modelinde, CNN katmanı, verideki gizli öznitelikleri diğer bir ifadeyle verinin soyut temsilini ortaya çıkarmak için kullanıldı. LSTM yöntemi ise veriyi sınıflandırmak için kullanıldı. Ürettilen modellerde performans karşılaştırması yapabilmek için, hem sadece LSTM katmanının kullanıldığı sinir ağları inşa edildi hem de CNN ve LSTM katmanlarının art arda olduğu sinir ağları oluşturuldu. Tez çalışmasının bu kısmında sabitleme göz hareketi verisine ek olarak sıçrama (İng. saccade) göz hareketlerinden de faydalanılmıştır. Böylece, veri kümesindeki öznitelik miktarı artırılmıştır. Üç farklı model oluşturularak katılımcı gruplarının sınıflandırma işlemi yapılmıştır. İlk modelde sadece sabitleme verisi kullanarak sınıflandırma yapılırken, ikinci modelde sabitleme ve sıçrama öznitelikleri bir araya getirilip tek bir veri kümesine dönüştürülmüştür. Üçüncü ve son modelde ise paralel iki katman oluşturulmuş; ilk katmanda sabitleme verisi girdi olarak yapay sinir ağına verilip, paralel ikinci katmanda ise sıçrama verisi sisteme girdi olarak verilmiştir. Bu şekilde, sabitleme ve sıçrama göz hareketlerinin ayrı ayrı model performansına katkıları gözlemlenebilmiştir. Önerilen yöntemlerin gürbüzlüğünü göstermek için orijinal veriye gürültü ekleyerek yeni bir veri kümesi oluşturulmuştur ve geliştirilen yöntemler bu veri kümesi ile de test edilmiştir. Elde edilen sonuçlara göre LSTM ve CNN yöntemleri ardışık katmanlar şeklinde birlikte kullanarak bir model oluşturmak başarılı sonuçlar alınmasını sağlamıştır. Daha büyük popülasyon büyüklükleri ve alternatif girdiler hakkında daha fazla çalışmanın desteklenmesi ile, bizimki gibi yaklaşımlar erken tanıyı kolaylaştırmak ve böylece erken tedavi süreçlerini mümkün kılmak için kullanılabilir. Amaç, OSB ve DEHB üzerinde çalışan psikiyatrist ve terapistlere, bilgisayar destekli bir teknik kullanarak söz konusu katılımcı gruplarının tanılama sistemlerine yardımcı olmaktır.
One of the essential components of social interaction is recognizing emotions. Interpreting facial expressions correctly enables easier communication among people. In addition to providing an understanding of other people's intentions accurately and reacting to them appropriately, emotion recognition processes also carry clues about one's overall emotional well-being. Deficits in social interaction and social attitude are critical symptoms of children and adults with Autism Spectrum Disorder (ASD) or Attention Deficit Hyperactivity Disorder (ADHD), increasing the importance of emotion recognition for people with these major neurodevelopmental disorders. Emotion recognition behavior and performance may vary between people with major neurodevelopmental disorders such as ASD, ADHD and control groups. It is crucial to identify these differences for early diagnosis and individual treatment purposes. This thesis presents, an analysis of emotion recognition behavior of ASD, ADHD and the control groups. ASD is a complex neurodevelopmental disorder that usually surfaces during the first year of life. Some characteristics of ASD are as follows: Difficulties in social communication and interactions, problems in conducting and sustaining a relationship, difficulty of initiating and keeping eye contact. These could lead to impairment in understanding the emotion and intention of others. Also, insistence on sameness, strict adherence to routine, repetitive behaviors, and limited and intensive interests are characteristics of ASD. On the other hand, symptoms of ADHD are; hyperactivity, impairment of both attention and concentration and impulsivity. Besides, both ASD and ADHD groups show a lack of concern or inability to react to other people's emotions or feelings. Due to these stated features, patients with ASD and/or ADHD have difficulty understanding and interpreting other peoples' emotions and moods. As a result, for children and adolescents diagnosed with ASD and ADHD, social communication becomes a burden. Therefore, it is crucial to perform an in-depth analysis of emotion recognition processes and investigate the different individual deficiencies of ASD and ADHD. The research question motivating our research can be stated as follows: Do the emotion recognition ability and process differ between the clinical groups (ADHD and ASD) and the control group? If so, this difference has potential usage for differential diagnosis. People with ADHD and people with ASD are subjected to a series of clinical tests in hospitals. These tests are generally subjective, costly, time consuming and burdensome. On the other hand, early detection is essential in the success of interventions for both ASD and ADHD. To address such issues, we intend to develop a research design that can help distinguish the participant groups by using emotion recognition data. In this work, we collaborate with psychiatrists from Marmara University Medical Faculty Hospital Child and Adolescent Psychiatry Outpatient Department. The criteria in Diagnostic Statistical Manual- IV-R (DSM-IV-R) (American Psychiatric Association, A. (2000)) is used for the ASD and ADHD diagnosis. The experiments that we designed were conducted after the approval of the Marmara University Medical Faculty Ethical Advisory Board (Protocol code no: 09.2014.0194, reference: 70737436-050.06.04-140023995). Parental consent forms were read and signed by the parents of the participants before the experiments. Thirty five participants with ADHD, 18 participants with ASD and 15 control (typically developing) children underwent the prepared experiment. Unfortunately, the eye tracker measurements of some participants failed, due to calibration defects or the size of the eye tracker did not fit on some participants' faces. Therefore, we could not use data for those participants. Finally, 12 participants with complete data were selected for ASD, 12 participants with ADHD and 10 participants for the control group. All participants had an IQ score of above 70. Also, those in the ASD group who were fluent in speech and able to read and write were included in the study. Within the scope of this thesis, we aim to distinguish the participants with ASD, participants with ADHD and the control group by using data collected during a set of emotion recognition experiment. We propose an experimental environment where the participants wear an eye tracker and they are shown some emotive facial images as stimuli. Emotional stimuli are used in many studies to measure human perception. In our work, the participants are asked to state the emotion in the presented images. The purpose of the experiment is to understand how participants react to these images, measured by their eye movement and also what their emotion detection responses are for each image. The response, the response time and the eye tracker fixation data are recorded and used for analysis. We present results under two different categories. First, we perform statistical analysis of the differences in the emotional recognition behaviors of participant groups by using one-way ANOVA test. Second, we employ the data obtained during the experiments to classify the participants' diagnosis by using machine learning methods. As machine learning techniques we use not only feature based classifiers such as Random forest, Logistic Regression, SVM classifiers also deep learning techniques such as CNN (Convolutional Neural Network) and LSTM (Long-Short Term Memory). In order to clean the data from noise, Tomek links removing method is employed with the feature based methods. When we investigate the important features of the fixation and application log data combination, we conclude that fixation features have a higher importance than the application log data which includes response and response time. This result is confirmation of that the eye movement data is more informative than the application log data. Deep learning techniques enable the production of models with multiple layers of processing to learn the representations of data with multiple abstraction levels. In the established neural network model, the CNN layer is used to expose the abstract representation of the features and LSTM method is used to learn the model of the data. Different time steps options and different integration of eye movement features are employed as inputs to the generated models. The principal contributions of this work are as follows: -We report that response, response time and pupil diameter measurements of the participant groups have statistically significant differences. -We show that using eye movement data and application log data collected during the emotion recognition experiment is crucial to classify ASD, ADHD and the control groups. -We compare the feature based classifiers and deep learning classification algorithms. -We propose a deep learning framework incorporating (CNN) and (LSTM) for participant diagnosis classification task based on the emotion recognition behaviors of the participants. With the support of more studies on larger population sizes and alternative types of inputs, approaches like ours can be used to facilitate early diagnosis and hence enable early treatment processes. The target purpose is to help psychiatrist and therapist working in ASD and ADHD on the automation of diagnostics of the mentioned participant groups using a computer-aided technique.