Tez No İndirme Tez Künye Durumu
546544
Emotion aware artificial intelligence for cognitive systems / Bilişsel sistemler için duygu farkındalıklı yapay zeka
Yazar:DEĞER AYATA
Danışman: DOÇ. DR. YUSUF YASLAN ; PROF. DR. MUSTAFA ERSEL KAMAŞAK
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Duygu ifadesi = Expressed emotion ; Makine öğrenmesi = Machine learning ; Yapay zeka = Artificial intelligence ; İşaret işleme = Signal processing
Onaylandı
Doktora
İngilizce
2019
139 s.
İnsanlar arası iletişimde önemli rol oynayan duygular belirli yüz ifadeleriyle kültürlerden bağımsız olarak ifade edilebilmekte, insanlar duygularını etkileştikleri kişilere duygusal kelimelerle sözlü olarak, hareketlerle sözsüz olarak, yüz ifadeleriyle veya vücüdundaki fizyolojik değişikliklerle yansıtmaktadır. İnsan-bilgisayar etkileşiminin artması ile birlikte duygusal ifadelerin algoritmalar tarafından otomatik olarak tanınması ve etkileşim senaryoları içerisine dahil edilerek akışın belirlenmesi gerekliliği ortaya çıkmıştır. Birçok modern İnsan-Bilgisayar Etkileşim sistemleri farklı kaynaklardan ve modalitelerden gelen duygu taşıyan ifadeleri veri ile birlikte yorumlamaktan ve duyguları tanımaktan uzaktır. Kognitif bilişim, makine öğrenimi, sinir ağları, doğal dil işleme, işaret işleme, görüntü işleme gibi alanları temel alarak öğrenen ve adapte olabilen algoritmalar ile insan-bilgisayar etkileşiminde karşılaşılan görüntü tanıma, ses tanıma, duygu ve ifadelerin anlaşılması, ilişki çıkarımı gibi birçok probleme çözüm üretmek için bilgisayar bilimi, psikoloji, nörobilim gibi birçok bilim dalı ile etkileşir. Kognitif bilimin bir amacı da duygu tanıyabilen sistemler oluşturmaktır. Duygusal ifadelerin algoritmalar tarafından otomatik olarak tanınması dijital asistanlar, insansı robotlar, bilgisayar destekli eğitim uygulamaları, duygusal farkındalıklı oyunlar, nöro pazarlama, chatbot'lar, öneri sistemleri gibi birçok insan-bilgisayar etkileşimi içeren yapay zeka sisteminin yeteneklerini arttıracak ve insanlarla kurduğu iletişimin kalitesini yükseltecektir. İnsanlar duygusal ifadeleri kolayca tanıyabilmekle birlikte, algoritmalar tarafından duyguların tam ve doğru olarak tanınması hala zorlu bir problemdir. Duygu tanımlama için yüz ifade analizi yaygın bir şekilde kullanılmaktadır. Yüz ifadeleri kültürlerden bağımsız olarak şaşkınlık, kızgınlık, mutluluk, üzülme, korku, iğrenme ve yalın kategorilerinde ifade edilebilmektedir. Bununla birlikte insanların yüz ifadelerini değiştirmeleri ya da kamufle etmeleri durumunda sadece yüz ifade analizi kullanmak güvenilir sonuçlar alınmasını engellemektedir. Yüz ifade analizi ile kıyaslandığında fizyolojik sinyaller ve ses analizi ile duygu analizi yapmak, duygu ve iç bilişsel süreçler hakkında bilgi elde etmek için daha güvenilir olabilecektir. Mevcut duygu tanıma yaklaşımlarının önemli bir kısmında yüz ifade analizi, PET (Pozitron Emisyon Tomografisi), fMRI (fonksiyonel Manyetik Resonans Görüntüleme), EEG (Elektroensefelografi), göz bebeği hareketleri, cilt iletkenliği, nabız, ses, yüz ifadelerinin analizi gibi tek bir modalite kullanılarak insanların belirli bir uyarana karşı verdiği tepkiler ve duygular ölçümlenebilmektedir. Bu tür yaklaşımlar kişinin beyanlarını değil tamamen bilinçaltı ve bilinç düzeyindeki duygusal etkileşimlerini belirlemeyi hedeflemektedir. Fakat son yıllarda teknolojinin gelişmesi, donanımın ucuzlaması ile farklı kaynaklardan veri toplama ve analiz etme kapasitesine ulaşmak daha kolay bir hale gelmiştir. Tek bir modalite yerine çoklu modalite kullanmak daha güvenilir ve doğru sonuçlar üretebilecektir. Bu tezde ilk amacımız insanlara benzer şekilde farklı modalitelerden "Duygu Tanıyabilen Yapay Zeka" yaklaşımı geliştirmektir. Bu kapsamda öncelikle beyin-bilgisayar arayüzleri (BBA) kullanarak duygu tanıma probleminin nasıl kotarılabileceği çalışılmış ve EEG tabanlı duygu tanıma için birçok yöntem ele alınmıştır. Daha sonra EEG ve fizyolojik sinyaller için çok-kipli (multi-modal) duygu tanıma problemi ele alınmış ve çoklu modalitelerin bir arada kullanımı ile duygu sınıflandırılması yapılmıştır. İkinci amacımız önerdiğimiz duygu tanıma çözüm bileşenlerinin farklı yapay zeka sistemlerine entegrasyonunu ele almaktır. Bu bağlamda duygu tabanlı müzik öneri sistemi, dijital duygu farkındalıklı kişisel asistan ve duygu farkındalığı olan sağlık sistemi mimarileri önerilmiş ve duygu tanıma motorunun bu yapay zeka sistemleri ile nasıl entegre edilebileceği ele alınmıştır. Önerilen mimariler chatbotlar, bilgisayar destekli eğitim, oyunlar, nöro pazarlama, öneri sistemleri, sosyal zeka yeteneği olan uygulamalar gibi insan - bilgisayar etkileşiminin olduğu zengin bir alanda kullanılabilir. Tıp alanında hastalara destek amacıyla başlayan BBA çalışmaları son yıllarda nöropazarlama, nöroterapi (meditasyon), oyun ve eğlence uygulamalarında kullanılmaya başlanmıştır. Bu alanlardaki uygulamaların kullanıcının ve hastanın duygu durumunun farkında olması kullanıcı deneyimini zenginleştirecek ve kişiye özgü akışların olmasına imkan sağlayacaktır. EEG sinyalleri çalışması kapsamında ayrık dalgacık dönüşümü, zaman tabanlı öznitelikler, veri füzyonu ve makine öğrenmesi teknikleri kullanılarak ele alınmış ve karşılaştırmalı sonuçlar elde edilmiştir. Veri füzyonu kapsamında birden çok kanal verisini birlikte kullanmanın olası avantajları ele alınmış ve füzyon ile elde edilen sonuçlar değerlendirilmiştir. Literatürde sık kullanılan özniteliklere ek olarak denetimsiz (unsupervised) biçimde öznitelikler öğrenilmiş ve EEG için denetimsiz öznitelik öğrenmenin başarılı sonuçlar verdiği gösterilmiştir. EEG için yaptığımız çalışmalar diğer modaliteler için de temel oluşturmuştur. Fizyolojik sinyaller ile duygu tanıma problemi kapsamında öncelikli olarak gerekli öznitelikler çalışılmıştır. Bu bağlamda farklı öznitelik kümeleri elde edilmiş ve özniteliklere göre başarım oranları karşılaştırılmıştır. Öznitelikler belirlendikten sonra fizyolojik işaretlere dayalı duygu farkındalıklı yapay zeka iki ana mimari ve çerçevede çalışılmıştır. İlk mimari (çerçeve) müzik öneri sistemleri ile duygu tanıma sistemlerinin etkileşimini ve entegrasyonunu ele almaktadır. Muzik öneri sistemlerinin çoğu işbirlikli veya içerik temelli öneri motorları kullanmaktadır. Bunla birlikte, kullanıcıların müzik seçimleri sadece geçmişte dinlemiş oldukları şarkılara ve muzik içeriklerine bağlı değildir, aynı zamanda duygu durumlarına bağlıdır. İlk mimaride giyilebilir fizyolojik algılayıcılarla kullanıcıdan elde edilen sinyallerle kullanıcının duygu durumunu belirleyerek duygu tabanlı müzik öneri sistemi çerçevesi önerilmiştir. Kullanıcılardan Galvanik Deri Direnci (GDD) ve Fotopletismografi (FPG) sinyalleri kullanılarak duygusal uyarılma (arousal) ve hoşlaşma (valence) değerleri belirlenerek füzyon yöntemi ile elde edilmiştir. Fizyolojik sinyaller ile duygular arasındaki ilişkiler Rastgele Ağaçlar (RA), Destek Vektör Makinası (DVM) ve Logistik Regresyon (LR) ile çalışılarak elde edilen sonuçlar karşılaştırılmıştır. Testler önerilen duygu sınıflandırma sisteminin iyi sonuçlar verebileceğini göstermiştir. İkinci mimarinin (çerçeve) giyilebilir teknolojiler ile bulut bilişim yöntemlerini duygu farkındalığı olan sağlık sistemlerine uyarlamayı hedeflemektedir. Sağlık izleme sistemlerini duygu verisi ile desteklemek sağlık hizmetini zenginleştirecek ve kalitesini arttıracaktır. Özellikle yaşlılar için sağlık ve duygu durumlarının birlikte izlenmesine ihtiyaç vardır. İkinci mimaride duygu tanıma Solunum Kemeri (Respiratory Belt), Fotopletismografi ve Parmak Ucu Sıcaklığı (Finger Tip Temperature) algılayıcıları ile çoklu kanal verisi kullanılarak yapılmıştır. Farklı modalitelerden oluşan çoklu kanal verisi füzyon yöntemleri kullanılarak sınıflandırılmıştır. Önerilen sistem birden fazla kanal ve modalite kullandığından başarım yanısıra daha gürbüz bir çözüm sunmaktadır. Üçüncü çerçevede dijital kişisel asistanlar için "İnsan Seslerine Dayalı Duygu Tanıma Sistemi" mimarisi önerilmiştir. Ses sinyallerinden duygu tanıma yapmak özellikle görüntü elde etmenin zor olduğu ya da görüntü kalitesinin kötü olduğu durumlarda önem kazanmaktadır. Çalışmada derin öğrenme algoritmaları yanısıra klasik makine öğrenmesi yaklaşımları da çalışılmış ve dijital asistanların duygu farkındalıklı işleyebilmesi için bir mimari önerilmiştir. Kısa ve uzun sinyaller ele alınmış ve sinyal sürelerinin uzaması durumunu yönetmek için bir metodoloji önerilmiştir. Öncelikle istatistiksel öznitelikler ve DVM ile sınıflandırma yapılmış, daha sonra MFCC (Mel Frequency Cepstral Coefficients) ile elde edilen öznitelikler ile çalışma tekrar edilmiştir. Çalışmanın üçüncü aşamasında öznitelikler derin öğrenme yaklaşımlarında kullanılan konvolüsyonel sinir ağları ile çıkarılmış ve sesten duygu tanıma problemi farklı mimariler ile test edilerek sonuçlar elde edilmiştir. Sesten duygu tanıyan motorun dijital asistanlara entegrasyonunun nasıl yapılabileceği ile ilgili olarak da bir mimari sunulmuştur. Deneysel sonuçlara göre, sınıflandırıcı parametre optimizasyonu ve önerilen ses analiz yöntemleri, duygu tanıma başarımlarını arttırmaktadır. Sonuç olarak, Elektroensefelografi, Fotopletismografi, Galvanik Deri Direnci, Parmak Ucu Sıcaklığı, Solunum Kemeri ve Ses sinyalleri kullanılarak duygu tanıma işlemi gerçekleştirebilen yapılar geliştirilmiş ve bu yapıların dijital asistan, müzik öneri sistemi, sağlık sistemi gibi yapay zeka sistemleri ile bilişsel bilişim için nasıl entegre edilebileceği çalışılmıştır. Bu sinyaller ile duygu arasındaki ilişkiler ortaya konulmuş ve sınıflandırma başarımları raporlanmıştır. Tezde yapılan çalışmalar ile duygu tanımanın farklı modaliteler ile yapılabileceği, farklı modalitelerin bir arada kullanılarak başarım oranının arttırılabileceği ve gürbüz sistemlerin hayata geçirilebileceği görülmüştür. Bu çalışmalarda önerilen mimariler farklı modaliteler ve farklı yapay zeka sistemlerine de uygulanabilir. Yakın bir gelecekte, duygu tanıma yeteneğine sahip olan bilişsel sistemler daha iyi analiz ve iletişim becerisine sahip olacak ve insan-bilgisayar etkileşimi daha doğal hale gelecektir.
Cognitive computing systems (CCS) simulate human cognition processes, including self-learning, emotional competence, language understanding, social interaction, interpretation, planning, decision-making and problem solving, as they are integrated with environmental perception and action mechanisms. CCS are designed based on interdisciplinary research disciplines including psychology, machine learning, artificial intelligence, signal processing, computer vision and human-computer interaction. A cognitive computing system is contextual, adaptive, interactive, stateful and reformulates the essence of the relationship between human and ubiquitous digital ecosystem. As the human being started to communicate with artificial intelligent agents, automatic emotion recognition has become an important field. Majority of the human computer interaction systems are not emotion aware. One of the most important goal of a cognitive system is to be emotion aware, so that it can consider human moods during the conversation and in relation to context it can use emotion state as an input to response process and actions. Artificial emotional intelligence or Emotion AI (Artificial Intelligence) is also known as affective computing, emotion recognition or emotion detection. Emotion AI enables many applications to recognize human emotional states and considers their response or actions based on detected emotions. Emotion AI can be applied and integrated to a rich domain set including, digital assistants, humanoid robots, human-robot interactions, chat bots, recommendation engines, neuromarketing, computer games. The majority of existing emotion understanding techniques is based on a single modality. The most commonly studied approach is facial expression recognition among single modalities. One reason for this is facial expressions contributes more than vocal and vocal part to the whole message. Another reason is that Ekman states that facial expressions of emotions are universal, and that the expressions of the human face can be classified into categories regardless of race or age. However people have capability to camouflage their emotions during conversation. Using only signals of facial expression have disadvantages: they alone are not reliable to detect emotion, especially if people want to hide their feelings. In order to overcome this disadvantage, physiological, electroencephalography (EEG) and human voice signals have been incorporated into emotional recognition research. EEG and physiological provide "internal" look at emotion processes while images and video sequences give "external" look on the emotion recognition problem. In the last decade, important developments both in hardware and software made easier to acquire information from various modalities. Compared with single modality, multi-modal data can provide more and complete knowledge about the problem of interest. Augmenting modality sources increases accuracy and give an AI agent to evaluate a rich set of sources in order to obtain the best performance. In this thesis, our first goal is to develop Emotion AI engine that can detect emotion as good as humans do, from different signal sources. Second goal is developing a multi modal emotion-understanding scheme to understand collaboration of multi phenomenons. Our third goal is to develop frameworks to integrate Emotion AI to various artificial intelligence applications. This thesis covers studies for brain signals (EEG), physiological signals (Galvanic Skin Response (GSR), Photoplethysmography (PPG), Respiratory Belt (RB), Finger Tip Temperature (FTT) and human voice signals based emotion recognition problem in the core. After emotion recognition problem has been tackled for a signal, collaboration with an AI system is also considered and frameworks have been proposed. In a nutshell, emotion recognition collaboration and integration with artificial intelligence for cognitive systems has been studied. Emotion aware interfaces have been developed and frameworks for artificial intelligence applications have been proposed. Also frameworks have been proposed for recommendation engines, digital personal assistants, health monitoring and tracking and brain computer interfaces. Firstly, a signal based pipeline utilizing EEG signals has been studied as a part of Brain Computer Interface based emotion recognition problem. EEG study is focused especially on feature extraction and representation methods. This emotion recognition pipeline then became the basic baseline in terms of preprocessing, feature extraction, feature representation for each modality. We have proposed artificial intelligence frameworks that can be integrated to emotion recognition pipelines to create emotion aware capabilities. Emotional AI using physiological signals has been studied with two major tasks. The first task is presenting a framework with the aim to improve the performance of music recommendations by means of human physiological signals data. Emotion recognition from multi-channel physiological data is performed, data fusion approaches have been utilized to fuse data from GSR and PPG modalities with Feature Level Fusion (FLF). Combining these modalities via FLF yielded better results, in particular for emotional arousal. The presented framework is promising for music recommendation engines in terms of adding multi-modal physiological signals phenomenon to the music suggestion logic. The second proposed framework is Emotion-aware Mobile Cloud Computing Framework for Healthcare Systems. Assisting health monitoring systems with emotional data can improve the overall service quality. More and more elderly people need constant monitoring of their health and emotional conditions. The framework uses the Respiratory Belt, Photo Plethysmography and Finger Tip Temperature data captured from subjects when they are in different emotional states. Emotion recognition from multi-channel physiological modalities was conducted and decision fusion approaches have been considered to fuse data coming from three bio-sensors source channels and decision level fusion (DLF) has been implemented. Emotional valence and arousal have been classified and relation between physiological signals data and emotion has been studied. The study presents a framework by combining wearable computing and cloud computing approaches for emotion aware health care systems. Lastly but not least, emotion recognition problem for Digital Personal Assistants (DPA) is considered and a deep learning based frameworks called DEAPA (Digital Emotion Aware Personal Assistant) is presented as third architecture. Deep learning approaches have been also compared with hand crafted machine learning approaches. In this last study speech signals have been studied to extract emotion from human voice signals. The study is combined with digital personal assistants architecture and the third framework is proposed. The study demonstrates that deep learning approaches work better or produce similar results compared to handcrafted feature based approaches. Deep learning approaches also provides solution to labelling of huge amount of unlabelled data problems. The proposed framework's aim is to able to create a natural, flexible and adaptable human-machine dialogue systems. This thesis can play a significant role in the study of expressive communication between people and cognitive computers. The proposed framework and the findings of the thesis can lead to improve user experience of digital personal assistants, recommendation engines, human robot interaction applications, neuro marketing, health monitoring and tracking applications. Adding emotion-sensing capabilities will enable emotion-aware applications to significantly enhance the user experience and creating natural and sensible cognitive based interactions. In the near future, the number of intelligent devices with cognitive computing capabilities will increase and this type of devices will be able to detect and capture emotions to analyze the situations and context. Emotion aware cognitive systems will help humanity to augment their abilities in a way that extends their capacities, making them more productive and efficient.