Tez No İndirme Tez Künye Durumu
384933
An embedded design and implementation of a facial expression recognition system / Yüz ifadelerini tanıma sistemi gömülü sistem tasarım ve uygulaması
Yazar:ÖMER SÜMER
Danışman: PROF. DR. ECE OLCAY GÜNEŞ
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
Konu:Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:Sayısal görüntü işleme = Digital image processing ; Yüz ifadesi = Facial expressions
Onaylandı
Yüksek Lisans
İngilizce
2014
87 s.
Sosyal sinyal işleme ve bilgisayarlı görü alanında, son yıllarda bir ölçüde sosyal bilimler ve davranış bilimleriyle ilgili yapılan çok sayıda çalışma dikkat çekmektedir. Duygu analizi, pazar eğilimlerini belirleme, karar verme mekanizmalarını anlama, sosyal ilişkiler ve ardında yatan sebepleri belirleme gibi konularda önemli bir potansiye barındırmaktadır. Duygu analizinde kullanılan tanımlayıcılar arasında en kullanışlı ve öne çıkanı, yüz ifadelerinin kullanılmasıdır. Bu tezde, otomatik yüz ifadelerinin tanınması konusunda son gelişmeler ve kullanılan yöntemler üzerine bir literatür araştırması yapılmış ve bu işlemi geçekleştirecek bir gömülü sistem çerçevesi oluşturulmuştur. Yüz ifadeleri konusunda temel yaklaşım, doğrudan durağan duyguların sınıflandırılması ya da hareket parçacıklarının sınıflandırılmasından duygulara geçiş yapılmasıdır. Bu çalışmada Ekman tarafından farklı kültür ve toplumlarda da ayırt edici özelliği ispat edilen temel duygu sınıfları kullanılmıştır. Yüz ifadelerinin sınıflandırılması temelde n sınıflı bir sınıflandırma problemidir. Yapılan literatür taraması sonucunda daha önce kullanılan yöntemler karşılaştırmalı olarak incelenmiştir. Problemin genel çerçevesi içerisinde, ön işleme, öznitelik vektörü çıkarma, sınıfladırma işlemleri uygulanır. Ön işlemede kullanılabilecek yöntemler incelenmiş ve Tan & Triggs normalizasyonu kullanılmıştır. Öznitelik vektörü çıkarma aşamasında ise, yerel ikili örüntü (YİÖ), yerel üçlü örüntü (YÜÖ) ve Gabor filtreleri yöntemleri karşılaştırmalı olarak ele alınmış olup standart veritabanları ve deneyler üzerinde performansları incelenmiştir. Özellikle son yirmi yılda, yüz analizi çalışmalarının hız kazanmasıyla birçok veri kümesi ve stardart deney ortaya atılmıştır. Bunların birçoğu, laboratuvar kontrollü, sabit ışık altında, poz ve duruş değişimi bulunmayan veri kümesiyken, zaman içinde bu standart koşullar altında elde edilen veri ile oluşturulan sistemlerin gerçek dünya koşullarında beklenen doğruluk oranlarında çalışmadığı görülmüştür. Bu nedenle, internet ortamında belli kilit kelimelerle yapılan aramalardan döndürülen veya TV dizileri, filmler gibi multimedya kaynaklardan derlenen veri kümeleri, kullanılan yöntemlerin test edilmesi için daha gerçekçi bir ölçü sunmaktadır. Bu durum dikkate alınarak, kullanılan yöntemler her iki türden veri kümesi üzerinde de sınanmıştır. Bu çalışmada, öznitelik vektörü olarak yerel ikili örüntü (YİÖ), yerel üçlü örüntü (YÜÖ) ve Gabor filtreleri, öğrenme aşamasında ise destekçi karar makineleri kullanılmış olup Geliştirilmiş Cohn Kanade , MMI yüz ifadeleri, JAFFE ve SFEW veri kümelerinde çeşitli deneyler yapılarak yöntemin başarısı sınanmıştır. Bunun yanında çeşitli filmlerden seçilerek oluşturulmuş SFEW veritabanı da kullanılarak sistemin başarısı nispi olarak gerçek dünya koşullarında ve ortam şartlarının değişiklik gösterdiği görüntüler üzerinde de ölçülmüştür. Özellikle, öznitelik çıkarma aşamasında kullanılan Yerel ikili örüntü (YİÖ) ve yerel üçlü örüntü (YÜÖ) yöntemleri literatürde yüz ifadesi analizinde kullanılan diğer yöntemlere kıyasla oldukça başarılıdır. Bu başarının nedeni, ışık veya ortam değişimleri sebebiyle gerçekleşen monoton gri seviye değişimlerinin olumsuz etkisini azaltması ve hesaplama anlamında kolaylığında yatmaktadır. Hesaplama kolaylığı özellikle yüz ifadeleri analizi gömülü sistem üzerinde yapıldığında önem kazanmaktadır. Hedef platformların işlem kapasiteleri daha karmaşık yöntemler kullanıldığında öznitelik vektörü çıkarılması aşamasında zaman kaybına sebep olduğundan nihai olarak oluşturulacak sistem video üzerinde akıcı olarak çalışmamaktadır. Diğer veri kümelerinden farklı olarak gerçek koşullara yakın nitelikteki SFEW veritabanında, yerel ikili örüntü (YİÖ) ve destekçi karar makineleri ile yedi sınıf doğruluğu %59.76 olarak elde edilmiştir. Bu noktada, yapılacak yeni çalışmalarda yöntemlerin sınanması için standart koşullarda elde edilen görüntülerin yanı sıra, gerçek ya da gerçeğe yakın koşullarda elde edilen görsel verinin kullanılması gerektiği görülmüştür. Deneysel sonuçlara bakıldığında, yerel üçlü örüntü (YÜÖ) ve destekçi karar makineleri kullanılarak Geliştirilmiş Cohn Kanade veritabanı üzerinde öfke, mutluluk ve şaşırma ifadeleri sırasıyla %97.78, %100 ve %97.59 başarıyla sınıflandırılmıştır. Benzer şekilde, yerel ikili örüntü (YİÖ) ve Gabor filtreleri de kullanılan veritabanları üzerinde çeşitli deneylerde kullanılmıştır. Örneğin; 5 ölçek ve 7 yönde uygulanan Gabor filtresi diğer yöntemlere yakın başarı göstermesine rağmen zaman yönünden gömülü bir uygulamada kullanıma uygun olmadığı görülmüştür. Diğer yandan, bu çalışmanın en önemli taraflarından biri, yüz ifadelerinin sınıflandırılması gibi güncel ve kullanım alanı çok geniş olan bir probleme gömülü platformlarda çözüm ortamı oluşturmasıdır. Nitekim, yüz ifadelerinin sınıflandırılması doğası gereği mobil çözüm imkanlarını gerektirmektedir. Gömülü linux sistemler, SoC platformlar ve FPGA'lar kullanılarak yapılan çalışmalar incelendiğince yüz ifadelerinin analizini konu alan oldukça az sayıda çalışma olduğu görülmektedir. Bilgisayar ortamında yapılan deneylerin yanı sıra, yüz ifadelerinin otomatik olarak sınıflandırılması Xilinx SoC geliştirme kartında linux (Linaro Ubuntu) işletim sistemi üzerinde C++/OpenCV geliştirme ortamı kullanılarak hem statik görüntüler, hem de videolar üzerinde gerçeklenmiştir. Gömülü sistemde, daha önce incelenen yöntemler arasından geometrik ve Tan & Triggs normalizasyonu, yerel ikili örüntü (YİÖ) ve destekçi karar makineleri kullanımıştır. Gömülü sistem uygulamasında, Geliştirilmiş Cohn Kanade veritabanındaki yüz ifadesi etiketi bulunan 327 resim kullanılarak oluşturulan destekçi karar makinesi modeli kullanılmıştır. Öte yandan, gömülü sistem üzerinde yapılan örnek uygulamada da kullanılan YİÖ öznitelik vektörleri test resimleri üzerinde uygulanarak zaman performansı ölçülmüştür. Geliştirilen örnek uygulama hem bilgisayar ortamında, hem de kullanılan gömülü sistem platformunda çalıştırılmış ve yedi sınıflı yüz ifadeleri analizi başarıyla gerçekleştirilmiştir. Özellikle mutluluk, öfke, şaşırma ve mutsuzluk sınıflarının daha başarılı şekilde sınıflandırıldığı görülmektedir. Bu çalışmada, daha önce gömülü platformlarda gerçeklenen yüz ifadelerini tanıma sistemleri karşılaştırmalı olarak incelenmiş ve bunlardan farklı olarak kendi gömülü sistem çerçevemiz sunulmuştur. Önerilen sistem ile, durağan resimler ve hareketli videolar üzerinde yüz ifadelerinin analizi yapılabilmektedir. Xilinx SoC geliştirme kartında linux işletim sistemi çalıştırılmış ve bir C++/OpenCV uygulaması ile sistem gerçeklenmiştir. Bu uygulama ile statik görüntüler ve video üzerinde yaklaşık olarak saniyede 4-5 görüntü hızında, yüz ifadeleri tanıma işlemi gerçekleştirilmiş ve zaman performansı açısından oldukça iyi sonuçlar elde edilmiştir.
In social signal processing and computer vision, there has been increasing number of studies which are related with social and behavioural sciences to some extent in last years. Affective state of human has very significant potential in many application areas such as evaluating market trends, understanding the decision-making, interpreting social interactions and their underlying background, and so on. Among the agents that make our emotions understandable, the facial expressions are the most prominent and descriptive sign of a humans's affective state. This thesis presents a literature survey on the state-of-the-art of facial expression recognition, comparison of different approaches in automatic analysis of emotions, and proposes a new embedded framework for facial expression recognition problem. Although there have been large number of studies in facial expression recognition, the number of "affective'' embedded systems are fairly scarce. In this study, an efficient embedded framework is implemented on a system-on-chip (SoC) development board. Many application areas of facial expression recognition systems necessitate the mobility, and embedded platforms which have both hardware and software development tools, as well as low power consumption and increased adaptivity. In this study, different feature extraction methods such as local binary pattern (LBP), local ternary pattern (LTP) and Gabor filters are compared using different extraction strategies and varied kernel functions and parameters in learning phase, support vector machines (SVM). In embedded framework of facial expression system, local binary patterns and support vector machines-based methodology is preferred, because of its higher accuracy and time performance. Besides OpenCV implementation on embedded linux operating system, Zynq-7000 all programmable SoC is used to measure the performance of LBP feature extraction. Our final system has capable of facial expression recognition in both static images and video sequences at 4-5 fps.