Tez No |
İndirme |
Tez Künye |
Durumu |
413410
|
|
Robust face recognition on nonlinear manifolds / Doğrusal olmayan manifoldlar üzerinde gürbüz yüz tanıma
Yazar:BİRKAN TUNÇ
Danışman: PROF. DR. MUHİTTİN GÖKMEN
Yer Bilgisi: İstanbul Teknik Üniversitesi / Bilişim Enstitüsü / Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Yüz tanıma = Face recognition ; Örüntü tanıma = Pattern recognition
|
Onaylandı
Doktora
İngilizce
2012
96 s.
|
|
Günümüze dek yapılmış tüm çalışmalara rağmen, yüz tanıma konusu hala kontrollü ortamlarda gösterdiği başarının ötesinde bir ilerlemeye ihtiyaç duymaktadır. Görüntüleme sırasında etkin olan, ışıklandırma, poz, yüz ifadeleri gibi değişimler tanıma etkinliğini olumsuz yönde ve yoğun bir biçimde etkilemektedir. Belli değişimler karşısında başarı gösteren yöntemler geliştirilmiş olmasına karşın, farklı değişimleri aynı yaklaşım ile modelleyebilen bir çalışmadan bahsetmek pek mümkün olamamaktadır.
Bu çalışmanın amacı, farklı değişimleri modelleyebilecek genel bir yaklaşımın tasarlanması ve başarımının ölçülmesidir. Sunulan yaklaşımın, değişimlere özel ayarlamalara ihtiyaç duymadan, yalın hali ile kullanılabilmesi ve böylece farklı alt uzay incelemelerini aynı çatı altında toplayabilmesi hedeflenmektedir. Önerilen yöntem, genel hatları ile, alt uzay tasarımlarına dayanmaktadır ve böylece gelecekte yöntemin ne şekilde geliştirilebileceği, açık bir şekilde sunulmaktadır.
Bu çalışmada, olasılık tabanlı PCA benzeri bir çerçeve kullanılarak, doğrusallıktan belli düzeyde uzak değişimlerin modellenebilmesi ve bu değişimlerin var olduğu durumlarda sınıflandırma yapılabilmesi için genel amaçlı bir yöntem geliştirilmiştir. Yöntem iki temel aşamadan oluşmaktadır: (1) Manifold öğrenimi ve (2) olasılık temelli üretim modeli. İlk aşamada elde edilen düşük boyutlu alt uzay konaçları, ikinci aşamada sınıfa özel altuzayların belirlenmesinde kullanılmaktadır. Yöntemin en belirgin üstünlüğü, her sınıf için ayrı bir alt uzay elde edilmesi ve eğitim aşamasında her sınıfın tek bir örneğinin yeterli olmasıdır. Sınıfların bağımsız alt uzaylar içerisinde modellenmesi, yöntemin ayrım gücünü oldukça arttırmaktadır.
Yöntemin farklı değişimler altında çalışabildiğini göstermek amacıyla, ışıklandırma, poz ve ifade farklılıkları söz konusuyken yüz tanıma deneyleri yapılmıştır. Yöntem, mevcut yazında başarılı olarak nitelendirilen yöntemlerle yarışan başarım oranları elde etmiş ve yüksek boyutlu veritabanları için de uygun olduğunu kanıtlamıştır.
Önerilen yöntemin bazı temel artı değerleri şu şekilde sıralanabilir: (1) Manifoldlar üzerinde tanımlı farklı değişimler, yöntem üzerinde yenilemeye ihtiyaç duyulmadan kontrol altına alınabilmektedir. (2) Geleneksel etmen çözümlemesi yaklaşımının etkinliği ve ölçeklenebilirliği, sınıf temelli bir yaklaşım ile arttırılmıştır. (3) Karar verme süreci tamamen olasılıksaldır ve böylece yüksek boyutlu veritabanlarına yönelik olarak öncül olasılıkların devreye sokulması ve alınacak kararın alan bilgisi ile kuvvetlendirilmesi mümkündür. (4) Üç boyutlu modellemeler ile kıyaslandığında, ön inceleme aşamasının zaman karmaşıklığı daha düşüktür. (5) Her kişinin tek bir örneğinin bulunması tanıma için yeterliyken, birden çok görüntünün bulunması durumunda başarımı arttıracak eklentiler de tanımlanmıştır.
|
|
The face recognition is one of the most studied, yet one of the most incomplete topic due to the nonlinearity and the diversity of variations which are effective during the data acquisition. Developing an algorithm that can handle illumination, pose, expression, occlusion etc. altogether still seems to be a very challenging job. There exist lots of study concerning invariant representations to handle certain variations, yet a generic approach to model different variations at once still seems to be a task to accomplish.
In this study, we define a baseline framework to handle different types of variations. The main attention is to propose a guideline that can be used for different types of variations without requiring any modifications depending on the physical or geometric characteristics of the concerned variation. In other words, the methodology can be utilized for recognition under illumination, pose changes or expression changes. The proposed method is established over the subspace analysis; therefore, the direction of the future works is also defined explicitly.
A general framework is developed to model nonlinear variations in object appearances and to enable object classification under such variations, which is similar in essence to the probabilistic interpretation of PCA. The proposed method can be summarized as a two-step probabilistic framework. The first step is a bootstrap phase in which the useful statistics are calculated. A manifold learning technique is employed at this step to define the geometry of the subspace. The second step includes regular training and testing tasks. Images of a person under a certain variation are assumed to be generated by a linear generative model. The identity of a novel observation is determined by the likelihood of being generated by this model. The main advantage of the proposed method is the fact that it models each class in a separate subspace and it requires a single instance of each class to do so. Defining different subspaces for individual classes increases the separation capacity of the method.
Numerous experiments were performed to analyze the performance of the proposed method against different variation types and with relatively large databases. In both cases, the results are very promising.
Several advantages of the method can be summarized as follows: (1) different types of variation that lie on smooth manifolds can be handled by the method, (2) the scalability of the classical factor analysis is improved by a class dependent scheme, (3) the decision process is fully probabilistic, and posterior probabilities can be utilized for large scale and domain specific real life applications by incorporating priors on the identities, (4) bootstrap has less time complexity compared to 3D rendering approaches, and finally (5) a single observation for each identity is sufficient to perform reliable recognition while a way to use more images is also introduced. |