Yüz tanıma problemi, durgun görüntü veya videolardan elde edilmiş görüntülerdeki kişilerin otomatik olarak kimliklerinin tespit edilmesi veya doğrulanmasıdır. Bu alandaki sorunlar, görüntülerin aydınlatma, çözünürlük, yüz ifadesi veya poz gibi farklılıklarından kaynaklanmaktadır. Yüz tanıma sistemleri bilgi güvenliği, otomatik denetleme, eğlence uygulamaları gibi birçok alanda kullanılmaktadır. Yüzden daha kesin sonuçlar üretebilecek biyometrik göstergeler (ör: parmak izi, iris) vardır. Ancak, bu göstergeler alınırken verici ile işbirliği yapmayı gerektirmektedir. Yüz imgelerinin verici farkında olmasa dahi alınabilmesi, yüz tanıma sistemlerine olan ilgiyi arttırmıştır.
Yüz tanıma sistemleri genel olarak dört aşamadan oluşur. Bunlar, yüzün tespit edilmesi, normalizasyon, öznitelik çıkarımı ve sınıflandırmadır. Yüz tespiti, normalizasyon ve sınıflandırma algoritmaları ne kadar başarılı olursa olsun, öznitelik çıkarımı aşaması başarılı değilse o sistem istenilen başarıya ulaşamayacaktır. Bu tezde başarılı bir yüz tanıma sistemi geliştirebilmek için belki de en zorlu aşama olan öznitelik çıkarımı aşaması üzerinde durulmuştur.
Poz ve aydınlatma farklılıklardan daha az etkilenen yerel yaklaşımlar üzerinde sıkça çalışılmaktadır. Yerel betimleyiciler, seyrek ve yoğun yöntemler olarak ikiye ayrılmaktadır. Seyrek yerel betimleyiciler arasında yer alan Ölçek Değişimsiz Öznitelik Dönüşümü (ing. Scale Invariant Feature Transform) yönteminde öncelikle ana noktalar belirlenip, bu noktalar etrafında alınan yamalardan öznitelik çıkarılır. Yerel İkili Örüntüler (ing. Local Binary Patterns) ve Gabor gibi yoğun yerel betimleyicilerde ise yöntem tüm piksellere ayrı ayrı uygulanarak öznitelik çıkarılır. Bu iki yerel yaklaşımı bir arada kullanan hibrit yöntemler de vardır. Bu tezde, öncelikle global Walsh Dönüşümünü (WD) temel alan bir yoğun yerel betimleyici önerilmiştir. Ardından, bu betimleyicinin etkili bir şekilde kullanılmasını sağlayan yöntemler önerilmiştir.
Bu tezin literatüre olan ilk katkısı yeni yoğun yerel betimleyici olan Yerel Walsh Dönüşümüdür (YWD). Walsh Dönüşümü (WD) matrisi çarpanları \pm 1 olan ortogonal fonksiyonlardan oluşur. Gerçel ve simetriktir yani matris, transpozesi ve eşleneğine eşittir. WD matrisinde herhangi bir satırın, kendisi dışında herhangi bir satırın transpozesiyle veya sütunla skaler çarpımı sıfırdır. N*N boyutlu WD matrisinde, i 0'dan N-1'e satırları numaralandırsın; i.nci satır her zaman i adet sıfırdan geçiş içerir.
YWD yönteminde, WD matrisi imgenin her pikseline ayrı ayrı uygulanarak N*N boyutlu WD için N*N adet imge, yani YWD bileşeni üretilir. Faz bilgisini kullanmak yöntemi aydınlatma ve bulanıklık değişimlerine karşı dayanıklı yapar. Faz bilgisini kullanabilmek için karmaşık imgelere ihtiyaç vardır ancak YWD yalnızca gerçel imgeler üretir. YWD bileşenlerinden karmaşık imgeler üretebilmek için bu bileşenler incelenerek bir yöntem önerilmiştir. Bu yöntemde, YWD bileşenlerinin birbirlerine olan simetrisi kullanılarak, N*N boyutlu WD matrisi için (N*N-N)/2 adet karmaşık imge oluşturulur. Uygulanan WD'nin satır ve sütunları sırasıyla u ve v ile gösterilirse, u < v olmak şartı ile, (u, v) filtresi ile üretilen YWD bileşeni karmaşık imgenin reel kısmını, (v,u) filtresi ile üretilen YWD bileşeni karmaşık imgenin sanal kısmını oluşturur.
YWD yoğun yerel betimleyicisi önerildikten sonra bu betimleyiciyi etkili bir şekilde kullanacak çeşitli yöntemler önerilmiştir. Bunların bir kısmı, iki aşamalı YWD (Kaskatlanmış YWD, KYWD) yöntemi, histogram hesaplama öncesinde imgeyi alt bölgelere ayırma, ağırlıklandırma ve imgeyi bloklara ayırıp onlardan elde edilen özniteliklerin boyutlarını azaltma yöntemleridir. Bunlar dışında, YWD betimleyicisinin imgelerdeki nirengi noktalarının etrafında uygulanması ve YWD karmaşık imgelere XOR yöntemi uygulayıp gri seviye imgelere dönüştürülmesi ile de geliştirilmiştir. Ayrıca, yüz doğrulama problemi için Destek Vektör Makinaları (DVM, ing. Support Vector Machines) yöntemi sınıflandırma aşamasında, L2 Norm Metrik Öğrenme (L2MÖ, ing. L2 Norm Metric Learning) yöntemi boyut indirgeme aşamasında kullanılmıştır.
Bu yöntemler arasında en etkililerinden biri, YWD betimleyicisinin imgelerdeki nirengi noktalarının etrafına uygulanması ile elde edilmiştir. Bu yöntemde, önce yüze ait nirengi noktaları tespit edilir. Tespit edilen bu noktaların bir kısmı seçilerek etraflarında yamalar kesilir. İstenilirse imgenin çeşitli boyutları kullanılıp tespit edilen nirengi noktaları etrafında aynı boyutlu yamalar kesilir. Burada imgenin farklı boyutları etrafında aynı boyutlu yama kesmek o bölge için hem yerel hem de globale yakın özelliklerinin tespiti için etkilidir. Bu yamalara YWD yöntemi uygulanır ve elde edilen karmaşık imgelerin histogramı hesaplanır. Bu yöntem ile eğitim kümesindeki tüm imgelerin yamalarının öznitelikleri çıkarılır. Bu şekilde çıkarılan yamaların öznitelikleri Beyazlatılmış Temel Bileşenler Analizi (ing. Whitened Principal Component Analysis) yöntemi ile indirgenir. Bu çalışmada, önerilen yöntemin gözetimsiz yöntem olması ve imgelerin sınıf etiketlerini içermeyen veritabanları üzerinde de çalışabilmesi için gözetimsiz boyut indirgeme yöntemi tercih edilmiştir. Test aşamasında, test imgesinin özniteliği bu yöntemle çıkarıldıktan sonra en benzer özniteliğe sahip eğitim kümesi imgesinin kimliği test imgesinin kimliği olarak belirlenir.
Ayrıca, önerilen yöntem KYWD yaklaşımı ile geliştirilmiştir. Bu yaklaşımda, YWD yöntemi imgeye uygulandıktan sonra üretilmiş olan karmaşık imgelerin sanal ve gerçel kısımlarına YWD yöntemi tekrar uygulanır. Bu yaklaşım yönteme bir derinlik katar ve özellikle düşük çözünürlüklü imgelerde başarımı artırır. YWD'nin nirengi noktaları etrafında uygulanması yönteminde YWD yerine KYWD yöntemi de uygulanabilmektedir.
Önerilen yöntemler uluslararası bilinen ve çeşitli zorluklar içeren veritabanları üzerinde test edilmiştir. Bu veritabanlarından FERET ve SCface yüz tanıma problemi için, LFW yüz doğrulama problemi için kullanılmıştır. Bunlardan FERET yarı kontrollu ortamda çekilmiş, yüz ifadesi, aydınlatma, kamera, boyut gibi farklılıklar barındıran imgeler içermektedir. SCface gerçek dünyayı yansıtan, karanlık ortamda çekilmiş imgeler dahil kontrolsuz iç mekan ortamında çekilmiş düşük çözünürlüklü imgeler içermektedir. LFW veritabanı ise internet sitelerinden toplanmış ifade, poz, imgelerin bir kısmının kapanması, aydınlatma, çözünürlük gibi çeşitli zorluklara sahip imgeler içermektedir. Önerdiğimiz çoğu yöntem gözetimsiz yöntem olduğu için LFW'nun "gözetimsiz" protokolünde, yani imgelere ait hiçbir bilginin bilinmediği sınırlı sayıda imgenin bulunduğu kategoride sonuçlar verilmiştir. DVM ve L2MÖ metodlarını içeren yöntemlerimizin sonuçları LFW'nun yalnızca LFW tarafından önerilen etiketli çiftlerinin bulunduğu dışarıdan imgenin kullanılmadığı kategoride verilmiştir.
Önişleme aşamasında, imgeler frontalizasyon, benzerlik dönüşümü ya da HPEN (High-Fidelity Pose and Expression Normalization) yöntemleri ile hizalanmış ve normalize edilmiştir. Yüzlere ait nirengi noktaları SDM (Supervised Descent Method) ya da Dlib ile tespit edilmiştir. Nirengi noktaları etrafında öznitelik çıkarımı ve ardından boyut idirgeme yöntemi için yapılan deneyler sonucunda FERET ve SCface için bilinen en yüksek başarım elde edilirken, LFW veritabanının "gözetimsiz" protokolüne göre ikinci en yüksek başarım elde edilmiştir. Önerilen diğer yöntemlerin başarımı iyi olsa bile bilinen en yüksek başarımların altındadır.
Yapılan deneyler, YWD yönteminin şekil özelliklerini çıkaran güçlü bir imge betimleyici olduğunu, KYWD'nin de özellikle düşük çözünürlüklü imgelerde oldukça etkili olduğunu göstermiştir. YWD ve KYWD'nin nirengi noktalarında uygulanması yöntemi ile elde edilen yüksek başarımlar yöntemin aydınlatma, ifade, yüzün bir kısmının kapanması ve düşük çözünürlük sorunlarına karşı dayanıklı olduğunu göstermektedir. Ayrıca, bu yöntem yalnızca yüz tanıma problemine değil tüm biyometrik tanıma problemlerine uygulanabilir.
|
Face recognition is automatically identifying or verifying a person from a still image or a video frame. The challenges in this area largely occur due to illumination, viewpoint, expression, and resolution variances. There is a wide range of information security, surveillance, law enforcement, and entertainment applications which use face recognition despite there being more accurate biometric indicators such as fingerprint or iris. However, these indicators require the cooperation of those being observed whereas face images can be taken without any cooperation.
Face recognition systems generally have four main stages; face detection, alignment, feature extraction, and classification. In this dissertation, we focus on the feature extraction stage, which is probably the most challenging part of face recognition systems.
Local approaches have been used frequently due to their success in handling variations such as illumination and expression. Local representations are categorized into two types as sparse and dense. In sparse local representations such as Scale Invariant Feature Transform, points of interest are detected to be used for object detection. In dense local representations, such as Local Binary Patterns and Gabor, features are extracted by applying the method to each pixel of an image. In this dissertation, firstly, we propose a dense local representation which localizes the global Walsh Transform. Secondly, we propose methods to use this representation effectively.
The first contribution of this dissertation is a novel dense local representation called Local Walsh Transform (LWT). Walsh Transform (WT) kernel is defined as a set of orthogonal functions with values plus and minus ones. The dot product of any two distinct rows and columns of a WT kernel is zero. Transpose, conjugate, and inverse of a WT kernel are equal to itself. For the WT kernel of order N, if we denote rows by i from 0 to N - 1, the ith row has exactly i zero crossings.
In the LWT method, we use this special WT matrix to create filters and apply these filters to each pixels of an image separately. Thus, for a N*N WT we create N*N filters and so N*N images, namely LWT components (y). Based on the fact that using phase information makes the recognition method somewhat more invariant to uniform illumination changes and blurring, we propose an approach to create complex images from LWT components. To this end, we utilize the symmetry between the LWT components with respect to the diagonal. By using this symmetrical relationship, we pair the symmetrical LWT components to create LWT complex images. LWT components which are on the upper side of the diagonal are considered as real part of the complex components, while the components which are on the lower side of the diagonal are considered as imaginary parts of complex images which are paired symmetrically with respect to the diagonal.
In addition to the LWT, we propose some additional methods to improve the performance of a face recognition system. The LWT is enhanced with some approaches such as Cascaded LWT (CLWT), dividing image into subregions, weighting, and reducing dimension of features by block-based dimension reduction method. In addition, LWT complex images are converted to grayscale images by XOR approach. For face verification problem, SVM is used for classification, while L2ML is used for dimension reduction.
Among the proposed LWT-based methods, Patch-based LWT (PLWT) method enlightens the abilities of the LWT most. In PLWT, we take the advantage of both sparse and dense local representations by applying the LWT method to salient points of face images. In feature extraction stage of the PLWT, first, landmarks of images are detected and some of them are selected. Then, the images and their landmarks may be scaled for once or twice. For each selected landmark at different scales of an image, a patch is created around the landmarks. Following this, the LWT method is applied to all patches of the image and LWT complex images are created. Each complex image is divided into non-overlapping subregions and Phase Magnitude Histogram (PMH) of each subregion is calculated. The PMHs of the subregions are concatenated to create the features of complex images and these features are concatenated to create the features of the patches. Dimensions of the features of the patches are reduced by Whitened Principal Component Analysis method. We choose an unsupervised dimension reduction method to make our methods completely unsupervised and be operable on the databases which do not contain class labels of images. For a test image, the same algorithm is applied to the image and dimensions of the patches are reduced by projection matrices learned in the training stage. Identity of the image is determined according to the similarity between the features of the test image and that of the training set images.
The proposed PLWT method is further improved by the CLWT approach. In the CLWT, we apply LWT again to both real and imaginary parts of the LWT complex images. In other words, we once more apply the LWT to sharpened images in which shape information is extracted by the first application of the LWT. This approach gives a depth to the method and increases success rate especially on low resolution images in which shapes and edges are blurred. To use this approach in the PLWT method, all needed is to apply the CLWT instead of the LWT. When the proposed method is carried out with the CLWT approach, we call this method Patch-based CLWT (PCLWT).
We show the performance of the proposed methods, by applying them to challenging, widely known, and popular benchmark databases. Specifically, for the face identification problem the Face Recognition Technology (FERET) and the Surveillance Cameras Face (SCface) databases are used, for the face verification problem the challenging Labeled Faces in the Wild (LFW) database is used. The FERET is one of the most widely used benchmarks in the evaluation of face recognition methods. This database gives an opportunity to evaluate methods with various facial expressions, lighting conditions, cameras, scale, and aging property. The images of SCface are taken in an uncontrolled indoor environment that mimics the real world conditions of the indoor face recognition problem. It contains very low resolution images which are taken in the dark. The LFW is a database designed to facilitate the benchmarking of unconstrained pair matching and is also intended to illustrate the problem of learning from one example. This database consists of images collected from the web which contain large pose, occlusion, and expression variations. For most of our experiments, we use the "unsupervised" protocol of the LFW since during both training and testing phases we do not use label information of the subjects, and not access to whether any pair of images is of the same subject. For methods which include SVM or L2ML methods, we use "image restricted with no outside data" protocol of the LFW.
In the preprocessing step, images of databases are normalized and aligned by the frontalization method, a similarity transform or the High-Fidelity Pose and Expression Normalization (HPEN) with a similarity transform. The landmarks of the face images are detected by using the Supervised Descent Method (SDM) or Dlib. To the best of our knowledge, the PLWT and PCLWT method achieve the best performance on both the FERET and the SCface databases, and the second best unsupervised category result on the LFW database. Although the other proposed methods are also successful, they are below the state-of-the-art results.
In conclusion, the LWT is a strong image descriptor which reveals the shape characteristics of images. The CLWT is especially effective on low resolution images where shape characteristics are blurred. Experimental results show that both the PLWT and PCLWT are robust in terms of illumination, expression, occlusion, and low resolution. The high performances of the proposed methods show that these methods are effective on both wild and low resolution images, and are good alternatives to unsupervised hand-crafted methods. |