Tez No İndirme Tez Künye Durumu
629137
Face recognition and person re-identification for person recognition / Kişi tanıma için yüz tanıma ve kişinin yeniden tanınması
Yazar:EMRAH BAŞARAN
Danışman: PROF. DR. MUSTAFA ERSEL KAMAŞAK ; PROF. DR. MUHİTTİN GÖKMEN
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Görüntü analizi = Image analysis ; Görüntü erişimi = Image retrieval ; Görüntü eşleme = Image matching ; Görüntü işleme = Image processing ; Görüntü sınıflandırma = Image classification ; Görüntü tanıma = Image recognition
Onaylandı
Doktora
İngilizce
2020
138 s.
Yüz tanıma ve kişinin yeniden tanınması (KYT) uygulamalarına, bireysel ve toplumsal güvenlik, adli vakalar ve eğlence başta olmak üzere, birçok farklı alanda ihtiyaç duyulmaktadır. Yüz görüntüleri, kişi teşhisi için, zengin ve oldukça ayırt edici özellikler barındırmaktadır. Bunun yanında, yüz görüntülerinin temas ve iş birliği olmaksızın elde edilebilir olması, yüz tanıma uygulamalarının, iris ve parmak izi gibi diğer biyometrik tanımlayıcıları kullanan uygulamalara göre daha geniş bir uygulama sahasına sahip olmasına sebep olmaktadır. KYT probleminde ise, biyometrik tanımlayıcılardan ziyade, tüm vücut görüntüleri kullanılmaktadır. Bu problemde, temel olarak, farklı kameralar tarafından kaydedilen kişi görüntülerinin eşleştirilmesine çalışılmaktadır. Yüz görüntülerinin elde edilemediği veya görüntülerin yüz tanıma yapılabilecek seviyede kaliteye sahip olmaması gibi durumlarda, KYT, kişi teşhisi için önemli bir yöntemdir. Tez kapsamında, öncelikle, kişi teşhisi için son derece önemli olan yüz tanıma problemi ele alınmaktadır. Daha sonra, KYT problem için özgün yöntemler önerilmektedir. Bu çalışmada, KYT problemi iki farklı şekilde incelenmektedir. Bunun sebebi, KYT için en önemli ipuçlarını barındıran renk bilgisinin zayıf aydınlatılmış veya karanlık ortamlarda kaydedilen görüntülerden elde edilemediği zaman, KYT' nin farklılaşması ve daha da zorlu bir problem haline gelmesidir. Gerçekleştirilen çalışmaların ilkinde, görünür etki alanında elde edilen RGB görüntüler kullanılmaktadır. İkincisinde ise, RGB görüntüler ile birlikte kızılötesi görüntülerde kullanılarak karşıt etki alanında KYT problemi incelenmektedir. Bilimsel yazında gerçekleştirilen çalışmalarda, yüz tanıma problemi, genel olarak kimlik saptama ve kimlik doğrulama olmak üzere iki farklı şekilde ele alınmaktadır. Hem saptama hem de doğrulama için geliştirilen yüz tanıma sistemlerinin en önemli kısmı ise, yüz görüntüleri için betimleyicilerin nasıl oluşturulacağıdır. Yüz tanıma performansı, büyük oranda bu betimleyicilerin kalitesine bağlıdır. Bu tezin yüz tanıma problemi ile ilgili olan bölümünde, güçlü betimleyiciler elde edebilmek için, temel olarak yerel Zernike momentleri (YZM) kullanılarak geliştirilen gözetimsiz öznitelik çıkarma yöntemleri önerilmektedir. İlk olarak, bütünsel yüz görüntülerinden öznitelik çıkarımı üzerine odaklanılmıştır. Geliştirilen yöntemde, iki farklı şekilde yerel öznitelikler açığa çıkarılmaktadır. İlkinde, art arda iki kez uygulanan YZM dönüşümü sonucunda elde edilen karmaşık örüntü haritaları üzerinde faz-genlik histogramları (FGH) oluşturulmaktadır. İkincisinde ise, gri seviye histogramlar kullanılmaktadır. Bu histogramlar, yerel Xor operatörü ile YZM örüntü haritalarının kodlanması sonucunda üretilen gri seviye görüntüler üzerinde oluşturulmaktadır. Hem FGH' ler hem de gri seviye histogramlar, alt bölgelere ayrılmış bütünsel yüz görüntülerinin alt bölgelerinde ayrı ayrı hesaplanmaktadır. Ardından, her bir örüntü haritasından elde edilen tüm histogramlar art arda birleştirilerek öznitelik vektörleri oluşturulmaktadır. Son aşamada ise, bu vektörlerin boyutları indirgenmektedir. Önerilen yöntemde, boyut indirgeme işlemi için, Beyazlatılmış Temel Bileşenler Analizi (BTBA) kullanılmakta ve blok tabanlı bir yöntem izlenmektedir. Öncelikle, alt bölgeler bir araya getirilerek bloklar oluşturulmaktadır ve ardından bu bloklardan elde edilen öznitelik vektörlerinin boyutları ayrı ayrı indirgenmektedir. Kullanılan bu yöntemlerin yüz tanıma performansı üzerindeki etkileri ve elde edilen başarılar, Face Recognition Technology (FERET) veriseti kullanılarak ortaya konmuştur. Tez kapsamında gerçekleştirilen yüz tanıma ile ilgili çalışmaların ikinci bölümünde ise, öznitelik çıkarımının nirengi noktaları etrafında gerçekleştirildiği başka bir yöntem önerilmektedir. Bu yöntemde, nirengi noktaları etrafından yamalar çıkarılmaktadır ve öznitelik vektörlerinde kullanılan FGH' ler bu yamaların alt bölgelerinde hesaplanmaktadır. Yüz görüntülerinin hem yerel hem de bütünsel bilgilerini içeren öznitelikler elde etmek amacıyla, yöntem içerisinde bir görüntü piramidi kullanılmaktadır. Piramit içerisindeki görüntülerin YZM örüntü haritalarından ayrı ayrı öznitelikler çıkarılarak çok ölçekli betimleyiciler elde edilmektedir. Ardından, görüntü piramidinden elde edilen öznitelikler art arda birleştirilerek, her bir nirengi noktası için ayrı bir öznitelik vektörü oluşturulmaktadır. Son aşamada ise, vektörlerin boyutları, BTBA kullanılarak ayrı ayrı indirgenmektedir. Önerilen yöntemin performansını test etmek amacıyla, FERET, Labeled Faces in the Wild (LFW) ve Surveillance Cameras Face (SCface) verisetleri kullanılmıştır. Elde edilen sonuçlar önerilen yöntemin aydınlatma, yüz ifadesi ve poz gibi değişikliklere karşı dayanıklı olduğunu ortaya koymaktadır. Bunun yanında, yöntemin, kontrolsüz ortamlarda veya kızılötesi tayfta elde edilen düşük çözünürlüklü yüz görüntüleri üzerindeki başarısı da gösterilmektedir. Kişilerin yeniden tanınması (KYT) problemi, arka plan dağınıklığı, poz, aydınlatma ve kamera bakış açısı değişimleri gibi faktörlerden dolayı oldukça zorlu bir iştir. Bu unsurlar, güçlü ve aynı zamanda ayırt edici öznitelikler çıkarma sürecini ciddi oranda etkileyerek, farklı kişilerin başarılı bir şekilde ayırt edilmesini zorlaştırmaktadırlar. Son yıllarda, KYT üzerinde gerçekleştirilen çalışmaların büyük bir çoğunluğu, bahsedilen unsurlar ile başa çıkabilecek yöntemler geliştirmek için, derin öğrenme yöntemlerinden yararlanmaktadır. Genel olarak bu çalışmalarda, kişi görüntüleri için öğrenilen gösterimlerin kalitesi, vücut parçalarından yerel öznitelikler çıkarılarak artırılmaya çalışılmaktadır. Vücut parçaları ise, sınırlayıcı kutu tespit etme yöntemleri ile tespit edilmektedir. Bu tezde, KYT problemi için, derin öğrenme yöntemleri kullanılarak geliştirilen bir yöntem önerilmektedir. Bu yöntemde, diğer çalışmalarda olduğu gibi, vücut parçalarından yerel öznitelikler elde edilmektedir. Fakat, parçalar tespit edilirken, sınırlayıcı kutular yerine anlamsal ayrıştırma kullanılmaktadır. Vücut görüntülerinin anlamsal olarak ayrıştırılması, piksel seviyesindeki doğruluğu ve rastgele sınırları modelleyebilmesi nedeniyle, sınırlayıcı kutu tespit etme yöntemine göre doğal olarak daha iyi bir alternatif olmaktadır. Önerilen yöntemde, anlamsal ayrıştırma KYT problemi için etkin bir şekilde kullanılarak, deneylerin yapıldığı verisetleri üzerinde bilinen en yüksek performansa ulaşılmaktadır. Anlamsal bölütlemenin yanı sıra, Inception ve ResNet gibi yaygın olarak kullanılan derin öğrenme mimarilerinin KYT problemi için daha verimli bir şekilde eğitilmesini sağlayan bir eğitim yöntemi de önerilmektedir. Yöntemlerin başarısı, Market-1501, CUHK03 DukeMTMC-reID verisetleri üzerinde gerçekleştirilen deneyler ile gösterilmektedir. Bu tez kapsamında gerçekleştirilen diğer bir çalışma ise, görünür-kızılötesi karşıt etki alanında KYT (GK-KYT) problemidir. GK-KYT problemi, zayıf aydınlatılmış veya karanlık ortamlarda gözetim işleminin gerçekleştirilebilmesi için son derece önemlidir. Son yıllarda, görünür etki alanında gerçekleştirilen birçok KYT çalışması bulunmaktadır. Buna karşın, bilimsel yazında, GK-KYT ile ilgili çok az sayıda çalışma gerçekleştirilmiştir. KYT' de var olan poz/aydınlanma değişimleri, arkaplan karmaşası ve kapanma gibi zorluklara ek olarak kızılötesi görüntülerde renk bilgisinin olmaması, GK-KYT' yi daha zorlu bir problem haline getirmektedir. Sonuç olarak, GK-KYT sistemlerinin performansı tipik olarak KYT sistemlerinden daha düşüktür. Bu tezde, GK-KYT' nin performansını iyileştirmek için 4 akışlı bir yöntem önerilmektedir. KYT ile ilgili gerçekleştirilen çalışmalarda olduğu gibi, GK-KYT için de derin öğrenme tekniklerinden yararlanılmıştır. Önerilen yöntemin her bir akışında, giriş görüntülerinin farklı bir gösterimi kullanılarak ayrı bir derin evrişimli sinir ağ (DESA) eğitilmektedir. Bu şekilde, her bir akıştaki DESA modelinin farklı ve aynı zamanda tamamlayıcı öznitelikler öğrenmesi amaçlanmaktadır. Yöntemin ilk akışında, gri-seviye ve kızılötesi giriş görüntüleri kullanılarak bir DESA modeli eğitilmektedir. İkinci akıştaki giriş görüntüleri ise, RGB görüntüler ve kızılötesi kanalın tekrarlanmasıyla oluşturulan 3-kanallı kızılötesi görüntülerdir. Diğer iki akışta ise, giriş görüntüsü olarak, YZM dönüşümü ile elde edilen yerel örüntü haritaları kullanılmaktadır. Bu örüntü haritaları, üçüncü akışta, gri-seviye ve kızılötesi görüntülerden, son akışta ise, RGB ve 3-kanallı kızılötesi görüntülerden elde edilmektedir. Son adımda ise, bilimsel yazında önerilen bir yeniden sıralama algoritmalası kullanılarak görüntüler arasındaki uzaklık hesaplanmaktadır. SYSU-MM01 ve RegDB verisetleri üzerinde gerçekleştirilen deneyler ile, önerilen yöntemin başarısı ortaya konmuştur.
Face recognition and person re-identification (ReId) applications are required for many different areas, especially for personal and social security, forensic cases and entertainment. Face images provide rich, distinctive and robust features for person recognition and they can be recorded without cooperation. For this reason, face recognition has a broader application area than the other biometric recognition applications such as iris or fingerprint. ReId utilizes whole-body images rather than biometric indicators. Matching full-body images of persons recorded by different cameras is the main goal in ReId. It is an essential task for person recognition when face images cannot be obtained or if the images do not have sufficient quality for face recognition. In this thesis, we first address face recognition problem for person recognition. Next, we propose novel methods for ReId. The color information provides the most important cues in ReId. When the color can not be acquired from the images captured in poorly illuminated or dark environments, the problem becomes different and more challenging. For this reason, we address the ReId in two different ways: in visible domain using RGB images and in visible-infrared cross-domain using RGB and infrared images. Face recognition problem is usually tackled in two ways; identification or verification. The most important part of the face recognition systems for both identification and verification is the construction of the face descriptors, since the face recognition performance depends largely on the quality of the descriptors. In the face recognition section of this thesis, we propose unsupervised feature extraction schemes that we build mainly based on local Zernike moments (LZM) transformation. In the first scheme, the holistic face images are divided into sub-regions, and then, phase-magnitude histograms (PMH) and grayscale histograms are calculated in each sub-region. PMHs are obtained directly from complex LZM components, while grayscale histograms are obtained from pattern maps generated by encoding LZM components with Local Xor Patterns (LXP) operator. In the second scheme, we only used the PMHs and calculated them around the facial points detected on the face images. To obtain both local and global features, we create an image pyramid and extract multi-scale features from the images in the pyramid. In both schemes, the dimension of the constructed feature vectors is reduced with whitened principle component analysis (WPCA). In the first scheme, WPCA is applied by following block-based approaches, whereas in the second scheme, WPCA is applied separately on the vectors belonging to each facial point. We experimentally show that successful results are achieved with both of the schemes. However, when the results obtained on the Face Recognition Technology (FERET) dataset are compared, the performance of the second scheme is better. We also demonstrated the performance of the second scheme on two other datasets: Labeled Faces in the Wild (LFW) and Surveillance Cameras Face (SCFace). FERET and SCFace datasets are used for the identification problem, and LFW is used for the verification problem. Furthermore, these datasets have very different characteristics from each other. With the experiments carried out on these datasets, we demonstrated that the proposed scheme is an efficient method for both verification and identification problems and that it is robust against very different real-world conditions. Additionally, experimental results show that our method outperforms state-of-the-art on FERET and SCface datasets. ReId is a challenging task mainly due to factors such as background clutter, pose, illumination and camera point of view variations. These elements hinder the process of extracting robust and discriminative representations, hence preventing different identities from being successfully distinguished. In the recent studies addressing ReId problem, to cope with the mentioned elements, the methods have been developed using deep learning techniques that enable to achieve significant improvements in many computer vision problems. In the proposed methods usually, to improve the representation learning, local features from human body parts are extracted. However, the common practice for such a process has been based on bounding box part detection. In this study, we propose a novel framework developed based on deep learning techniques and adopts human semantic parsing which, due to its pixel-level accuracy and capability of modeling arbitrary contours, is naturally a better alternative. Our proposed framework integrates human semantic parsing in ReId and not only considerably outperforms its counter baseline, but achieves state-of-the-art performance. We also show, by employing a simple yet effective training strategy, that standard popular deep convolutional architectures such as Inception-V3 and ResNet-152, with no modification, while operating solely on the full image, can dramatically outperform current state-of-the-art. Using re-ranking as a post processing technique, the improvement margin further increases. Our proposed methods improve state-of-the-art ReId on: Market-1501 by 17.9% in mAP and 5.7% in rank-1, CUHK03 by 4.4% in rank-1 and DukeMTMC-reID by 24.4% in mAP and 9.8% in rank-1. Visible-infrared cross-modality person re-identification (VI-ReId) is an important task for video surveillance in poorly illuminated or dark environments. Despite many recent studies on ReId in visible domain, there are few studies dealing with VI-ReId. Besides challenges that are common for both ReId and VI-ReId such as pose/illumination variations, background clutter and occlusion, VI-ReId has additional challenges as color information is not available in infrared images. As a result, the performance of VI-ReId systems is typically lower than ReId systems. In this work, to improve VI-ReId performance, we propose a four-stream framework which is developed based on deep learning techniques. We train a separate deep convolutional neural network in each stream using different representations of input images. We expect that different and complementary features can be learned from each stream. In our framework, grayscale and infrared input images are used to train the ResNet in the first stream. In the second stream, RGB and three-channel infrared images (created by repeating infrared channel) are used. In the remaining two streams, we use local pattern maps as input images. These maps are generated utilizing local Zernike moments transformation. Local pattern maps are obtained from grayscale and infrared images in the third stream and from RGB and three-channel infrared images in the last stream. We improve the performance of the proposed framework by employing a re-ranking algorithm for post-processing. Our results indicate that the proposed framework outperforms the current state-of-the-art with a large margin by improving Rank-1/mAP by 34.15% / 37.93% on SYSU-MM01 dataset, and by 9.73% / 16.36% on RegDB dataset.