Tez No İndirme Tez Künye Durumu
541783
Age and gender classification from ear images / Kulak imgelerinden yaş ve cinsiyet sınıflandırma
Yazar:DOĞUCAN YAMAN
Danışman: DOÇ. DR. HAZIM KEMAL EKENEL
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2018
83 s.
Biyometri, son zamanlarda araştırmacılar tarafından çalışmaların yürütüldüğü popüler ve önemli bir araştırma alanıdır. Güvenlik sistemleri, gözetim sistemleri, kişi profili çıkarma, adli bilimler, sosyal bilimler gibi pek çok farklı alanda ve pek çok farklı amaç doğrultusunda kullanılmaktadır. Kişi tanıma, yaş tahmini, cinsiyet sınıflandırma gibi kişiye özgü farklı bilgiler biyometrik sistemler aracılığıyla insan bedeninden çıkarılabilmektedir. Bu bilgileri çıkarmak amaçlı kullanılan başlıca biyometrik özellikler iris, parmak izi, yüz, kulak vb. şeklinde sıralanabilir. Biyometrik alanda kulak kullanımı uzun bir süredir üzerinde çalışılan bir konudur. Geçmiş yıllarda özellikle kulaktan kişi tanıma üzerine çalışmalar yapılmıştır. Bu çalışmalarda genellikle çok yüksek sonuçlar elde edilmiştir. Fakat bu çalışmalarda kullanılan kulak veri kümeleri kontrollü koşullarda toplanmış veri kümeleri olduğu için farklı aydınlatma koşullarında imgeler mevcut değildir, tüm kulak görüntüleri tek bir açıdan, profil, olacak bir şekilde toplanmıştır. Çeşitliliğin az olması kişi tanıma problemini kolaylaştıran başlıca faktörlerden biridir. Sonraki yıllarda kontrolsüz koşullarda toplanan veri kümeleri sunulmuştur ve bu veri kümeleri ile çalışmalar devam etmiştir. 2017 yılında Unconstrained ear recognition challenge ismiyle kulak tanıma yarışması düzenlenmiştir. Bu yarışmada wild bir veri kümesi, UERC, sunulmuştur. Bu veri kümesi yarışmanın düzenlendiği zamana kadar sunulan tüm kulak veri kümeleri arasında en çok çeşitliliğe ve zorluğa sahip olan veri kümesidir. UERC train ve UERC test olmak üzere 2 farklı parçadan oluşan bu veri kümesi internet üzerinden toplandığı için farklı aydınlatma koşullarında ve farklı açılardan çekilmiş pek çok imge barındırmaktadır. Aynı zamanda kulak tanımayı zorlaştıran aksesuar varlığı, saç ile kulak görünümünün kısmen kapanması gibi zorlayıcı durumları da barındırmaktadır. Tüm bu şartlar altında kulaktan kişi tanıma konusunda oldukça zor bir veri kümesidir ve elde edilen sonuçlar da özellikle geçmiş çalışmalara kıyasla düşüktür. Geçmiş yıllarda kulaktan cinsiyet sınıflandırma ile ilgili yapılan çalışmalar yüksek başarımlara ulaşmıştır ve kulaktan cinsiyet bilgisinin öğrenilebileceği gösterilmiştir. Fakat yüz resimlerinden yaş tanıma çalışmaları yapılmış olmasına rağmen kulaktan herhangi bir yaş tanıma çalışması mevcut değildir. Adli bilimler alanında yapılan araştırma çalışmaları göstermiştir ki kulaktan yaş bilgisi çıkarılabilmektedir. Genellikle doğumdan sonra yapısal olarak değişime uğramayan kulak, yaş ilerledikçe büyümektedir ve dokusunda yaşlanmaya dair belirtiler gözlemlenmektedir. Bu amaç doğrultusunda derin öğrenme tabanlı bir yaklaşım ile kulaktan hem yaş hem de cinsiyet bilgisi modellenmeye çalışılmıştır. Biyometrik bir organ olan kulak kişiden kişiye farklılık göstermektedir. Hatta ikizlerin kulakları ve insanın sağ ve sol kulağı bile birbirlerinden az da olsa farklılık göstermektedir. Bu gibi durumlar kulağın güçlü bir biyometrik organ olmasını sağlamıştır. Bunların dışında kulağın diğer biyometrik organlara göre bazı üstünlükleri mevcuttur. Örneğin, güvenlik kameraları ve gözetleme kameraları gibi vasıtalar aracılığıyla kolaylıkla insan kulağı tespit edilebilmektedir. Bu kolaylık iris, parmak izi gibi biyometrik organlar karşısında kulak tabanlı sistemlere avantaj sağlamaktadır. Aynı zamanda kulağın, tespit edilmesi kolay bir başka biyometrik organ olan yüze göre de bazı üstünlükleri bulunmaktadır. Yüz tabanlı bir biyometrik sistem insan yüzünde meydana gelecek bazı farklılıklardan olumsuz yönde etkilenebilmektedir. Örneğin, insan yüzünde farklı duygulara göre meydana gelen değişimler, sakal, gözlük, estetik, makyaj gibi faktörler biyometrik sistemler için zorlayıcı olabilmektedir. Yüzün aksine kulak bu gibi faktörlerden etkilenmeyen güçlü bir biyometrik organdır. Fakat kulak tabanlı biyometrik sistemler için de zorlayıcı bazı durumlar vardır. Örneğin, kulağın önüne gelebilecek saçlar kısmi kapanmalara sebep olabilmektedir. Özellikle uzun saçlı bireylerde bu durum kulağın tamamen kapanmasına bile yol açabilmektedir. Bir diğer zorlayıcı faktör ise küpe gibi aksesuarlardır. Hem boyutları gereği hem de parlak olmalarından kaynaklı otomatik sistemler için yanıltıcı olabilmektedir. Eğitim sırasında yapılan analizlerde otomatik tanıma sistemlerinin bilgi çıkarırken büyük ve parlak aksesuarlara çok fazla odaklandığı görülmüştür. Bu durum alakasız öznitelik çıkarılmasına sebep olabilmektedir. Benzer şekilde kulağın üstüne gelen saçlar ve/veya kulağın çevresindeki saçlar da alakasız öznitelik çıkarılmasına sebep olabilmektedir. Aynı zamanda, kulak çevresinde kulakla alakalı olmayan bilgilerin önemi üzerine yapılan inceleme sonucu bu bilgilerin sistemler için yanıltıcı olduğu gözlemlenmiştir. Bu sebeple kulaklar sınırlarından olacak şekilde kesilmiş ve bağlam bilgisi minimuma getirilmiştir. Bu çalışmada kulaktan yaş tahmini ve cinsiyet sınıflandırma konuları ele alınmıştır. Kulaktan yaş bilgisi çıkarmak amacıyla sınıflandırma temelli bir yaklaşımdan faydalanılmıştır. Sınıflandırma çalışması gerçekleştirilirken 18-68 yaş aralığında 5 farklı yaş sınıfı oluşturulmuştur. Bu sınıflar sırasıyla 18-28, 29-38, 39-48, 49-58 ve 59-68+ şeklindedir. Sınıfların sınırları belirlenirken daha önce yaş sınıflandırma konusunda sunulan ve bu çalışmada da kullanılan veri kümesinin sınıflara ayrılış biçimi referans alınarak benzer sınıflar seçilmiştir. Bu sınıflar ilgili çalışmada belirlenirken kulak üzerinde incelemeler yapılmış ve meydana gelen değişimlerin gözlemlenebilir olduğu aralıklar belirlenmiştir. Sınıflandırma amaçlı eğitim gerçekleştirilen sistemler kişinin tam yaşı yerine tahmini yaş aralığını doğru bir biçimde tespit etmeye çalışmaktadır. Cinsiyet sınıflandırma görevi ise 2 sınıf tabanlı, erkek - kadın, sınıflandırma problemi olarak ele alınmıştır. Bu çalışmada yaş ve cinsiyet tahmini için hem geometrik tabanlı hem de görünüm tabanlı olmak üzere 2 farklı yöntem önerilmiştir. Geometrik tabanlı yaklaşım için kulak ve profil yüz üzerinde manuel olarak noktalar belirlenmiştir ve bu noktalar arası mesafeler hesaplanarak öznitelik olarak kullanılmış ve sinir ağı, destek vektör makineleri gibi makine öğrenmesi algoritmalarına girdi olarak aktarılmıştır. Bu deneyler gerçekleştirilirken I.U. veri kümesi kullanılmıştır. Hem yaş hem de cinsiyet sınıflandırma problemi için ortalama sayılabilecek skorlar elde edilmesine rağmen görünüm tabanlı yaklaşımla kıyaslandığında başarımlar çok düşük kalmıştır. Görünüm tabanlı yaklaşım için ise derin öğrenme modelleri olan VGG-16 ve ResNet-50'den yararlanılmıştır. İnsan yüz görüntülerinden kulak tespit edilmiş ve kırpılarak derin öğrenme modellerine girdi olarak verilmiştir. I.U. veri kümesi, FERET, UND-F ve UND-J2 veri kümeleri deneylerde kullanılmış ve bunlara ait sonuçlar ayrıntılı olarak sunulmuştur. Geometrik tabanlı çalışmalara göre çok yüksek başarımlar elde edilen bu yöntemde yaş sınıflandırma konusunda kulak üzerinden yapılan geçmiş bir çalışma bulunmadığı için kıyas yapılamamıştır. Fakat başarımlar cinsiyet sınıflandırma probleminde olduğu gibi yüksek olmadığı için daha fazla araştırma ve geliştirmeye ihtiyaç duyulmaktadır. Cinsiyet sınıflandırma probleminde ise %95'lerin üzerinde başarımlar elde edilmiştir. Önerilen yöntemlerin geçmiş çalışmalar ile kıyaslanabilmesi için kulak imgelerinden cinsiyet sınıflandırma alanında popüler olan UND-F ve UND-J2 veri kümelerinde de sonuçlar sunulmuştur. Geçmiş çalışmalar derin öğrenme modelleri ile eğitim yapılırken hedef veri kümesinin küçük olduğu durumlarda transfer öğrenmesinden yararlanılmasının başarımlar üzerinde olumlu katkılara sebep olduğu gösterilmiştir. Transfer öğrenmesi yapılırken eğitime başlamadan önce bir modeli rastgele değerlerle başlatmak yerine ön eğitimli modelin parametreleri aktarılır ve bu parametrelerle eğitim başlatılır. Bu çalışmada kullanılan veri kümeleri sıfırdan eğitim yapılabilmesi için yeterince miktarda imge içermediğinden transfer öğrenmesinden yararlanılmıştır. Bu amaçla ImageNet veri kümesi üzerinde eğitilmiş derin öğrenme modelleri hedef veri kümeleri üzerinde yaş ve cinsiyet sınıflandırma problemleri için ince ayarlanmıştır ve başarımlar beklenildiği gibi sıfırdan eğitime göre daha yüksektir. Başarımların artırılması amacıyla alan adaptasyonu ve veri artırımı yöntemlerinden yararlanılmıştır. Genel objeler içeren ImageNet veri kümesi üzerinde eğitilmiş bir modelin parametrelerini kullanmak yerine hedef veri kümeleri ile benzer veri kümelerinde eğitilmiş modellerin parametrelerini transfer etmek performansı artıran bir etkendir. Bu sebeple, alan adaptasyonu gerçekleştirmek amacıyla çok miktarda kulak imgeleri içeren Multi-PIE kulak veri kümesinden yararlanılmıştır. Bu veri kümesi Multi-PIE yüz veri kümesinden kulak kesilerek elde edilmiştir ve toplamda 205 farklı kişiye ait 17183 kulak imgesi barındırmaktadır. ImageNet veri kümesi üzerinde eğitilmiş modeller ilk olarak Multi-PIE kulak veri kümesi üzerinde daha sonra da hedef veri kümelerinde eğitilmiştir. İki aşamalı ince ayar olarak da adlandırdığımız bu yaklaşım önemli ölçüde performans artışı sağlamıştır. İlk aşamada Multi-PIE kulak veri kümesinde eğitim yapılması derin öğrenme modelinin kulak alanını öğrenmesini sağlamıştır. Daha sonra kulak alanını öğrenmiş bu model hedef veri kümelerinde yaş ve cinsiyet problemi için eğitilmiştir. Son olarak, veri miktarının az olmasından kaynaklı veri artırımı yönteminden yararlanılmıştır. Hem alan adaptasyonu için kullanılan Multi-PIE kulak veri kümesine hem de hedef veri kümelerine veri artırımı uygulanmıştır. Bir imgeden rastgele kesme, ayna, Gaussian gürültüsü ekleme, öteleme, ölçek değiştirme, piksel parlaklıklarına ekleme ve çıkarma yapılarak görüntü parlaklığıyla oynama gibi yöntemlerden yararlanılarak pek çok imge yaratılmış ve veri kümeleri önemli ölçüde büyütülmüştür. Bu yöntem sadece veri artırımı açısından değil aynı zamanda veri çeşitliliğini çoğaltmak açısından da yararlı olmuştur ve modelin daha fazla sayıda farklı senaryoları görmesini sağlamıştır. Veri artırmanın sonucunda I.U. veri kümesi üzerinde başarımlar %10 civarında bir artış göstermiştir. Hem alan adaptasyonu hem de veri artırımı yöntemleri uygulanarak ortalama %13 değerinde bir başarım artırımı gözlemlenmiştir. Yukarıda anlatılan tüm yöntemlere ek olarak derin öğrenme modelleri ile farklı kayıp fonksiyonları kullanılmıştır. Center loss, large-margin softmax kayıp fonksiyonu ve angular softmax kayıp fonksiyonu yöntemleri daha fazla ayırt edilebilir öznitelikler öğrenme konusundaki güçleri sayesinde softmax kayıp fonksiyonundan daha başarılı olmuştur. Özniteliklerin daha fazla ayırt edilebilir olması sınıf içi çeşitlilik ve sınıflar arası benzerlik gibi problemleri de azaltıcı bir çözümdür. Bu kayıp fonksiyonları hem yaş hem de cinsiyet problemlerinde ortalama %1 ile %3 arasında performans artışı sağlamıştır. Son olarak önerilen farklı yöntemler için sınıf aktivasyon haritaları çıkartılarak derin öğrenme modellerinin hangi senaryoda kulak görüntülerinin hangi noktalarına ne seviyede odaklandığı incelenmiştir. Geometrik tabanlı öznitelikler ile I.U. veri kümesi üzerinde gerçekleştirilen deneyler sonucunda linear SVM yöntemi ile %38.5 sınıflandırma başarımı elde edilmiştir. En iyi cinsiyet sınıflandırma sonucu da yine linear SVM ile %63 olarak elde edilmiştir. Görünüm tabanlı sunulan deneylerde, I.U. veri kümesi ile yaş için VGG-16 modeli ile %54.41, cinsiyet için ise hem VGG-16 hem de ResNet-50 modelleri ile %100 sınıflandırma başarımı elde edilmiştir. FERET veri kümesinde gerçekleştirilen yaş deneylerinde 3 sınıflı ve 5 sınıflı 2 farklı deney gerçekleştirilmiştir. 3 sınıflı deneylerde en iyi sonuç ResNet-50 modeli ve center loss yöntemi kullanılarak %85.71 olarak elde edilmiştir. 5 sınıflık versiyonda ise large-margin softmax kayıp fonksiyonu kullanılarak hem ResNet-50 hem de VGG-16 modeli ile %69 doğru sınıflandırma sonucuna ulaşılmıştır. Kulak imgeleri kullanılarak cinsiyet sınıflandırma gerçekleştirilen geçmiş çalışmalarda kullanılan UND-F ve UND-J2 veri kümeleri ile cinsiyet sınıflandırma deneyleri gerçekleştirilmiştir. Bu deneylerin sonucunda UND-F veri kümesinde %98.33, UND-J2 veri kümesinde ise %99.16 sınıflandırma başarımına ulaşılmıştır. UND-F veri kümesinde ResNet-50 modeli ve large-margin softmax kayıp fonksiyonu ile center loss yöntemleri kullanılarak bu sonuca ulaşılmışken, UND-J2 veri kümesinde ise center loss yöntemi ile hem VGG-16 modeliyle hem de ResNet-50 modeliyle en iyi sonuç olan %99.16 değerine ulaşılmıştır. Tüm bu sonuçlar göstermektedir ki kulaktan yaş ve cinsiyet bilgisi öğrenilebilecek faydalı öznitelikler çıkartılabilmektedir. Genel olarak cinsiyet sınıflandırma başarımları çok yüksek olmasına rağmen yaş sınıflandırma deneylerinde elde edilen sonuçlar cinsiyete kıyasla düşüktür. Bu konunun daha fazla araştırılması gerekmektedir.
Ear is one of the important biometric traits. Because, the human ear can be easily obtained and is unique for each individual. Nowadays, ear biometrics has become a very popular research topic in biometric research area. In this thesis, we present a detailed analysis on age and gender classification from ear images. Although there have been several studies on gender classification, to the best of our knowledge this thesis is the first work about age classification from ear images. In this work, we have presented both geometric based representation and appearance based representation for age estimation and gender classification from ear images. In geometric based representation, firstly, we have identified several landmark points both on the ear and on the profile face. Then, we have calculated distances between them and have also calculated rectangle area and polygon area of the ear to use as features with machine learning algorithms. We have employed support vector machines (SVM), linear support vector machines, neural network, random forest, and logistic regression with geometric features and we have analyzed the age and gender prediction results. We have also performed appearance based representation. For this, we have utilized VGG-16 and ResNet-50 deep convolutional neural network architectures with ear images. Moreover, we have presented two-stage fine-tuning strategy and data augmentation approaches to improve classification peformances. For domain adaptation method, first of all, pretrained CNN model on ImageNet dataset has been fine-tuned on the large-scale ear dataset which is called as Multi-PIE ear dataset. With this way, we have aimed to adapt the CNN model to the ear domain. Later, we have fine-tuned this model on our target datasets which are Istanbul University dataset, FERET, UND-F and UND-J2 respectively. We have also performed data augmentation technique on all datasets for producing more data and increasing the variance of the datasets in order to improve the classification performance of the deep CNN models. Besides, we have benefited from center loss, large-margin softmax loss (L-Softmax), and angular softmax loss (A-Softmax) in deep CNN model. With these loss functions, we have obtained more distinguishable features and more accurate results. While Istanbul University dataset and FERET dataset have been employed for both age and gender classification, UND-F and UND-J2 datasets have only been utilized for gender classification experiments due to lack of age information of the subjects. On Istanbul University dataset with geometric features, we have obtained 38.5% classification score by linear SVM for age classification, and we have achieved 63% classification performance by linear SVM for gender classification task. On the other hand, for appearance based representation, we have reached 54.41% age classification accuracy by VGG-16 CNN model and 100% gender classification accuracy by both VGG-16 and ResNet-50 using large-margin softmax loss. For age classification experiments on the FERET dataset, in the 3 class setup, we have obtained 85.71% result with ResNet-50 and center loss. In the 5 class setup, ResNet-50 and VGG-16 deep CNN architectures have achieved 69% classification accuracy with large-margin softmax loss. Moreover, for gender classification, we have obtained 98.33%, 98.33%, and 99.16% classification performance on FERET, UND-F, and UND-J2 datasets respectively. All these appearance-based results have been obtained with data augmentation and domain adaptation techniques. Finally, all results indicate that ear can provide useful information for age and gender classification. However, age estimation requires further work.