Tez No İndirme Tez Künye Durumu
781885
Yüz görüntülerinde derin üretken modeller ile anlamsal görüntü tamamlama / Semantic image completion with deep generative models in facial images
Yazar:İLKAY ÇINAR
Danışman: DR. ÖĞR. ÜYESİ MURAT KÖKLÜ
Yer Bilgisi: Selçuk Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Görüntü işleme-bilgisayarlı = Image processing-computer assisted ; Yapay sinir ağları = Artificial neural networks
Onaylandı
Doktora
Türkçe
2023
102 s.
Son zamanlarda, derin öğrenme temelli birçok yaklaşım, görüntü sınıflandırması, nesne algılama, biyometrik tanı, görüntü tamamlama veya iç boyama, anlamsal ve örnek bölütleme gibi çeşitli karmaşık görüntü görevlerinde şaşırtıcı sonuçlar elde etmektedir. Bu yaklaşımlar, farklı görüntü görevleri için geleneksel yöntemlere göre daha derin özellikleri çıkarma yeteneğine sahiptir. Görüntü tamamlama, başka bir ifade ile görüntü iç boyama işlemlerinde görüntülerdeki eksik veya maskelenmiş bölgeleri uygun bir şekilde sentezlenmiş içeriklerle doldurmak ve pikselleri yeniden üretmek zorlu bir süreçtir. Ancak, derin öğrenme yaklaşımları ile görüntülerin tamamlanmasında derin evrişimli sinir ağları ve üretken çekişmeli ağların etkisi önemli ilerlemelere katkı sağlamaktadır. Bu tezin amacı, yüz görüntülerindeki sentetik olmayan maske nesnelerini U-Net anlamsal bölütleme algoritması ile otomatik olarak tespit ederek görüntüden çıkartılmasını ve maske nesnesinden boşalan bölgenin üretken çekişmeli ağ tabanlı model ile orijinal görüntüye uygun biçimde tamamlanmasını sağlamaktır. Tez çalışmasında kullanılan modellerin eğitilmesi için öncelikle etik izni ve bireysel izinleri alınmış farklı cinsiyetteki 335 kişiden, yaklaşık 3 metre mesafeden ve 3 farklı açıdan hem maske nesnesi takılı olan hem de maske nesnesi takılı olmayan toplam 2010 adet tam boy görüntüleri elde edilerek sentetik olmayan görüntü veriseti oluşturulmuştur. Toplanan tam boy görüntüler, otomatik yüz tespiti yapabilen ve sonrasında yüz bölgesinin kırpılması işlemini gerçekleştiren yazılım ile 225x225 piksel boyutunda kırpılarak, kırpılmış görüntü veriseti oluşturulmuştur. Kırpılmış görüntü verisetindeki maske nesneli görüntüler U-Net model eğitimi için manuel olarak etiketlenmiş ve 100 epoch sabit olmak üzere 100-400 iterasyon aralığında eğitim gerçekleştirilmiştir. U-Net model eğitimleri sonrasında en yüksek IoU değeri 0,9261, en yüksek doğrulama IoU değeri 0,9584, en yüksek F1 puanı %96,19, en düşük kayıp değeri 0,0117, en düşük doğrulama kayıp değeri ise 0,0049 olarak elde edilmiştir. Eğitim sonrası elde edilen görüntüler kaydedilerek, etiketlenmiş görüntü veriseti oluşturulmuştur. Maske nesnesinden boşalan bölgenin iç boyama işleminden önce hem oluşturulan üretken çekişmeli ağ modelinin etkinliğini değerlendirmek hem de iç boyama işleminde kullanılmak üzere maske nesnesi takılı olmayan kırpılmış görüntüler kullanılarak tüm yüz tamamlama işlemi gerçekleştirilmiştir. Tüm yüz tamamlama işleminde 30.000 epoch ve her epoch için 126 iterasyon ile deneyler gerçekleştirilmiştir. 100 epoch ile başlayıp 30.000 epoch değerine kadar her 1000 epoch için sonuçlar kaydedilmiştir. Deney sonuçlarında en yüksek ortalama PSNR değeri olan 25,78 değerine ve en düşük ortalama RMSE değeri olan 13,85 değerine 29.000 epoch sonrasında ulaşılmıştır. Tüm yüz tamamlama işleminden sonra maske nesnesinden boşalan bölgenin iç boyama işlemi için U-Net bölütleme modelinden elde edilen etiketlenmiş görüntü veriseti kullanılmıştır. Kırpılmış görüntü veriseti ile tüm yüz tamamlama için önceden eğitilen üretken çekişmeli ağ, ayırt edici ağa giriş olarak verilmiştir. Etiketlenmiş görüntü verisetinde bulunan maske nesnesinden elde edilen beyaz bölge koordinatları belirlenmiş ve yine etiketlenmiş verisetinde bulunan orijinal yüz maskeli görüntü üzerinde bu koordinatların bulunduğu bölge işaretlenerek üretici ağa giriş olarak verilmiştir. Maske nesnesinden boşalan bölgenin iç boyama işleminde de tüm yüz tamamlama işleminde olduğu gibi 30.000 epoch ve her epoch için 126 iterasyon ile deneyler gerçekleştirilmiştir. Deney sonuçlarında en yüksek ortalama PSNR değeri olan 14,51 değerine ve en düşük ortalama RMSE değeri olan 50,65 değerine 26.000 epoch sonrasında ulaşılmıştır. Tüm yüz tamamlama sonrası elde edilen metrik değerlerine oranla maske nesnesinden boşalan bölgenin iç boyaması işleminden elde edilen metrik değerlerinin daha düşük olması, bu tez çalışmasında sentetik olmayan verilerin kullanılması dolayısıyla iki görüntü arasında sağlama yapmak için kullanılan orijinal yüz görüntüleri ile maskeli yüz görüntülerinin normalde de örtüşmemesinden kaynaklanmaktadır. Tez çalışmasının geneline bakıldığında sentetik olmayan görüntüler üzerinde U-Net bölütleme ağı maske nesnesini etkili bir şekilde tespit etmiştir. Ayrıca, üretken çekişmeli ağ tabanlı yüz tamamlama ve görüntü iç boyama işlemleri de başarılı bir şekilde gerçekleştirilmiştir.
Recently, many deep learning-based approaches have been achieving amazing results in various complex image tasks, such as image classification, object detection, biometric diagnosis, image completion or inpainting, and segmentation of semantics and instance. In comparison to traditional methods, these approaches can extract deeper features from images. The process of image completion, or image inpainting, involves synthesizing contents and reproducing pixels in masked or missing areas in the images. However, the effect of deep convolutional neural networks and generative adversarial networks on the completion of images with deep learning techniques contribute to significant advances. As the title implies, this thesis aims to automatically detect non-synthetic facial masked objects in facial images using the U-Net semantic segmentation algorithm and ensure that the area blanked from the facial masked object is completed according to the original image using a generative adversarial network-based model. Firstly, ethical permission and individual permissions were obtained for collecting the dataset to train the models in this thesis. A non-synthetic image dataset was created by obtaining a total of 2010 full-length images of 335 people of different genders, from a distance of approximately 3 meters far and 3 different angles, both with and without a mask. A cropped image dataset was created by cropping the collected full-length images with a size of 225x225 pixels with software that can automatically detect the face and then perform the cropping of the face area. Images with facial masked objects in the cropped image dataset were manually labeled for U-Net model training and training was carried out in the range of 100-400 iterations, with a fixed number of 100 epochs. After the U-Net model training, the highest IoU value was 0.9261, the highest validation IoU value was 0.9584, the highest F1 score was 96.19%, the lowest loss value was 0.0117, and the lowest validation loss value was 0.0049. The images obtained after the training were recorded and a labeled image dataset was created. Before the inpainting, both the area blanked from the facial masked object and the whole face completion process were carried out to evaluate the effectiveness of the generated generative adversarial network model and then to be used in the inpainting process. A cropped image dataset without a facial masked object was used for the whole face-completion process. Experiments were carried out with 30,000 epochs in the whole face completion process and 126 iterations in each epoch. The results were recorded for every 1000 epochs starting with 100 epochs and up to 30,000 epochs. In the results of the experiment, the highest average PSNR value of 25.78 and the lowest average RMSE value of 13.85 were reached after the 29,000 epochs. The labeled image dataset obtained from the U-Net segmentation model was used for the inpainting of the blanked area from the facial masked object after the whole face completion process. The generative adversarial network, which is pre-trained for whole-face completion with cropped image dataset, is given as an input to the discriminator network. From the facial masked object found in the labeled image dataset, the coordinates for the white area were determined, and these coordinates were marked on the original face mask image in the labeled dataset network and sent into the generator network as input. Experiments were carried out with 30,000 epochs and 126 iterations in each epoch in the inpainting process of the blanked area from the facial masked object and the whole face completion process. Experiments resulted in, the highest average PSNR value of 14.51 and the lowest average RMSE value of 50.65 reached after 26,000 periods. In this thesis, the use of non-synthetic data is due to the facts that the metric values obtained from the inpainting process of the blanked area from the facial masked object are lower than the measured values obtained after the whole face completion, and the fact that the two images used, the original face images and the masked face images were not normally overlapped. The core of the thesis, the U-Net segmentation network has effectively detected masks on non-synthetic images. In addition, the generative adversarial network-based face completion and image inpainting operations can also be successfully performed.