Tez No İndirme Tez Künye Durumu
762067
Generating illustrations for children books using generative adversarial networks / Çekişmeli üretici ağları kullanarak çocuk kitapları için çizim oluşturma
Yazar:SAMET HİÇSÖNMEZ
Danışman: PROF. DR. PINAR DUYGULU ŞAHİN ; DR. ÖĞR. ÜYESİ EMRE AKBAŞ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2022
106 s.
Bu tez, çocuk illüstrasyon kitabı görüntüleri oluşturmak için yeni bir yöntemi sunar. Yöntemimiz, girdi olarak kenar haritaları veya çizimler alır ve seçilen illüstratör tarafından stilize edilmiş görüntüler ve/veya videolar üretir. Bunu başarmak için üç yeni model geliştirdik; bir görüntü renklendirme, bir görüntü stilizasyon ve bir video çeviri modeli. Önerdiğimiz çizimden görüntüye dönüştürme modelimiz, temel yöntemlere ek olarak bölütleme modeli çıktısını da bütünleştirmekte ve FID ve mIoU metriklerini büyük ölçüde iyileştirmektedir. Mevcut son teknoloji görüntüden görüntüye çeviri modellerinin ya stili ya da içeriği başarılı bir şekilde aktarmasına rağmen, her ikisini de aynı anda aktaramadıklarını gözlemledik. Bu sorunu çözmek için yeni bir üretici ağ öneriyoruz ve ortaya çıkan ağın stil ve içerik arasında daha iyi bir denge kurduğunu gösteriyoruz. Mevcut videodan videoya çeviri yöntemleri, bir görüntüden görüntüye çeviri modeli üzerine kuruludur ve optik akış gibi ek ağları veya zamansal ilişkileri yakalamak için zamansal tahmin edicileri entegre eder. Bu ek ağlar, model eğitimini ve çıkarımını karmaşıklaştırır ve yavaşlatır. Videodan videoya stil aktarımında zamansal tutarlılığı sağlamak için yeni bir yöntem öneriyoruz. Önceki yöntemlerin sınırlamalarının üstesinden gelmek için özellik çarpıtma katmanlarına sahip yeni bir üretici ağı öneriyoruz. Son teknoloji ürünü görüntü stilizasyon modelleri son derece sanatsal görüntüler üretebilse de, bunların nicel olarak değerlendirilmesi hala açık bir sorundur. Bir görüntü stilizasyon modelinin hem içerik hem de stil aktarımı yönünü dikkate alan yeni bir değerlendirme çerçevesi öneriyoruz. Bu üç modeli eğitmek için benzersiz bir illüstrasyon veri seti topladık. Veri setimiz 26 farklı illüstratörden 10.000'den fazla illüstrasyon içermektedir. Ayrıca nesne düzeyinde sınırlayıcı kutu açıklamaları içerir. Mevcut haliyle, ilk büyük ölçekli illüstrasyon görüntü veri setidir. Veri kümesinin zorlu olduğunu göstermek için derinlemesine analiz yapıyoruz.
This thesis presents a very first method to create children illustration book images. Our method takes edge maps or sketches as input and generates images and/or videos stylized by the selected illustrator. To achieve this, we developed three novel models; an image colorization, an image stylization and a video translation model. Our proposed sketch to image translation model integrates an adversarial segmentation loss to baseline methods which improves the FID and mIoU scores greatly. We show that although the current state-of-the-art image-to-image translation models successfully transfer either the style or the content, they fail to transfer both at the same time. We propose a new generator network to address this issue and show that the resulting network strikes a better balance between style and content. Current video-to-video translation methods build on an image-to-image translation model, and integrate additional networks such as optical flow, or temporal predictors to capture temporal relations. These additional networks complicate and slow down the model training and inference. We propose a new method for ensuring temporal coherency in video-to-video style transfer. We propose a new generator network with feature warping layers to overcome the limitations of the previous methods. Even though, current state-of-the-art image stylization models could generate highly artistic images, quantitative evaluation of them is still an open problem. We propose a new evaluation framework which considers both content and style transfer aspect of an image stylization model. To train these three models, we collected a unique illustration dataset. Our dataset contains more than 10,000 illustrations from 26 different illustrators. It also contains object level bounding box annotations. In its current form it is the first large scale illustration image dataset. We conduct in depth analysis to show that the dataset is challenging.