Tez No İndirme Tez Künye Durumu
626400
Derin üretici ağlar ile ölçeklenebilir ikili görüntü oluşturma ve tek görüntüden üç boyutlu nesne yapılandırma / Scalable binary image generation and single image to three-dimensional object reconstruction using deep generative models
Yazar:CEREN GÜZEL TURHAN
Danışman: DOÇ. DR. HASAN ŞAKİR BİLGE
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
149 s.
Derin ağ konusunda son gelişmeler, görüntü oluşturma, tamamlama, sahne değiştirme gibi bilgisayar görü problemleri için Üretici Çekişmeli Ağ (GAN) ve Otokodlayıcıya (AE) dayalı modellerin ortaya çıkmasına neden olmuştur. Bu modeller incelendiğinde daha kısa süren eğitim süreleri ve maliyetleri nedeniyle genellikle düşük boyutlu görüntüler oluşturabildiği değerlendirilmiştir. Bu nedenle, ölçeklenebilir bir üretici ağ modeli oluşturmak öncelikli olarak hedeflenmiştir. Diğer bir taraftan, üretici modellerin görüntü oluşturma performanslarından etkilenilerek bu modelleri üç boyutlu alana aktarmaya odaklanılmıştır. Gerçek problemler için daha kritik olan görüntülerden nesne oluşturma ve yeniden yapılandırma problemi ele alınmıştır. Gerçek nesnelerin üç boyutlu yer gerçekliği verilerinin elde edilmesinin güçlüğü nedeniyle sentetik veriler üzerinde eğitilen modelleri gerçek veriler üzerinde de kullanabilmek üzere RGB görüntüler yerine silüet tabanlı çalışmalar yürütülmüştür. Nesnelerin birden fazla açıdan çekilmiş görüntülerinin her zaman mevcut olamaması nedeniyle ise tek açıdan görüntülere dayalı kategori-bağımsız modeller benimsenmiştir. Tez kapsamında, ilk olarak, VAE/CPGAN ölçeklenebilir bir üretici ağ modeli oluşturmak üzere önerilmiştir. Önerilen model ile ikili görüntülerde istenen boyutlarda görüntülerin, düşük boyutlu görüntülerden elde edilebildiği görülmüştür. Tez kapsamında devam eden çalışmalarda tek açıdan görüntülerden nesne yapılandırmak üzere önerilen VoxCAE/GAN, VoxAE, VoxCAE, SkipVoxCAE ve FusedVoxCAE modelleri, literatürdeki diğer çalışmalardan farklı olarak, türevlenebilir olarak tanımlanan Bileşim üzerinde Kesişim (IoU) maliyetine dayalı olarak eğitilmiştir. Literatürde daha önce nesne yapılandırma için kullanılan amaç fonksiyonları ile analiz çalışmaları yürütülmüştür. Gerçekleştirilen niteliksel ve niceliksel değerlendirmelere göre, tez kapsamında önerilen IoU maliyetine dayalı eğitilen modellerin daha iyi performans sergilediği görülmüştür. Adım adım iyileştirilen modeller ile önde gelen çalışmalara benzer, bazı kategoriler için ise daha iyi sonuçların elde edilebildiği ortaya koyulmuştur.
Recent improvements on deep generative models have revealed Generative Adversarial Network (GAN) and Autoencoder (AE) based models for image generation, completion, inpainting, and similar computer vision tasks. These models are capable of generating low-dimensional images due to the computational costs. Therefore, it has been addressed to develop a scalable GAN model. Furthermore, the performance of the current generative models has led to studies on transferring these models to three dimensional domain. Image to object reconstruction problem has been considered to be more critical for real-world problems. Differences among synthetic and real images have caused silhouette based studies rather than RGB. The category-agnostic modeling using single image has been targeted in the rest of studies due to the difficulties on obtaining multiple images of an object. In the thesis study, first of all, VAE/CPGAN has been proposed as a scalable generative model. It has been seen the desired sized images can be generated from low-dimensional images. In the following studies of thesis, proposed VoxCAE/GAN, VoxAE, VoxCAE, SkipVoxCAE and FusedVoxCAE models have been trained depending on given differentiable the Intersection-Over-Union (IoU) objective unlike previous studies in the literature. The contribution of given objective on the model performance has been analyzed comparing existing objectives for three dimensional object reconstruction. According to given qualitative and quantitative results, it has been shown that proposed models based on IoU objective can perform better than compared objectives. By improving the performances of presented models step by step, promising results have been recorded when comparing the outstanding studies.