Tez No İndirme Tez Künye Durumu
723380
Hand pose estimation and rendering for augmented reality / Artırılmış gerçeklik için insan eli tahmini ve görselleştirme
Yazar:IKRAM KOURBANE
Danışman: DR. ÖĞR. ÜYESİ YAKUP GENÇ
Yer Bilgisi: Gebze Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning ; Evrişimli sinir ağları = Convolutional neural networks ; Görselleştirme = Visualization ; Üretici ağlar = Producer networks
Onaylandı
Doktora
İngilizce
2022
144 s.
Renkli (RGB) bir imgeden üç boyutlu (3B) elin yeri ve doğrultusunun tahmini, birçok artırılmış gerçeklik (AG) uygulaması için çok elzemdir. Elin tam görünmemesi ve sahne derinlik belirsizlikleri nedeniyle doğru tahmin zordur. Güncel yöntemler, el eklemleri arasındaki kinematik bağımlılıkları modellemek için çizge evrişimsel ağ (ÇGN) kullanmaktadır. Bununla birlikte, bu teknikler, ölçeğe göre normalleştirilmiş bir referansa görece 3B pozu tahmin eder ve mutlak koordinatları tahmin etmez. Ayrıca, regresyon problemini sınırlandırmak için herhangi bir kısıtlamadan getirmezler. Bu arada, yüksek hesaplama süresi gerektiren verimsiz kayıp fonksiyonlarına sahip büyük modeller kullanırlar. Bu tezde, bahsedilen sorunlar ele alınmakta ve etkili 2B ve 3B el pozu tahmin yöntemleri sunulmaktadır. İlk yöntem, 2B el pozu tahmini için çok ölçekli bir sıcaklık haritası regresyon yaklaşımıdır. İkinci çözüm, eklemleri 2B/3B uzamsal konumlarına göre sınıflandıran ÇGN tabanlı bir çerçevedir. Model regresyon görevine rehberlik eden girdi başına ortak ilişkiler kısıtlamasını öğrenir. Üçüncü metodumuz, kamera alanındaki el ölçeği ve konumu hakkında ipuçları sağlayan kırpılmış eli ve küresel sahne görüntüsünü kullanır. Ayrıca regresyonu basitleştirmek ve çalışma süresini hızlandırmak için yeni bir kayıp fonksiyonu sunar. Beş genel veri kümesi ve yeni oluşturulan veri kümemiz üzerinde yapılan kapsamlı deneyler, verimli modellerimizin doğru küresel 3B el pozisyona ve oryantasyonunu tahmin ettiğini ve literatürden daha iyi performans sağladıklarını göstermektedir. Son olarak doğrudan AG görselleştirme için girdi gerçek el görüntüsünü sentetik bir görüntüye çeviren ve onu nesne görüntüsüyle birleştiren çekişmeli üretici ağ (GAN) tabanlı bir yöntem sunmaktadır. Niteliksel ve niceliksel sonuçlar, yaklaşımımızın görsel olarak gerçekci işlenmiş el görüntüleri oluşturduğunu ve literatürdeki GAN tabanlı çözümlerden daha iyi başarım sergilediğini gösteriyor.
Monocular RGB-based 3D hand pose estimation is crucial for numerous augmented reality applications. This task is challenging due to occlusion and depth ambiguities. Recent methods use GCN-based (Graph Convolutional Networks) to model kinematic dependencies between hand joints. These techniques estimate a scalenormalized root-relative 3D pose, and the absolute coordinates are unknown. Also, they do not enforce any constraints to restrict the regression model. Meanwhile, they employ large models with inefficient loss functions requiring high computation time. This thesis tackles the issues and presents efficient 2D and 3D hand pose estimation methods. The first method is a multi-scale heatmap regression approach for 2D hand pose estimation. The second study is a GCN-based framework that classifies the joints based on their 2D/3D spatial locality. It learns per-input joint relation constraints that guide the 3D regression task. Our third method exploits the cropped hand and the global scene image, which provides clues about the hand scale and location in the camera space. Also, it presents a new loss function to simplify the regression and speed up the running time. Extensive experiments on five public datasets show that our efficient models estimate accurate global 3D hand poses and outperform the state-ofthe-art. The last study presents a GANs-based (generative adversarial network) method that translates a real hand image to a synthetic one and renders it with an object image. Qualitative and quantitative results show that our approach generates visually appealing rendered hand images and outperforms different GANs-based frameworks.