Tez No İndirme Tez Künye Durumu
533797
2D/3D human pose estimation using deep convolutional neural nets / Derin evrişimsel sinir ağları ile 2B/3B insan vücudu pozisyon kestirimi
Yazar:MUHAMMED KOCABAŞ
Danışman: DR. ÖĞR. ÜYESİ EMRE AKBAŞ
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2019
81 s.
Bu tezde tekli görüntülerden 2B/3B insan pozisyon kestirimi için algoritmalar önerdik.Tezin ilk kısmında, özgün bir atama tekniği ile çoklu-görev modelini birleştiren yeni bir aşağıdan-yukarıya çoklu insan pozisyon kestirimi algoritması olan MultiPoseNet'i önerdik. MultiPoseNet insan tespiti, ana nokta tespiti, insan bölütleme ve pozisyon kestirimi görevlerini beraber yürütebilmektedir. Yeni atama tekniği tespit edilen ana noktalar ve insanları eşleştirerek doğru pozlar üreten Pose Residual Network (PRN) ile gerçekleştirilmiştir. Geliştirdiğimiz poz kestirim yöntemi COCO ana nokta veri setinde tüm aşağıdan-yukarıya yöntemlerden hız (en iyi sonuçtan +4-puan mAP daha fazla) ve doğruluk bazında daha üstün sonuçlar vermektedir, ayrıca yukarıdan-aşağıya yöntemlerden 4 kat daha hızlı çalışırken doğruluk bazında onlara yakın sonuç üretebilmektedir. Yöntemimiz 23 çerçeve/saniye ile en hızlı çalışan gerçek zamanlı sistemdir.Tezin ikinci kısmında, öz gözetimli tek insanlı monoküler görüntülerden 3B insan pozisyon kestirimi yöntemi olan EpipolarPose'u ve yapı farkındalıklı bir 3B insan pozisyon kestirimi performans ölçüsü olan Pose Structure Score'u önerdik. 3B insan pozisyon kestirimi yöntemlerini eğitmek elde etmesi oldukça maliyetli çok miktarda 3B gerçek referans etiketler gerektirmektedir. 3B verinin eksikliği nedeni ile birçok zayıf veya öz gözetimli poz kestirimi yöntemleri geliştirilmiştir. Buna rağmen bu yöntemler 2B gerçek referans etiketlerin yanında çeşitli şekillerde gözetim (örneğin eşleştirilmemiş 3B gerçek referans etiketler, etiketlerin ufak bir alt kümesi) ya da çoklu görüntü senaryolarında kamera değişkenlerine ihtiyaç duymaktadır. Bu problemleri çözmek amacıyla 3B gerçek referans etiketine veya kamera değişkenlerine ihtiyaç duymayan öz gözetimli öğrenme yöntemi olan EpipolarPose'u geliştirdik. Eğitim sırasında EpipolarPose bir 3B poz kestirim modelini eğitmek için çoklu görüntülerde 2B insan pozlarını tahmin eder, ardından epi-kutuplu geometri ile 3B pozu ve kamera geometrisini etiket olarak kullanır. Yaklaşımımızın etkisini Human3.6M ve MPI-INF-3DHP denektaşlarında en gelişmiş sonuçları elde ederek gösterdik. Ek olarak bir pozun gerçek referans değerine göre olan yapısal geçerliliğini ölçebilen, ölçekten bağımsız, yapı farkındalıklı yeni bir performans ölçüsü Pose Structure Score (PSS) önerdik.
In this thesis, we propose algorithms to estimate 2D/3D human pose from single view images. In the first part of the thesis, we present MultiPoseNet, a novel bottom-up multi-person pose estimation architecture that combines a multi-task model with a novel assignment method. MultiPoseNet can jointly handle person detection, keypoint detection, person segmentation and pose estimation problems. The novel assignment method is implemented by the Pose Residual Network (PRN) which receives keypoint and person detections, and produces accurate poses by assigning keypoints to person instances. On the COCO keypoints dataset, our pose estimation method outperforms all previous bottom-up methods both in accuracy (+4-point mAP over previous best result) and speed; it also performs on par with the best top-down methods while being at least 4x faster. Our method is the fastest real time system with 23 frames/sec. In the second part of the thesis, we present EpipolarPose which is a self-supervised training methodology for single person monocular human pose estimation and Pose Structure Score, a structure aware performance measure for 3D human pose estimation. Training accurate 3D human pose estimators requires large amount of 3D ground-truth data which is costly to collect. Various weakly or self supervised pose estimation methods have been proposed due to lack of 3D data. Nevertheless, these methods, in addition to 2D ground-truth poses, require either additional supervision in various forms (e.g. unpaired 3D ground truth data, a small subset of labels) or the camera parameters in multiview settings. To address these problems, we present EpipolarPose, a self-supervised learning method for 3D human pose estimation, which does not need any 3D ground-truth data or camera extrinsics. During training, EpipolarPose estimates 2D poses from multi-view images, and then, utilizes epipolar geometry to obtain a 3D pose and camera geometry which are subsequently used to train a 3D pose estimator. We demonstrate the effectiveness of our approach on standard benchmark datasets i.e Human3.6M and MPI-INF-3DHP where we set the new state-of-the-art among weakly/self-supervised methods. Furthermore, we propose a new performance measure Pose Structure Score (PSS) which is a scale invariant, structure aware measure to evaluate the structural plausibility of a pose with respect to its ground truth.