Tez No İndirme Tez Künye Durumu
688186
Integrating near and long-range evidence for visual detection / Görsel tanıma problemlerine yakın ve uzun mesafeli kanıtların entegre edilmesi
Yazar:NERMİN SAMET
Danışman: DR. ÖĞR. ÜYESİ EMRE AKBAŞ
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Bilgisayarla görme = Computer vision ; Nesne tanıma = Object recognition ; Yapay görme = Machine vision
Onaylandı
Doktora
İngilizce
2021
148 s.
Bu tez, tek-aşamalı, sınırlayıcı kutu içermeyen, oylamaya dayalı, aşağıdan-yukarıya nesne tanıma yöntemi olan HoughNet`i sunar. Genelleştirilmiş Hough Dönüşümü`nden esinlenen HoughNet, belirli bir konumdaki bir nesnenin varlığını, o konuma verilen oyların toplamına göre belirler. Oylar, log-polar oy alanına dayalı olarak hem yakın hem de uzak mesafelerden toplanır. Bu oylama mekanizması sayesinde, HoughNet görsel tanıma için hem yakın hem de uzun mesafeli, sınıf koşullu kanıtları entegre edebilir, böylece tipik olarak yalnızca yerel kanıtlara dayanan mevcut nesne algılama metodolojisini genelleştirir ve geliştirir. COCO veri kümesinde, HoughNet`in en iyi modeli 46.4 AP (ve 65.1 AP_50) elde ederek aşağıdan-yukarıya nesne tanıma yöntemleri ile benzer seviyede başarım göstermiş ve bir çok ana tek-aşamalı ve iki-aşamalı nesne tanıma yöntemlerini geride bırakmıştır. Önerdiğimiz yöntemin etkinliğini diğer görsel tanıma problemlerinde, yani videolarda nesnesi tanıma, nesne bölütleme, 3B nesne tanıma, insan pozisyon kestirimi, tüm-vücut insan pozisyon kestirimi, yüz tanıma ve ek olarak ``etiketten fotoğrafa`` görüntü oluşturma probleminde doğruladık. Buna göre, oylama modülümüz entegre edildiği her durumda performansı sürekli olarak iyileştirmiştir. Önerimizin tüm-vücut insan pozisyon kestirimi için etkinliğini göstermek için HPRNet adını verdiğimiz aşağıdan-yukarıya tek-aşamalı bir yöntem geliştirdik. HPRNet`te, tüm-vücut ana noktalarının her birini, insan sınırlayıcı kutu üzerindeki belirli noktalara göreli bir konumla tanımladığımız hiyerarşik bir regresyon mekanizması oluşturuyoruz. Bu tez bağlamında ayrıca, oylama yoluyla kısa mesafeli etkileşimleri entegre eden, tek-aşamalı, sınırlayıcı kutu içermeyen bir nesne tanıma yöntemi olan PPDet`i öneriyoruz. PPDet, tekil özniteliklerden elde edilen tahminleri tek bir tahminde toplar, bu sayede eğitim sırasında ayırt edici olmayan özniteliklerin katkılarının azaltmasına olanak tanır.
This thesis presents HoughNet, a one-stage, anchor-free, voting-based, bottom-up object detection method. Inspired by the Generalized Hough Transform, HoughNet determines the presence of an object at a certain location by the sum of the votes cast on that location. Votes are collected from both near and long-distance locations based on a log-polar vote field. Thanks to this voting mechanism, HoughNet is able to integrate both near and long-range, class-conditional evidence for visual recognition, thereby generalizing and enhancing current object detection methodology, which typically relies on only local evidence. On the COCO dataset, HoughNet`s best model achieves 46.4 AP (and 65.1 AP_50), performing on par with the state-of-the-art in bottom-up object detection and outperforming most major one-stage and two-stage methods. We further validate the effectiveness of our proposal in other visual detection tasks, namely, video object detection, instance segmentation, 3D object detection, keypoint detection for human pose estimation and whole-body human pose estimation, face detection and an additional ``labels to photo`` image generation task, where the integration of our voting module consistently improves performance in all cases. In order to show the effectiveness of our proposal on whole-body human pose estimation task, we developed a bottom-up, one-stage method called HPRNet. In HPRNet, we build a hierarchical regression mechanism, where we define each of the whole-body keypoints with a relative location (i.e. offset) to a specific point on the person box. In the context of this thesis we also propose a one-stage, anchor-free object detector, PPDet, which integrates short-range interactions through voting. PPDet sum-pools predictions stemming from individual features into a single prediction which allows the model to reduce the contributions of non-discriminatory features during training.