Tez No İndirme Tez Künye Durumu
710672
Identifying and addressing imbalance problems in visual detection / Görsel tespitteki dengesizlik problemlerinin belirlenmesi ve çözümlenmesi
Yazar:KEMAL ÖKSÜZ
Danışman: DOÇ. DR. SİNAN KALKAN ; DR. ÖĞR. ÜYESİ EMRE AKBAŞ
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2021
321 s.
Bu tezin iki ana amacı vardır: (Amaç 1) Görsel tespitteki dengesizlik problemlerini belirleme ve (Amaç 2) bu problemleri performans metriklerine dayanan kayıp fonksiyonları ile çözümleme. Amaç 1 için nesne tespit görevindeki dengesizlik problemleri için problem tabanlı bir sınıflandırma ve her bir problem için yöntem ve açık noktaları ile birlikte detaylı bir tartışma içeren bir inceleme sunuyoruz. Amaç 2'ye ulaşmak için iki zorluk belirliyoruz: (i) Yaygın performans metriği olan AP'nin belirli sakıncaları bulunmaktadır. Bunlara çare olan yeni bir performans metriği olarak Localisation Recall Precision (LRP) Hatasını öneriyoruz. (ii) Performans metriklerinden türetilen kayıp fonksiyonları türevleri sıfır ya da sonsuz olan sıralama-tabanlı fonksiyonlardır ve geri yayılım ile doğrudan kullanılamazlar. Bunu aşmak için, perceptron öğrenmeye dayanarak, sıralama-tabanlı kayıp fonksiyonları için basit ve genel bir optimizasyon metodu olan, pozitif ve negatiflerin toplam gradyan büyüklükleri açısından ispatlanabilir bir denge sağlayan Identity Update'i öneriyoruz. Bu zorlukları çözümledikten sonra, LRP Hatası ve Identity Update'i kullanarak, görsel nesne tespit edicilerin dengeli eğitimi için average LRP (aLRP) ve Rank & Sort (RS) kayıplarını öneriyoruz. Kayıp fonksiyonlarımızın şu eşsiz faydaları sağladığını gösteriyoruz: (i) Ortalama ∼7 hiper-parametreye sahip yaygın metotlardan farklı olarak, tek hiper-parametre ile ayarlanmaları kolaydır, (ii) Maksimum-Olmayanı-Bastırma ve performans ölçüsü AP üzerinde etkisi olan görsel tespit edicilerin alt görevleri (sınıflandırma ve farklı konumlandırma görevleri) arasındaki korelasyonu sağlamaktadırlar ve (iii) birçok farklı metoda (tek aşamalı, çok aşamalı, çapa-tabanlı, çapasız, dengeli veya dengesiz veri ile) uygulanabilirler. Bu faydalarının sonucunda, örneğin RS kaybımız ile sadece öğrenme oranını ayarlayarak dört nesne tespit edici ve üç bölütleme metodunu eğitiyor ve performanslarını tutarlı olarak arttırıyoruz.
This thesis has two aims: (Aim 1) Identifying imbalance problems in visual detection, and (Aim 2) addressing these problems using loss functions based on performance measures. For Aim 1, we present a comprehensive review of the imbalance problems in object detection including a problem-based taxonomy and a detailed discussion for each problem with its solutions and open issues. To achieve Aim 2, we identify two challenges: (i) Average Precision (AP), the common performance measure, has certain drawbacks. To remedy them, we propose Localisation Recall Precision (LRP) Error as a novel performance measure. (ii) Loss functions derived from performance measures are ranking-based functions whose derivatives are zero or infinite, thus, they cannot directly be used with backpropagation. To overcome this, based on perceptron learning, we propose Identity Update, a simple and general optimisation method for ranking-based losses, which provably ensures balance in terms of total gradient magnitudes of positives and negatives. Having addressed these challenges, using LRP Error and Identity Update, we propose average LRP Loss and Rank & Sort (RS) Loss for balanced training of visual detectors. We show that our loss functions have the following unique benefits: (i) They are easy-to-tune with a single hyper-parameter, different from common methods with ∼ 7 hyper-parameters on average, (ii) they enforce correlation among sub-tasks of visual detectors (i.e. classification and different localisation tasks), which affects both the remaining detections after Non-Maximum- Suppression and performance measure AP, and (iii) they are applicable to a diverse set of visual detectors (i.e. one-stage, multi-stage, anchor-based, anchor-free, with balanced or severely imbalanced data). As a result of these benefits, for example with RS Loss, we train four object detection and three instance segmentation methods only by tuning the learning rate and consistently improve their performance.