Tez No İndirme Tez Künye Durumu
609345
Target aware visual object tracking / Hedef farkındalığıyla görsel nesne takibi
Yazar:CANER ÖZER
Danışman: PROF. DR. BİLGE GÜNSEL KALYONCU
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı / Telekomünikasyon Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2019
79 s.
Görsel nesne takibi (VOT), literatürde, öğrenilmiş nesnelerin görüntülerde sezilmesi ve video kareleri boyunca takip edilmesi olarak tanımlanabilir. Tez çalışması kapsamında takibin başladığı ilk video karesinde izlenilmek istenilen nesne belirtilmektedir ve bu nedenle yöntem hedef farkındalığıyla görsel nesne takibi olarak adlandırılmaktadır. Derin öğrenme ağları kullanılarak gerçeklenen görsel nesne takip yöntemleri genel olarak videodaki zamansal bilgiyi modele dahil etmemekte, sadece öğrenilmiş nesnelerin takibini sağlamakta ve ağ tarafından belirlenen olası nesneler arasından hedef nesneyi nesnelilik veya benzerlik skorlarına dayalı olarak sezmektedir. Özellikle video içersinde takip edinilmesi istenilen sınıftan birden fazla nesnenin bulunması durumunda, benzerlik skoru bu anlamda ayırt edici yeterli bilgi sağlamakta başarısız olmaktadır. Aynı zamanda bu yöntemler, konvolüsyonel ağlar ile çıkarılan gradyan temelli öznitelikler kullandıklarından, özellikle bulanıklığa ve ışıklılık değişimlerine karşı yeterli gürbüzlüğe sahip değillerdir. Tez kapsamında, bu problemleri azaltmak ve zamansal bilgiyi modele katarak tek bir nesnenin hedef farkındalığıyla takip edilebilmesini amaçlayan, Hedef Farkındalığıyla Görsel Nesne Takipçisi (TAVOT) olarak adlandırılan, bir yöntem önerilmiştir. TAVOT, derin öğrenme ağı tarafından önerilen olası nesne konum bilgilerini parçacık filtresi tarafından örneklenen olası nesne konumları ile birlikte değerlendirmekte ve bu sayede izlenen nesneye ilişkin özniteliklerin öne çıkartılmasını sağlamaktadır. Yapılan filtrelemeler ve filtre çıktısının nesne sezicisine geri iletilmesi sonucu iki farklı bilgi kaynağınından faydalanılmış, görsel nesne takip performansının iyileştirilmesi sağlanmıştır. Böylelikle, en yüksek nesnelilik skoruna sahip olması nedeniyle sezilen nesnenin en yüksek doğrulukla sezilen nesne olmaması sorunu önlenmiş, nesne sezicinin en son kararının doğruluğunun arttırılması sağlanmıştır. Tez çalışması kapsamında, derinlikli nesne sezici olarak iki aşamalı bir nesne sezicisi olan Maske Bölgesel-Konvolüsyonel Yapay Sinir Ağları (Mask R-CNN), parçacık süzgeci olarak ise "Değişken Oranlı Renk Tabanlı Parçacık Süzgeci" (VRCPF) kullanılmıştır. Mask R-CNN, ilk aşamasında bölge öneri ağı ile hangi bölgelerin potansiyel olarak nesne içerebileceğini bulup, ikinci aşamasında ise nesne içermesi en yüksek ihtimalli sınırlı sayıda bölge üzerinden, içerlerinde hangi nesneyi bulundurabileceğini ve nesnenin bölütleme haritasını hesaplamaktadır. Bölge öneri ağı, girdi olarak görüntüye dair özniteliklerin ResNet-101 üzerine kurulu bir öznitelik piramit ağlarınca çıkartılmasından sonra, her bir ankor bölge için nesnenin konumunu ve nesne olma olasılığını, yani nesnelilik skorunu bulmaktadır. Bulunan bölgelerin sayısı öncelikle nesnelilik skoru maksimum olmayan bölgelerin bastırılması (NMS) ile azaltılır. Bölge öneri ağının ilettiği bölgeler için, öznitelik piramit ağlarının öznitelik haritalarından çiftdoğrusal aradeğerleme ile, öznitelikler çıkarılır ve üst katmanlara iletilir. Öznitelikler üst katmanda iki kol üzerinden işlenerek nesne sezme ve bölütleme işlemleri gerçekleştirilir. Öte yandan VRCPF, başlangıçta hedef olarak belirlenen nesneyi takip edebilmek için durum geçiş modelini kullanarak adaptif olarak durum güncelleme sayısını ayarlamakta, örneklenen parçacıkların ağırlıklarını, parçacık tarafından belirlenen hedef bölge ile hedef renk histogramlarının farklarına dayanarak, hesaplamaktadır. Literatürde bu metotların tek tek ya da birlikte kullanıldığı çalışmalar mevcuttur. ayrık bir şekilde kullanılmaları, kayda değer düzeyde bir performans artışına sebebiyet vermemektedir. Mask R-CNN'in tek başına kullanılması durumunda, hatalı karar oranı yüksektir. Hatalı karar oranını düşürmek amacıyla NMS eşiklemenin sıkı tutulması durumunda ise nesne kaçırma oranı yükselmektedir. Parçacık filtreleme ile nesne izlemede karşılaşılan temel sorun hedef nesneden uzaklaşılması durumunda geriye dönüşün hemen hemen olanaksız olmasıdır. Literatürde parçacık süzgeçleme Mask R-CNN den alınan geri besleme ile kontrol edilerek hedef nesne modelinin güncellenmesi gerçeklenmiş ve hedef izleme performansı arttırılmıştır. Bu ve benzeri çalışmalardan esinlenilerek bu tez çalışması kapsamında Mask R-CNN'in performansının VRCPF ten alınan geri besleme ile arttırılması hedeflenmiştir. Tez çalışmasında, Mask R-CNN bölge öneri ağı tasrafından önerilen olası nesne konum bilgileri ile VRCPF tarafından önerilen nesne konum bilgilerini tümleştiren bir "geç tümleştirme" mekanizması önerilmiştir. Geç tümleştirme kapsamında, bölge öneri ağı tarafından üretilen her bir bölge önerisi ile VRCPF tarafından üretilen her bir parçacık arasındaki örtüşme oranı (IoU) hesaplanmış, sadece belirli bir eşik değerini geçen parçacıklar ve bölge önerileri ikinci aşamaya yönlendirilmektedir. Bu parçacıklar ile bölge önerileri, nitelikli öneriler olarak tanımlanmış, bu eşik değerini niteleyen $\gamma$ hiperparametresi ise 0.3 olarak seçilmiştir. Nitelikli önerilerin ikinci aşamaya geçmesi sonucunda, her bir video karesi için nesne sezicinin sonuçları derlenmekte ve takip edilmek istenen nesneye ait olan sınıf dışındaki bütün tahminler filtrelenmektedir. TAVOT çıkışını belirleyen son karar en yüksek nesnelilik skoruna sahip nesne olarak belirlenmektedir. Literatürde varolan Mask R-CNN'in de çıkışında en yüksek nesnelilik skoruna sahip olan nesneyi izlenen nesne olarak belirliyor olmasına karşın, TAVOT'un nesne öneri aşamasında lokalizasyon ve nesnelilik skorlarını birlikte kullanan bir karar kuralı uygulaması sonucunda, daha az sayıda ve tutarlı öneri üst katmana ulaşmakta, böylelikle doğruluk artmaktadır. Başarım, görsel nesne takibi için yaygın olarak kullanılan VOT2016 veri tabanında, örtüşme, hareket kaynaklı bulanıklık, pozlama, ölçek ve ışıklılık değişiklikleri gibi çeşitli zorluklar içeren videolar üzerinden raporlanmıştır. İlk olarak γ parametresindeki değişiminin, TAVOT'un başarımı üzerindeki etkisi irdelenmiş, ardından farklı örtüşme oranları (IoU) için Mask R-CNN'in varolan başarımı ile mukayese edilmiştir. Başarım kriterleri olarak ortalama başarım oranı ve beklenilen ortalama örtüşme oranı seçilmiştir. γ'nın 0.3 değeri için Mask R-CNN'e kıyasla beklenilen ortalama örtüşme oranı üzerinden %70'lik bir artış, ortalama başarım oranında ise IoU-th 0.5 için %82, IoU-th 0.75 için ise %128'lik bir artış görülmüştür. Performans artışının temel kaynağı, takip edilmek istenilen nesne ile aynı sınıfa ait çoklu nesne örneklerinin bulunduğu videolarda hedef farkındalığının sağlanmış olmasıdır. Tez çalışmasında TAVOT'un başarımı Mask R-CNN'in yanı sıra, VOT2016'da en iyi performansı gösteren ilk 8 yöntem ile kıyaslanmıştır. Farklı örtüşme oranı eşik değerleri için başarım oranları raporlanmış, TAVOT'un lokalizasyondaki doğruluğu arttırması neticesinde yüksek IoU-th kriterlerinde TAVOT'un diğer yöntemlere kıyasla daha yüksek başarım oranına sahip olduğu görülmüştür. Gürbüzlük kriteri için en iyi performansı göstermese bile, Mask R-CNN'e kıyasla %47 lik bir iyileşme sağlanmıştır. TAVOT, 0.605'lik bir doğruluk oranı ile bütün yöntemler arasındaki en doğru nesne takipçisi olmuştur. Nesne takip performansının örtüşme, ışıklılık ve boyut değişimi gibi bozulmalardan etkileniyor olması nedeniyle, TAVOT'un bu bozulmaların herbirine karşı dayanıklılığı da irdelenmiştir. Mask R-CNN'in ışıklılık değişimi hariç tüm bozulmalarda en düşük performansı gösteriyor olmasına karşın, TAVOT'un özellikle boyut değişiminde 0.610'luk, ışıklılık değişiminde ise 0.702'lik başarım artış oranlarıyla, diğer bütün takipçilerden daha yüksek performansa sahip olduğu raporlanmıştır.
Visual object tracking (VOT) is defined as tracking an object of interest using the localization information of an object initiated at the first frame, however, most of the VOT methods are only capable of detecting the learned objects after a vigorous training procedure and checking detections' similarity or objectness score without taking temporal information into account. Especially, when there is more than one instance of an object in a video sequence, the similarity score of each object fails to provide sufficient discriminative information. These methods lack robustness to illumination changes as well. To alleviate these problems, we proposed Target Aware Visual Object Tracker (TAVOT) which aims to track a single object in a video with target awareness. TAVOT aims to leverage both objectness scores of object detector and guidance of a particle filter by providing the attributes regarding the target object of interest. These two information sources benefit the visual object tracking performance after filtering and transmitting the output back to the object detector. Thus, these regulate object detector's final decision, since the detections, which have the highest objectness score, does not refer to the most accurate detection. In this thesis, a two-stage object detector called Mask Region-based Convolutional Neural Network (Mask R-CNN) and a tracker called Variable-Rate Color Particle Filter (VRCPF) are used. Region proposals are found via a network called Region Proposal Network (RPN) at the first stage of Mask R-CNN, whereas some finite number of regions that have the highest likelihood of containing objects are classified and segmented at the second stage. VRCPF, on the other hand, possesses a state-transition model and adaptively adjusts the number of updates on the state and estimates the weight of particles, which are sampled from the state, by measuring the difference between a particle and a target color histogram, in order to track a target object of interest. However, using the detector and tracker separately does not provide high performance because the former fails to track the target object of interests when there are multiple instances of an object and the latter may unable to accurately represent the content because of the drifts from the target. In addition, it is insufficient to combine the sampled particles with region proposals and directly transmitting them to the second stage of Mask R-CNN under the notion of target awareness because the output given a distracting proposal might still be chosen for the final decision. To alleviate this problem, in the context of the thesis, a late fusion scheme is proposed for the transmission of some qualified particles and region proposals to the second stage of Mask R-CNN. The proposed scheme calculates the intersection over union (IoU) between the region proposals and particles, and only the ones that exceed a pre-defined threshold of γ become eligible for the transmission to the head of Mask R-CNN. After that, the predictions of the object detector are gathered and, they are filtered using the target class name criterion. The final decision is made among the remainder detections such as selecting the one with the highest objectness score. We named this method Target Aware Visual Object Tracking (TAVOT) as we included the notion of target-awareness by adding a particle filter tracker to the object detector. Different than Mask R-CNN, where the final decision is also made by selecting the detection which has the highest objectness score, TAVOT has less number of detections that the final decision is selected among numerous detections. Performance test results are reported on commonly used Visual Object Tracking (VOT) 2016 challenge video sequences which have several challenges such as occlusion, motion blur, pose, scale, and illumination changes. The impact of late fusion is evaluated by changing the hyperparameter γ and the success rates of TAVOT are compared to Mask R-CNN are reported at different IoU values. The success criteria are defined by average success rates and expected average overlap (EAO). It is observed that when γ = 0.3, the late fusion improves EAO by 63% relative to Mask R-CNN, while the gains on success rate are 84% and 138% for IoU-ths of 0.5 and 0.75 respectively. The main reason for this performance increase is due to the increased capability for tracking in videos with multiple object instances by yielding target-awareness property to the object detector. In order to evaluate TAVOT's performance compared to the state-of-the-art trackers, the success rates compared to the top-8 trackers of VOT2016 challenge are also reported. Success rates reported at different IoU thresholds demonstrate that TAVOT improves the localization accuracy thus increases the performance especially at higher IoU thresholds. While our tracker does not demonstrate the best performance in robustness criteria, the performance is improved by 47% when it is compared with Mask R-CNN. TAVOT accounts for an accuracy of 0.605 which makes it the most accurate tracker among them all. In the context of the thesis, attribute-based performance of TAVOT is also evaluated as it is common to report attribute-based behavior of the object trackers since the tracking accuracy may vary for the videos affected by different attributes including occlusion, illumination change, size change, etc. Numerical results demonstrate that TAVOT surpasses all the existing trackers in all attributes and a significant difference in size and illumination changes are obtained by success rates of 0.610 and 0.702, respectively. In stark contrast to Mask R-CNN, which provides the lowest ranking except for the illumination change attribute, TAVOT's improvement is clearly visible in all attributes.