Tez No İndirme Tez Künye Durumu
798350
An end-to-end convolutional neural network framework for low-resolution attribute recognition / Düşük çözünürlüklü özellik tanıma için uçtan uca evrişimli sinir ağı çerçevesi
Yazar:RAMIN ABBASZADI
Danışman: DOÇ. DR. NAZLI İKİZLER CİNBİŞ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2022
94 s.
Video izlemede cinsiyet, sırt çantası, kıyafet türü gibi kişisel görsel özellikler, kişi arama ve / veya yeniden kimlik tespiti için çok önemlidir. Bu öznitelikleri yüksek doğruluk oranıyla tespit etmek ve geri almak için, yüksek kaliteli videoların mevcudiyeti genel olarak bir gerekliliktir. Görüntüdeki detaylar görüntü çözünürlüğüyle tanımlanır, çözünürlük arttıkça detaylar da artar yani doğru orantılılardır. Ancak, gerçek dünyadaki video gözetim sistemlerinde, videolar genellikle uzak mesafelerden yakalanır ve bu da kişilerin bulunduğu bölgelerin düşük çözünürlüklü olmasına neden olur. Bu sorunu çözmek için kullanılan teknik, gözlemlenen bir veya birkaç düşük çözünürlüklü görüntüden yüksek çözünürlüklü görüntüler oluşturan Süper-Çözünürlüktür. Bu tezde, bu soruna bakıyoruz ve daha etkili Çok-Özellikli algılama için Süper-Çözünürlük ağını ve Çok-Özellikli algılama ağını bir araya getiren uçtan uca Evrişimli Sinir Ağları kullanmayı öneriyoruz. Çerçevemiz, iki ana kısmın, Süper-Çözünürlük ve öznitelik öğrenme kısımlarının ortak eğitiminden oluşur.Önerilen yöntemin ilk bölümünde farklı Süper Çözünürlük algoritmaları kullanıyoruz. Bu amaçla, bazı iyi bilinen ve kaliteli Süper Çözünürlük algoritmaları test edilmiş ve son olarak EDSR ve DBPN adlı iki yöntem seçilmiştir. Bu tez, önerilen metodu önemli özniteliklerle etiketlenmiş ver her görüntü etiketini tahmin edebilmeyi sağlayan Market-1051 ve DukeMTMC-reID veri setleriyle değerlendiriyor. Bu iki kıyaslamalı veri setlerindeki deneysel sonuçlara göre veri setleri, düşük çözünürlüklü Çok-özellikli öğrenme metodu için önerilen yaklaşımın etkililiğini açıklıyor. Ayrıca, kişi öznitelik tanımada üstün sonuçlara ulaşılmasını sağlayan daha yüksek seviyeli iki ağ tipinin (Süper-Çözünürlüklü ya da Süper-Çözünürlüksüz) lineer kombinasyon taslaklarını da bu tezde inceleyip sunuyoruz.
In video surveillance, visual person attributes such as gender, backpack, and type of clothing are crucial for searching and re-identification. For detecting and retrieving these attributes with high accuracy, the availability of high-quality videos is a necessity in general. The details in an image are described by image resolution; the higher the resolution, the more image details. However, in real-world video surveillance systems, videos are usually captured from a far distance, resulting in low-resolution person regions. The technique used for solving this obstacle is super-resolution, which constructs high-resolution images from several observed Low-Resolution images or one single Low-Resolution image. This thesis examines this problem and proposes an end-to-end Convolutional Neural Network that combines a Super Resolution network and Multi-Attribute detection network for more effective Multi-Attribute detection. Our framework consists of joint training of two main parts, the Super-Resolution and attributes learning. We use different Super-Resolution algorithms in the first part of the proposed method. For this purpose, some well-known and high-quality Super-Resolution algorithms were tested, and finally, two methods entitled EDSR and DBPN were selected. We evaluate the proposed method on two benchmark datasets, Market-1051 and DukeMTMC-reID, labeled with some important labels (attributes) and predict every image label. Experimental results on these two benchmark datasets demonstrate the effectiveness of the proposed approach for the Low-Resolution multiple attribute learning task. Furthermore, we also propose a higher-level linear combination scheme of the two network types (with and without super-resolution), yielding superior results in person attribute recognition.