Tez No İndirme Tez Künye Durumu
536119
Derin öğrenme tekniklerini kullanarak rgb-d nesne tanıma / Rgb-d object recognition using deep learning techniques
Yazar:ALİ ÇAĞLAYAN
Danışman: DOÇ. DR. AHMET BURAK CAN
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning ; Sınıflandırma = Classification
Onaylandı
Doktora
Türkçe
2018
123 s.
Nesne tanıma, bilgisayarlı görü alanının temel ve zorlu problemlerinden birisidir. RGB görüntüleri ile beraber zengin geometrik yapılı derinlik verilerini sağlayan Microsoft Kinect gibi algılayıcıların yaygınlaşmalarıyla birlikte, RGB-D verileri, temel bilgisayarlı görü problemlerini çözmek için çok yararlı bir kaynak olarak ortaya çıkmıştır. Özellikle robotik görme alanında bu tür verilerin kullanıldığı nesne tanıma görevi, robotun ortamla etkileşiminde ve görsel kavrayışında önemli bir rol oynamaktadır. Öte yandan, derin öğrenme tekniklerinde kaydedilen özellikle son on yıldaki gelişmeler, nesne tanıma performansında büyük bir artış sağlamıştır. Bu tez kapsamında, derin öğrenme tekniklerini kullanarak RGB-D nesne kategorilerini tanımak için gerçekleştirilen çeşitli çalışmalar sunulmaktadır. Bu çalışmalarda, derin öğrenme tekniklerinden evrişimsel sinir ağları (ESA, convolutional neural networks) ve özyinelemeli sinir ağları (ÖSA, recursive neural networks) kullanılmaktadır. Tezin ilk aşamasında, evrişim filtrelerinin gözetimsiz bir şekilde öğrenildiği bir ESA ve bir de ÖSA olmak üzere iki katmanlı, sığ bir mimari kullanılarak RGB-D nesne tanıma için bir analiz çalışması sunulmaktadır. RGB ve derinlik verilerinin farklı karakteristiklerine uygun olarak, geriyayılım algoritması kullanmaksızın ileri-beslemeli öğrenme gerçekleştiren sığ mimaride, etkin model ayarlamaları ve parametreleri araştırılmaktadır. Tezin sonraki aşamasında, derinlik verilerinde saklı olan zengin geometrik bilgilerden daha iyi faydalanmak için çeşitli hacimsel gösterimler tanımlanarak, bu hacimsel gösterimleri giriş olarak ele alan 3-boyutlu ESA mimarileri ile tanıma gerçekleştirilmektedir. Bu amaçla, derinlik verileri 3B voksel grid temsilleri ile ifade edilmekte ve bu temsillere uygun 3B ESA modelleri deneysel olarak araştırılarak uygun bir model sunulmaktadır. Tezin son kesiminde ise transfer öğrenme ile RGB-D nesne tanıma için yeni bir yaklaşım sunulmaktadır. Buna göre ilk önce bir öneğitimli ESA modeli ile RGB ve derinlik verileri için farklı katmanlardan nitelikler çıkartılmaktadır. Daha sonra bu nitelikler daha yüksek düzeyli temsillere eşlenmek üzere, ÖSA modelleri ile dönüştürülmektedir. Son olarak farklı düzeyden çıkartılan temsiller birleştirilerek bir nesne görüntüsünün bütününü ifade eden vektörler elde edilmektedir. Önerilen çalışmalar, RGB-D nesne tanıma için literatürde sıkça kullanılan veri kümelerinde gerçekleştirilen kapsamlı testler ile analiz edilmektedir. Önerilen yöntemlerde, çalışma amaçlarını doğrulayan ve ilgili çalışmalarla yarışabilir düzeyde, başarılı sonuçlar elde edilmektedir.
Object recognition is one of the basic and challenging problems of computer vision. With the widespread use of RGB-D sensors such as Microsoft Kinect, which provides rich geometric structured depth data along with RGB images, RGB-D data have emerged as very useful resources for solving fundamental computer vision problems. Particularly in the field of robotic vision, an object recognition task using such data plays an essential role in the interaction of a robot with its surrounding environment and the capability of its visual comprehension. On the other hand, the tremendous progress in deep learning techniques over the last decade, has led to a significant increase in object recognition performance. In this thesis, several studies on RGB-D object category recognition using deep learning techniques are presented. In these studies, convolutional neural networks (CNN) and recursive neural networks (RNN) are employed. In the first phase of the thesis, an empirical analysis for RGB-D object recognition based on a two-layered shallow architecture with an RNN layer and a CNN layer in which the convolution filters are learned in an unsupervised manner is presented. In accordance with the different characteristics of RGB and depth data, effective model settings and parameters are investigated in this shallow model that learns deep features in a feed-forward manner without backpropagation algorithm. In the next phase of the thesis, various volumetric representations are defined in order to make better use of the rich geometric information stored in the depth data and recognition is carried out with 3-dimensional CNN architectures that take these volumetric representations as inputs. To this end, depth data are represented by 3D voxel grid representations and a suitable 3D CNN model is presented for these representations by experimentally investigating among many different alternatives. In the last part of the thesis, a new approach based on transfer learning for RGB-D object recognition is presented. To this end, firstly, a pretrained CNN model is used to extract features from different layers for RGB and depth data. Then, these features are transformed with RNN structures to map to higher-level representations. Finally, the representations derived from different levels are fused to produce a final vector expressing the holistic object image. The proposed works are analyzed with extensive experiments performed on the well-known datasets for RGB-D object recognition. The proposed works produce successful results that confirm the main objectives and the results are higly competitive with the related studies.