Tez No İndirme Tez Künye Durumu
421409
Mevkisel ve anlamsal göreceli nitelikler yardımıyla görüntü tanıma / Visual recognition via spatially and semantic relative attributes
Yazar:EMRAH ERGÜL
Danışman: PROF. DR. SARP ERTÜRK ; DOÇ. DR. NAFİZ ARICA
Yer Bilgisi: Kocaeli Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
Onaylandı
Doktora
Türkçe
2016
162 s.
Bu tezin amacı, görüntü verisinin içeriğine uygun olarak tanımlanmasını sağlayacak yeni bir makine öğrenme algoritması geliştirmektir. Önerilen algoritma; ilk aşamada görüntü tanıma probleminde sıkça kullanılan görsel kelimeler sözlüğünü denetimsiz şekilde elde ederek ham veriyi öncelikle düşük seviye ve boyutta yeni bir öznitelik uzayına taşımak amacıyla derin sinir ağı yapısı kullanmıştır. Auto-Encoder gibi denetimsiz öğrenmeyi sağlayan bir yapay sinir ağı mimarisinde, ara katmanlarda yer alan düğümlere ait ağırlık vektörleri öbekleme algoritması içerisinde prototip vektörlerini temsil etmiştir. Elde edilen prototip vektörleri görsel kelimeler sözlüğünü oluşturmuş ve bir benzerlik metriği kullanılmak suretiyle görüntü verisi düşük seviye ve boyutta öznitelik vektörleri ile ifade edilmiştir. Ayrıca ikinci aşamada, öğrenci-öğretmen etkileşimli bir yapı içerisinde başlangıçta denetimsiz olarak oluşturulan kategori tabanlı göreceli nitelik uzaylarını sınıf modellerine uygun şekilde ve eş zamanlı güncelleyecek özgün bir yöntem geliştirilmiştir. Daha sonra, hedef kategoriler yarı denetimli olarak etkileşimli ve arttırımlı bir yapıda, görsel kelimeler ve göreceli niteliklerle birlikte öğrenilerek görüntü sınıfları modellenmiştir. Tez çalışması neticesinde, bir görüntü içeriğindeki nesne ve nitelikleri dinamik ve çok kriterli ortamda etkin bir şekilde tanıyan sınıflandırma sistemi geliştirilmiştir. Göreceli nitelikler yardımıyla daha geniş bir ifade özgürlüğüne kavuşulacağından, insan-makine etkileşiminde takviyeli öğrenmenin görüntü analizine yansımaları ayrıca değerlendirilmiştir. Görüntü tanımaya/sınıflandırmaya yönelik bulunacak çözüm önerilerinin uygulama sahası olarak yüksek çözünürlüklü uydu görüntülerinin, kızılötesi görüntülerin, medikal görüntülerin, istihbarat maksatlı kullanılan hava araçlarından anlık olarak iletilen görüntülerin ve sualtı ses sinyallerinin analizi kapsamında da kullanılabileceği değerlendirilmektedir.
The aim of this thesis is to develop a new machine learning algorithm which leads to the recognition of visual data relevant to the semantic content. The proposed method implements a multi-layer neural network architecture in the first stage to achieve a dictionary of 'Visual Words' in an unsupervised manner which is often used in visual recognition problems. The visual words are used mainly to convey raw visual data into a new feature space that is low level and provides a comperatively reduced representation. The weight vectors which belong to neurons in the hidden layers of a neural netwok alike Auto-Encoder that help unsupervised feature extraction, actually represent prototype vectors for a clustering algorithm. The achieved prototype vectors constitute a dictionary of visual words, and the visual data are represented with low level and reduced feature vectors using a similarity metric. Additionaly in the second step, a new learning method is developed to update category based relative attributes space, initialized with an unsupervised way, according to and concurrent with the class models in a structure of student-teacher interaction. Thereafter, the visual classes are modeled as the target categories are learnt incrementally by means of visual words and relative attributes in a semi-supervised and interactive structure. At the end of this thesis, a visual classification system is developed by means of recognizing the objects and the attributes in its contents effectively at multi-criteria environment. Not only can we analyze the scene/object categories that are included in the training stage, but also new classes which are introduced into the system at the test stage can be recognized by the learnt relative attributes. Additionally, the effects of reinforced learning to the vision processing are evaluated at the human-machine interaction since much more freedom of expression is achieved by means of relative attributes. We think that the proposals for solution of visual recognition/classification problems can indeed be used in the interest areas of high resolution satellite images, infra-red visions, medical images, unmanned aerial vehicle surveilance images and underwater acoustic signal analyzing.