Tez No İndirme Tez Künye Durumu
143617 Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
Translating images to words: A novel approach for object recognition / Görüntülerden kelimelere çeviri: Nesne tanıma problemine yeni bir yaklaşım
Yazar:PINAR DUYGULU ŞAHİN
Danışman: PROF. DR. FATOŞ YARMAN VURAL ; DOÇ. DR. DAVİD FURSYTH
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2003
144 s.
Günümüzde etiketlenmiş görüntü veri tabanlarının artışıyla birlikte, görüntülerin öznitelikleri ve anahtar kelimeler çeşitli amaçlar için birlikte kullanılabilir hale gelmiştir. Bu çalışmada, bölütlenmiş görüntülere kelime j'erleştirme yeni bir nesne tanıma yöntemi olarak önerilmektedir. Bu yöntem, nesne tanıma problemini görüntü bolütlerinin kelimelere çevirisi olarak değerlendirir. İşlem bir dilin başka bir dile çevrilmesine benzerdir ve bir çeşit bilgisayarlı çeviri yöntemi olarak tanımlanabilir. İlk işlem görüntülerin bölütlenmesi ve her bölütten önceden belirlenmiş bir öznitelik vektörünün çıkarılmasıdır. D alia sonra bölütler öznitelik uzayında topaklandırılarak, sonlu sayıda bölüt kategorisi oluşturulur. Bölüt kategorileriyle, kelimeler arasındaki uygunluk ilişkisi "Expectation Maximization (EM)" algoritmasının kullanıldığı bir yöntemle öğrenilir. Bu aşamadan sonra, öğrenilen uygunluk ilişkisi kullanılarak, verilen bir görüntü bölgesine karşı gelen kelime ya da bir görüntünün anahtar kelimeleri tahmin- lenebilir. Bu yöntem bölüt adlandırma, ve otomatik etiketlendirmede kullanılabilir. Yöntem çok sayıda etiketlenmiş görüntü içeren Corel koleksiyonunda uygulandı ve deneylerle yöntemin başarısı değerlendirildi. Önce yöntemin tahminlerindeki doğruluk başarısı, göreceli olarak ufak sayıdaki elle etiketlenmiş görüntüler üzerinde değerlendi-. rüdi. Sonra sistem, görüntülerin etiketleri vekil olarak kullanılarak değerlendirildi. Etiketleme başarısı üç ölçekle değerlendirildi: tahmin ve hedef dağılımları arasındaki Kullback-Leibler uzaksaması, normalize edilmiş sınıflandırma skoru, ve kelime talimin oranı. Sonuçlar, yöntemin bir çok kelimeyi doğru olarak talimin edebildiğini gösterdi. Temel alınabilecek mutlak bir doğrunun yokluğunda, önerilen sistemin başarısı diğer iki yöntemle karşılaştırıldı: ampirik kelime yoğunluğuna dayak önerme, ve bölüt ve kelimelerin birlikte varolma oranları. Sonuçlar önerilen yönte-min kesin olarak diğerlerinden daha iyi başarıya sahip olduğunu göstermekte. Son olarak, temel yöntemin başarısını yükseltebilecek eklemeler tartışıldı. Anahtar Kelimeler: Nesne tanıma, ilişkilendirme, bilgisayarla çeviri, etiketlenmiş görün tü veri tabanları, EM algoritması
In this thesis, we propose a new approach to the object recognition problem, moti vated by the recent availability of large annotated image collections. This approach considers object recognition as the translation of image regions to words, similar to the translation of text from one language to another. The "lexicon" for the transla tion is learned from large annotated image collections, which consist of images that are associated with text. First, images are segmented into regions, each of which are represented by a pre-specified feature vector: Then the regions (of all the training images) are clustered in the feature space, categorizing the regions into a finite set of blobs. The correspondences between the blobs and the words are learned, using a method based on the Expectation Maximization algorithm. Once learned, these cor respondences can be used to predict words corresponding to particular image regions (region naming), or words associated with whole images (auto-annotation). The method is applied on the Corel data set, a large collection of stock photographs annotated by a set of keywords. A series of experiments are carried out to assess the performance of the method. First, the accuracy of predictions is evaluated on a relatively small number of hand-labeled images. Then the system is evaluated by using annotation performance as a proxy. Annotation performance is evaluated using three measures: Kullback-Leibler divergence between the predicted and target distributions, normalized classification score and word prediction rate. The results indicate that, the method can predict numerous words with high accuracy. Due to the lack of a ground truth, the performance of the proposed sj^stem is compared against two other methods: predictions using empirical word densities and the co-occurrences of blobs and words. The results clearly show that, the proposed method has a better performance than these two methods. Finally, extensions of the basic method to improve the performance of the system are discussed.Keywords: Object Recognition, Correspondence, Machine translation, Annotated Im age Collections, EM algorithm