Tez No İndirme Tez Künye Durumu
385111
Fusion of multimodal information for multimedia information retrieval / Çoğulortam bilgi erişimi için çok kipli bilginin birleştirilmesi
Yazar:TURGAY YILMAZ
Danışman: PROF. DR. ADNAN YAZICI
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Bölümü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2014
265 s.
Çoğulortam verilerine etkili bir erişim, verideki mantıksal içerik üzerine bina edilir. Mantıksal içeriğin çıkarılması için, çoğulortam verisi dikkatlice analiz edilmeli ve bilgi verinin içerdiği tüm bilgi kullanılmalıdır. Çoğulortam veriler, içinde çok kipli bilgi barındıran karmaşık bir yapıya sahiptir. Verideki gürültü, herhangi bir tekil kipin genelgeçer bilgi içerememesi ve her kipin performans üst limiti sebebiyle, herhangi bir kipten sağlanacak bilgiye güvenmek mümkün değildir. Bu yüzden, bilgi erişimi işleminin performansını artırmak için çok kipli bilginin birleştirilmesi kullanışlı bir yöntem olarak ortaya çıkmaktadır. Fakat, bu yöntemle ilgili olarak iki temel zorluk bulunmaktadır; 'ne' ve 'nasıl' birleştirilmeli. Verilen bu zorluklar kapsamında, bu tezin katkıları dört başlık altında incelenebilir. İlk olarak, literatürdeki çalışmaları incelenerek ve genel bilgi birleştirme sistemlerinin tasarım kriterleri saptanarak genel bir birleştirme çerçeveleri ortaya konmuştur. İkinci olarak, 'ne' birleştirilmeli problemini çözmek amacıyla, sınıfa özgü öznitelik seçim (CSF) yöntemi ve RELIEF-tabanlı bir kip ağırlıklandırma algoritması (RELIEF-MM) önerilmiştir. Üçüncü olarak, 'nasıl' birleştirilmeli problemi ele alınıp, madencilik ve çizge tabanlı yeni bir yöntem önerilmiştir. Bu yöntem kelime torbaları modeliyle temsil edilen kiplerin etkili bir şekilde birleştirilmesini sağlamaktadır. Son olarak, bahsedilen iki problem birlikte ele alınarak, doğrusal ağırlıklandırmalı birleştirme üzerine, doğrusal olmayan bir ilave yapılmıştır. CalTech101, TRECVID 2007, 2008, 2011 and CCV veri kümelerinde çeşitli çok öznitelikli ve çok kipli ayarlar ile kapsamlı deneyler yapılmış, ve önerilen algoritmaların belirtilen problemlerin çözümünde verimli, etkin ve sağlam yöntemler olduğu ortaya konmuştur.
An effective retrieval of multimedia data is based on its semantic content. In order to extract the semantic content, the nature of multimedia data should be analyzed carefully and the information contained should be used completely. Multimedia data usually has a complex structure containing multimodal information. Noise in the data, non-universality of any single modality, and performance upper bound of each modality make it hard to rely on a single modality. Thus, multimodal fusion is a practical approach for improving the retrieval performance. However, two major challenges exist; 'what-to-fuse' and 'how-to-fuse'. In the scope of these challenges, the contribution of this thesis is four-fold. First, a general fusion framework is constructed by analyzing the studies in the literature and identifying the design aspects of general information fusion systems. Second, a class-specific feature selection (CSF) approach and a RELIEF-based modality weighting algorithm (RELIEF-MM) are proposed to handle the 'what-to-fuse' problem. Third, the 'how-to-fuse' problem is studied, and a novel mining and graph based combination approach is proposed. The approach enables an effective combination of the modalities represented with bag-of-words models. Lastly, a non-linear extension on the linear weighted fusion approach is proposed, by handling both of the 'what-to-fuse' and 'how-to-fuse' problems together. We have conducted comprehensive experiments on CalTech101, TRECVID 2007, 2008, 2011 and CCV datasets with various multi-feature and multimodal settings; and validate that our proposed algorithms are efficient, accurate and robust ways of dealing with the given challenges of multimodal information fusion.