Tez No İndirme Tez Künye Durumu
338446
Superpixel based efficient image representation for segmentation and classification / Bölütleme ve sınıflandırma için süperpiksel temelli etkin imge simgeleme
Yazar:HÜSEYİN EMRAH TAŞLI
Danışman: PROF. DR. ABDULLAH AYDIN ALATAN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
Onaylandı
Doktora
İngilizce
2013
169 s.
Görsel kayıt ve gösterim cihazlarındaki çözünürlük artışı ile birlikte gelen ekonomik satış fiyatları, görsel bilginin hayatın vazgeçilmez bir öğesi olmasına sebep olmuştur. Her gün çok büyük miktarda görsel veri kaydedilip depolandıktan sonra, belki de farklı amaçlar için tekrar işlenerek anlamlandırılmaktadır. Teknolojinin hızla geliştiği ve görsel kayıt cihazların sayısının hızlıca arttığı bu zamanda, araştırmacılar bu büyük veriyi ulaşılır kılmanın ve gerektiğinde farklı amaçlar için işlemenin en verimli yollarını aramaktadır. Her gün kaydedilen görsel veri miktarındaki artış, sayıları hızla artan taşınabilir cihazların artması ile ilişkilendirilebilir. Bu cihazlardaki sayısal artışın yanı sıra, görsel kalitede de çözünürlük, renk, aydınlık ve gürültü bakımından artış kaydedilmiştir. Diğer tarafta ekran teknolojilerinde de, son çeyrek asırda önemli gelişmeler yaşanmıştır. Plazma ve LCD ekran teknolojilerinin yaygınlaşması ile televizyon ebatlarında derinlik açısından ciddi azalma olmuştur. Bu aynı zamanda, taşınabilir ekranların özellikle düşük enerji tüketimleri ile yaygınlık kazanarak ceplerimize girmelerine sebep olmuştur. Bir başka önemli adım ise üç boyutlu ekranların yaygınlaşarak daha zengin bir görsel deneyim ile tanışmamızı sağlamış olmalarıdır. Üç boyutlu televizyonlarda son on yıl içinde ciddi bir artış gözlenmiştir. Buna ek olarak üç boyutlu mobil ekranlar da üretilerek tüketiciye sunulmuştur. Fakat, ekran sayısındaki artış içerik üreticileri tarafından aynı oranda karşılık görememiştir. Sonuç olarak, üç boyutlu cihazlar beklenenin altında ilgi görmüştür. Bu durumun altında yatan sebepler ve çözüm önerileri bu tezde sunulmaktadır. Bu tez, görsel içerik analizinden, görselleştirme teknolojileri konusuna kadar farklı alanlara değinmektedir. Gerçek zamanlı görüntü ve vidyo işleme, insan görsel perspektifi temelli öznel ve nesnel görsel kalite analizi, stereoskopi ve üç boyut algısı, görüntü anlama ve nesne tanıma, alt orta seviye ve bölgesel imge öznitelik tanımlayıcıları gibi konular bu tezde incelenmektedir. Anlatılan yöntemler gerçek hayat senaryolarına uygulanarak sonuçları öznel ve nesnel kalite ölçümleri ile değerlendirilmiştir. Superpiksel çıkarımı verimli bir imge simgeleme yöntemi olarak sunulmaktadır. Bu şekilde bölütleme performansında artış ve işlem karmaşıklığında ciddi kazanımlar sağlanabilmektedir. Süperpiksel çıkarımında renk ve uzamsal yakınlık kriterlerine dayanan bir metrik kullanılmıştır. Detaylı nesnel karşılaştırmalar ile değerlendirilen yöntem, işlem hızı ve bölütleme performansı ile güncel metotlara ciddi bir alternatif oluşturmaktadır. Oluşturulan süperpiksel bölgeleri, kullanıcı etkileşimli imge bölütleme yöntemi için kullanılmaktadır. Kullanıcı, imge üzerindeki belirleyici alanları işaret ederek nesne ve arka fon bölütlemesi için sisteme bilgi vermektedir. Bu bilgi ile oluşturulan enerji fonksiyonu en aza indirgenerek, sahnenin bölütlenmesi sağlamaktadır. Elde edilen nesne sınırları, stereo görüntü sentezinde kullanılarak üç boyutlu görselleştirme sağlayabilmektedir. Önerilen yöntem ek olarak stereo ve video içerklere de uygulanarak bütünlük sağlanmıştır. Süperpiksel bölgeleri ayrıca orta seviye bilgi kaynağı olarak ele alınarak görüntü sınıflandırma probleminde kullanılmışlardır. Güncel piksel temelli öznitelik tanımlıyıcıları örnek alınarak, orta seviye bir imge tanımlama yöntemi önerilmektedir. Bu sayede, alt seviyede yapılan bilgi çıkarımının orta seviyeye de aktarılarak bütünleyici bir yaklaşım sergilenmesi mümkün olabilmektedir. Deneysel çalışmalar ile de destekleyici yönde sonuçlar gözlenmiştir.
The wide availability of visual capture and display devices with increasing resolution and affordable prices, made the visual data an indispensable part of our life. The enormous amount of visual data produced every day is captured, stored and sometimes processed for further analysis. In this era of technological improvement, where an exponential increase in the number and capability of the devices is experienced, researchers have focused on efficient and accurate ways to reach, store, analyse and display the data for various purposes. At the capture side of the visual content, the number of cameras has rapidly increased in close correlation to the number of mobile phones with built in cameras. As with the quantity increase, the quality of the sensors have also boosted regarding the resolution, color/brightness and noise level performance. On the other side of the pipeline, there has been some major changes at the display side over the last couple of decades. With the introduction of the Plasma and LCD (Liquid-crystal-display) type of displays, sizes have rapidly decreased in the depth dimension. This decrease also made the mobility of the displays possible especially with lower power consumptions. Therefore, mobile equipments with high resolution displays could easily fit in our pockets. Moreover, another major stepping stone towards a richer visual experience is observed with the introduction of 3D capable displays for different sizes and resolutions. There has been a major increase in the popularity of 3D TVs in the last couple of years. Mobile devices with 3D capability have also been introduced in the market. However, the fast increase in the display side could not be matched as well in the capture and broadcast side. Therefore, the popularity of the 3D devices have been lower than the expectations. Various factors could be counted as a cause for such a slower reaction. These factors and possible solutions for such problems are presented in this thesis. This thesis deals with various aspects of the research in visual content analysis and display technologies. The author's previous experience in real time processing of image/video data, human visual perspectives for objective/subjective quality analysis, stereoscopy and 3D perception, image understanding for object recognition, image feature descriptors using low-, mid- and region- level visual cues have been vastly incorporated in this thesis. Applications of the proposed techniques for real world scenarios have been conducted and results are supported with performance evaluations using objective and subjective quality metrics. Superpixel extraction is proposed as an efficient image representation tool. It has been shown to offer computational efficiency with high segmentation performance. Extraction of the superpixel has been realized using a color and spatial distance metric where the weighting is defined as a trade-off parameter. With extensive comparative tests with the state-of-the-art, the proposed scheme is shown to yield a remarkable alternative in the current superpixel and supervoxel extraction methods with faster execution times and competitive segmentation performances. The extracted superpixels have been further utilized for user-assisted image segmentation purposes. User assistance is required as drawing lines on the representative parts of the image to define foreground and background regions. An energy minimization technique is then used to define most likely regions to be segmented. The acquired foreground segments could further be used for rendering the stereo pair of an image for 3D visualization purposes. The same energy formulization is also extended on the stereo and video footage for completeness. The segmented superpixel patches are also presented as mid-level information sources and applied on the image classification task. Pixel-wise image descriptors are studied and extended using the proposed mid-level region descriptor in order to capture the complementary mid-level information present in the image. The experimental results have shown supporting evidence for the proposal where classification scores has considerably increased.