Tez No İndirme Tez Künye Durumu
723134
Compression of geometry videos by 3D-SPECK wavelet coder / Geometri videolarının 3D-SPECK wavelet kodlayıcı ile kodlanması
Yazar:CANAN GÜLBAK BAHÇE
Danışman: PROF. DR. ULUĞ BAYAZIT
Yer Bilgisi: İstanbul Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Dalgacık analizi = Wavelet analysis ; Dalgacık dönüşümleri = Wavelet transforms ; Görüntü dönüşümleri = Image transformations ; Görüntü işleme = Image processing ; Görüntü işleme algoritmaları = Image processing algorithms ; Görüntü işleme yöntemleri = Image processing methods ; Görüntü kodlama = Image coding ; Görüntü sıkıştırma = Image compression ; Görüntünün yeniden oluşumu = Image reconstruction ; Video sıkıştırma = Video compression
Onaylandı
Doktora
İngilizce
2021
150 s.
Geometri Görüntü çerçevesi, dinamik bir mesh çerçevesinin remesh edilmiş(yeniden örtülenmiş) formlarıdır. Geometry image yaklaşımı 3 boyutlu bir mesh yüzeyini, kare düzlemde oluşturulmuş bir grid üzerinde tamamen regular sample etmeyi sağlar. Görüntü yerine geometry görüntü denilmesinin sebebi, renk değerleri olan RGB color bilgisinin rengi temsil etmemesinden, RGB bilgisinin regular meshteki konum bilgisi olan XYZ koordinatlarına karşılık gelmesinden kaynaklanmaktadır. Geometry görüntü bir kez oluştuktan sonra, regular connectivity bilgisi geometri görüntü çerçevesine eklendiğinde, tamamen regular bir mesh elde edilir. Regular mesh kodlanırken, kodlayıcının connectivity bilgisini de kodlamasına gerek kalmaz, ekstra maliyet oluşmaz. Oluşan geometry görüntü bir imaj kodlayıcı ile kodlanabilir formattadır. Geometri Görüntü çerçeveleri ise, dinamik mesh dizisindeki mesh çerçevelerinin remesh edilmiş(yeniden örtülenmiş) formlarıdır. Geometry Video, geometri görüntü çerçevelerinin ardışıl sekansıdır. Geometry video yöntemi, 3 boyutlu hareketli bir objeyi 2 boyuta parametrize etmeyi sağlar. Böylelikle, 3 boyutlu hareketli mesh dizisi, 2 boyutlu geometry image dizisi (geometry video) olarak gösterilebilir. Oluşan geometri video datası standart video kodlayıcısı uygulanarak kodlanabilir formattadır. Bu tez çalışması, Geometri Videolarını verimli bir şekilde kodlamak için, mesh çerçeveleri arasındaki, çoklu ölçeklerde, zamansal ve uzamsal korelasyonları kullanan, tıbbi görüntü verilerinin ve hiperspektral görüntü verilerinin kodlanmasında başarıyla uygulanan 3D-SPECK algoritmasını önermektedir. Tez çalışmasında ayrıca, yüksek frekanslı dalgacık katsayılarının kaybı nedeniyle dalgalanmalar şeklinde ortaya çıkan görsel bozulmaları telafi etmek için, 3D-SPECK kodlayıcısının oluşturduğu geriçatılmış yüzeyler üzerinde, postprocessing işlemleri uygulanmaktadır. Yeniden örüntüleme(remesh) yönteminde, geometri görüntülerini elde etmek için, mesh çerçevesini oluşturan üçgenlerin arasındaki düzensiz bağlantıların düzenliye çevrilmesi işlemi ile, tekrar üçgenleme ve dörtlü bölümlemeli üçgenleme işlemlerinin uygulanmasının sonucu olarak, nokta sayısının yoğun olduğu lokal bölgelerde anizotropik geometrik gerginlikler ve esnemeler oluşmaktadır. Önerilen postprocessing yöntemleri, geometri görüntüsünün kenar bölgelerinde oluşan bu nicemleme ve tırtıklanma hatalarını giderici bir rol üstlenmektedir. Dinamik mesh dizisi üzerindeki deneysel sonuçlar, yeni önerilen yaklaşımın subjektif ve objektif kodlama performanslarının, düşük ve orta kodlama hızlarında tanınmış ve kabul görmüş dinamik mesh dizi kodlama yaklaşımlarına kıyasla üstünlüğünü göstermektedir. 2D SPECK, İslam ve Pearlman tarafından 1999 yılında keşfedilmiştir. Farklı alt bantlarda gruplanan dalgacık katsayılarının kümelerine bölünmesi ve bu kümelerin parçalanarak, ayrıştırılarak kodlanması esasına dayanır. SPECK kodlayıcı diğer şemalardan farklıdır, çünkü farklı alt bantlar arasındaki benzerliklerin takibini sağlayan ağaç yapılarını kullanmaz. Blok şeklindeki setlerden yararlanır. Ana fikir, dalgacık dönüşümü yapılmış görüntülerin, farklı alt bantlarındaki frekanslarında enerjinin kümelenmesini kullanmaktır. SPECK kodlayıcıdaki alt bant kodlamanın hedefi, analiz ve sentez filtrelerini doğru seçerek, mükemmel yeniden yapılanma diye adlandırılan sinyalin perfect reconstruction dönüşümünü sağlamaktır. Bir sentez filtresi, bir analiz filtresinin modüle edilmiş versiyonu olmalıdır. Low pass analiz filtresi, sinyalin düşük frekanslı bileşenlerini ayrıştırır ve sinyalin kaba görüntüsünü elde eder. High pass analiz filtresi ise, sinyalin yüksek frekanslı bileşenlerini ayrıştırır ve sinyalin detay bölgelerini, hızlı degişim gösteren, sharp bölgelerini elde eder. Elde edilen katsayılar downsampling /decimation yapılarak yarıya indirilir. 3D SPECK kodlayıcı, 2 boyut yerine 3 boyutlu data kodlar. 2D SPECK'teki threshold belirleme, bit plane kodlama ve significance test gibi kurallar 3D SPECK kodlayıcıda da vardır. 2D-SPECK, bir görüntü çerçevesi kodlarken, 3D SPECK görüntü dizisi yani video kodlar. Hareketli bir geometry görüntü dizisindeki(geometry video) frameler eşit sayıda gruplara ayrılır, bu gruplara, group of frame(GOF) denilir. 3D SPECK kodlayıcıda 2D DWT yerine 3D DWT kullanılır. 2D DWT spatial domainde ve 1D DWT temporal domainde uygulanarak, dalgacık dönüşümünün spatio-temporal domainde uygulanması sağlanır. Geometri videoda birbirini takip eden ardışık framelerde vertexler arası inter-korelasyon olup, bu durum temporal düşük frekanslı alt bantlarda enerji sıkıştırmasına neden olurken, diger taraftan da vertexlerin hareket yörüngeleri güçlü bir çerçeve içi, intra-korelasyona sebep olmaktadır ve spatial domainde enerji birikmesine sebep olur. Sonuç olarak da, spatio-temporal domainde düşük frekans alt bantlarında enerji birikmesi olur. 3D DWT, spatial ve temporal artıklılığı takip ederek, verileri daha düşük boyutlu alt uzaylarda sıkıştırır. Önerilen frameworkün sağladığı katkılardan biri sıkıştırma performansıdır. Sıkıştırma performansı açısından, mevcut geometry video kodlayıcılardan açık ara daha iyi sonuç vermektedir. Ayrıca, mesh dizisini herhangi bir dönüşüme tabii tutmadan doğrudan kodlayan geleneksel mesh dizisi kodlayıcılardan da düşük ve orta bitratelerde daha iyi sonuç vermektedir. Başka bir katkısı ise, görsel bozunumları gidermesidir. 3D-SPECK kod çözme sonrası yüzeyler yeniden yapılandırılsa bile, reconstruct yüzeye yakından bakılırsa görünümlerinde, geometri görüntü dönüşümü nedeniyle ve 3D dalgacık dönüşümü uygulanması nedeniyle oluşan görsel bozunumlar görülebilir. Önerilen framework'ün önemli katkılarından biri de, dalgalanmalar, çatlaklar, tırtıklanmalar gibi yüzeyde oluşan görsel bozunumları gidererek postprocessing yöntemi uyguluyor olmasıdır. 3 farklı görsel bozunum vardır. İlk olarak, spatial 2D-DWT için kullanılan symmetric boundary extension, sınırlarda yüksek frekanslı enerji olu¸sturur. DWT analizi ve sentezi sırasında, doğal RGB görüntüleri için kullanılan mirroring boundary extension, sınıra yakın pikseller correlated iç içe geçmiş durumda ise, smooth bir boundary extension sınır uzantısı sağlar fakat geometri görüntü için bu durum böyle değildir. Geometri görüntüleri için, pikseller sınıra bir satır veya bir sütunun üzerinden yaklaştıkça, koordinat değerleri büyük atlamalarla çok hızlı değişir. Sınırda piksel koordinat değerlerinin aynalanması, yapay olarak büyük magnitude'a sahip yüksek frekans katsayılarını beraberinde getirir. Bu durum, orijnal meshte tamamen eşleşen sınır segmentlerinin, ayrılmasına sebep olur, ve buna bağlı olarak yüzeyde bir takım açıklıklar yarıklar görülür. Bu sorun «stitching» adı verilen bir yöntem uygulanarak tüm sınırı dikmekle çözüldü. İkinci olarak, reconstruct yüzeyde, orta ve yüksek frekans alt bant katsayılarının kaybı nedeniyle dalgalanmalar olur. Bu sorun ise, smoothing yöntemi uygulanarak giderilmiştir. Tezimde kullanılan Taubin smoothing yöntemi, mid-point averaging işlemini tatbik ederken aynı zamanda shrinkingi engeller. Son olarak, meshin geometri imaja map etmesinden kaynaklı oluşan gerilmelerin yoğun olduğu lokal bölgelerdeki vertexlerin komşuluklarının düzenli veya dörtlü bölme bağlantısı denilen quad splitting connectivity yöntemiyle üçgenlenmesi sonucu, yüzeyde çentiklenme görülmüştür. Bu sorun adaptive triangulation yöntemiyle giderilmiştir.
A geometry image represents a manifold surface in 3D space as an 2D array of 3D points. This involves 3 steps : First, cutting the manifold which essential defines the boundary of the square, second, defining the parametrization which defines the interior of the square and lastly, rasterizing and scan converting the geometry and applying compression to it. By representing manifold 3D objects using a global 2D parametrization (mapping) it is possible to use existing video techniques to represent 3D animations. 2D-SPECK coder, discovered by Islam and Pearlman, codes sets of DWT coefficients grouped within subbands. SPECK coder is different from the other schemes in that it does not use trees which span and also exploits the similarity accross different subbands. It makes use of sets in the form of blocks. The main idea is to exploit the clustering of energy in frequency and space in the hierarchical structures of wavelet transformed images. 3D-SPECK coder, is an extension of the 2D-SPECK algorithm for compressing 3D data with high coding efficiency. A geometry video is formed as a sequence of geometry images where each frame is a remeshed form of a frame of an animated mesh sequence. For efficiently coding geometry videos by exploiting temporal as well spatial correlation at multiple scales, this thesis proposes the 3D-SPECK algorithm which has been successfully applied to the coding of volumetric medical image data and hyperspectral image data in the past. The thesis also puts forward several postprocessing operations on the reconstructed surfaces that compensate for the visual artifacts appearing in the form of undulations due to the loss of high frequency wavelet coefficients, cracks near geometry image boundaries due to vertex coordinate quantization errors and serrations due to regular or quad splitting triangulation of local regions of large anisotropic geometric stretch. Experimental results on several animated mesh sequences demonstrate the superiority of the subjective and objective coding performances of the newly proposed approach to those of the commonly recognized animated mesh sequence coding approaches at low and medium coding rates.