Tez No İndirme Tez Künye Durumu
662856
Visual attention and visual distortion sensitivity based regional rate allocation in JPEG2000 / JPEG2000'de görsel dikkat ve görsel bozunum duyarlılığı tabanlı bölgesel bit hızı dağıtımı
Yazar:MESUT PAK
Danışman: PROF. DR. ULUĞ BAYAZIT
Yer Bilgisi: İstanbul Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Bilgi bozulması = Information distortion ; Görsel dikkat = Visual attention ; Görsel duyarlılık = Visual sensitivity ; Görüntü kodlama = Image coding ; Kontrast duyarlığı-görsel = Contrast sensitivity ; Sayısal görüntü işleme = Digital image processing ; Transform görüntü kodlaması = Transform image coding
Onaylandı
Doktora
İngilizce
2020
101 s.
Bu çalışma, imge sıkıştırmada algılanabilir kalitenin iyileştirilmesi için bir bölgesel bit hızı atama yöntemi önermektedir. Bu bit hızı atama yöntemi, algılanabilir bozunumları azaltmak için imge bölgelerinin görsel dikkat ve görsel bozunum duyarlılığı seviyelerini birlikte kullanır. İmge bölgelerinin görsel dikkat seviyeleri, bakma sürelerinin üssel modeli ile kestirilmektedir. Çünkü insan gözü bir noktaya odaklandığında, anlık algılama hızı henüz algılanmamış ayrıntı miktarına bağlıdır. İnsan görme sistemi yapısal dokulu bölgelerde oluşan bozunumlara, karmaşık dokulu bölgelerde oluşan bozunumlara göre daha duyarlıdır. Bu nedenle, bozunum duyarlılığını kestirmek için, eğim yönlerinin tekdüze dağılımını ve aynı eğim yönüne sahip piksellerin bağlı kümelerini kullanan; yapısal dokulu bölgeleri karmaşık dokulu bölgelerden ayırt eden bir yöntem de önerilmiştir. Bit hızı atanırken, kodblokların bozunum katkılarında değişiklik yapmak için görsel dikkat seviyesi ve görsel bozunum duyarlılığı seviyesi kestirimleri birlikte kullanılmıştır. JPEG2000 standardının bölgesel bit hızı atamaya uygun bir ortam sağlamasıyla birlikte, algılanabilir kaliteyi yükseltmek için izleyicinin dikkatini çekebilecek bölgelere daha çok bit hızı atama amacıyla çalışmalar yapılmıştır. Geçmiş çalışmalarda, imge bölgelerinin dikkat seviyelerinin belirlenmesi için hesaplamalı yöntemler geliştirilmiştir. Bu yöntemler gözdeki görme hücrelerinin psiko-fiziksel özelliklerini kullanmaktadır. Bununla birlikte, en doğru görsel dikkat haritasını elde etmenin yolu göz izleme deneyleri gerçekleştirmektir. Bu deneylerde, gözün sabitlendiği noktaların çevresinin de bir miktar algılandığı hesaba katılarak, ortalama bakma süresi haritaları elde edilmektedir. Bir noktaya bakılan sürede, o noktada algılanan ayrıntı seviyesinin belirlenmesi gerekmektedir. Bakma süresi arttıkça algılanan ayrıntı miktarı artmaktadır. Fakat algılanan ayrıntı miktarı arttıkça henüz algılanmamış ayrıntı miktarının azalması sebebiyle anlık algılama hızı düşmektedir. Bu bağıntı, üssel bir modele karşılık geldiği için bu çalışmada bakma süresinin üssel modeli önerilmiştir. Bir imgenin görsel dikkat haritasının elde edilmesini sağlayan üssel model, bakma deneklerinin bakma süresi haritalarının ortalamasını girdi olarak alır. Gözün hissedebildiği kaliteyi bit hızı atamayla iyileştirmek için, kodlayıcı görsel olarak çarpıcı bölgelerde oluşan algılanabilir bozunumları azaltmalıdır. Nesnelerin dış hatları veya harf gibi yapısal dokulu bölgelerde oluşan kopma veya bulanıklaşma gibi bozunumlar kolaylıkla fark edilebilir. Bu yüzden, bir bozunum duyarlılığı kestirim yöntemi, ayrıtların eğim büyüklükleri ne olursa olsun, önemli uzunluğa sahip gerçek ayrıtları içeren imge bölgelerini belirlemelidir. Bu bölgeler yapısal dokuya sahip olduğu için bu bölgelerin bozunum duyarlılığının yüksek olduğuna karar verilmektedir. Bunun için aynı yönde yönsel farka sahip olan piksellerin bağlı kümelerinin belirlenmesi önerilmiştir. Bir bağlı kümenin büyüklüğü belirli bir eşik değerinden büyükse bunun bir ayrıt olduğuna karar verilmektedir. Burada, ayrımına varılması gereken bir konu da bu bağlı kümelerin ince ayrıt şekli yerine leke veya damla gibi bir şekilde olup olmadığıdır. Böyle şekilleri yanlışlıkla ayrıt olarak etiketlememek için, yönsel farkların eşiklenmesiyle elde edilen ikili imgelere sırasıyla morfolojik açma, uzaklık dönüşümü ve arka plandan uzak olan piksellerin silinmesi uygulanmaktadır. Böylece kodbloklardan hangilerinin yapısal dokuya sahip olduğu belirlenerek bu kodblokların algılanabilir bozunumları azaltılabilir. Görsel bozunum duyarlılığında belirleyici olan ikinci konu, bir bölgenin karmaşık dokuya sahip olup olmadığına karar vermektir. Karmaşık dokulu bölgelerde kayıplı kodlamadan kaynaklanabilen bozunumlar örtülebilirken düz bölgelerde oluşabilecek bozunumlar kolaylıkla fark edilebilmektedir. Önerilen yöntem bir imge bloğunu karmaşık dokulu olarak sınıflandırmak için onda bulunan eğim yönlerinin entropisini bir eşik değeriyle karşılaştırmaktadır. Deneysel olarak belirlenmiş olan bu eşik değerinden daha büyük bir entropiye sahip olan bölgelerde eğim yönlerinin tekdüze dağıldığı, dolayısıyla bu bölgelerin karmaşık dokuya sahip olduğu kabul edilmektedir. Aksi halde bu bölgelerin düz dokuya sahip olduğuna karar verilmektedir. Böylece, bozunumu örtebilecek olan karmaşık dokulu bölgelere daha az bit hızı atabilir. JPEG2000, imgelerin ayrık dalgacık dönüşümü katsayılarını, dikdörtgen şeklinde bölgelere bölerek, bunları birbirinden bağımsız olarak kodlamaktadır. Kodblok denilen ve imgenin farklı bölgelerinin kodlanmasını sağlayan bu bölgelerin bağımsız olarak kodlanabilmesiyle, farklı imge bölgelerine farklı bozunum seviyeleri atanabilmektedir. Kodblokların bit katarlarında belirli noktalara çalışma noktaları denir. Bu çalışma noktaları, nicemleme adımının farklı değerleriyle elde edilir. Sıkıştırma-sonrası bit hızı-bozunum eniyileme yönteminde, kodblokların çalışma noktaları için ölçülmüş olan bozunum değerleri ağırlıklandırılarak imge bölgelerinin bozunum katkıları atanmaktadır. İlgi bölgelerinin önem seviyelerinin dolaylı olarak atandığı bu ilgi bölgesi kodlama yönteminde kodçözücü tarafa herhangi bir ek bilgi gönderilmemektedir. Bu ilgi bölgesi kodlama yöntemi, tüm kodbloklar için ortak olarak belirlenmiş olan bir bozunum-bit hızı eğiminin, kodblokların bozunum-bit hızı eğrilerine teğet olduğu noktaların yukarı veya aşağı kaydırılmasına dayanır. Sıkıştırılmakta olan imgenin ayrık dalgacık katsayılarının bölünmesiyle oluşan kodblokların, kendileri için önceden belirlenmiş olan ilgi seviyelerine göre, daha yüksek veya daha düşük bozunum seviyesine karşılık gelecek şekilde eğrideki tüm bozunum değerleri o kodbloğun ağırlık değeriyle çarpılır. Böylece kodbloklar, ağırlıklandırma olmadan yapılan sıkıştırma-sonrası bit hızı bozunum eniyilemeye göre daha düşük veya daha yüksek nicemleme adımıyla kodlanmış olur. Kodçözücü tarafa bu nicemleme adımlarının yeni değerleri gönderilmediği için bit katarına herhangi bir bilgi eklenmez. Çünkü kodçözücü tarafında, farklı ayrık dalgacık dönüşümü seviyeleri için önceden belirlenmiş olan nicemleme adımları kullanılarak ters nicemleme yapılır. Bozunum ağırlıklandırmada kullanılan ağırlık haritası, imgedeki piksellerin görsel dikkat seviyeleri ve görsel bozunum duyarlılığı seviyeleri birlikte kullanılarak elde edilmektedir. Bununla birlikte, önerilen bit hızı atama yönteminde bozunum seviyesi her bir piksel yerine, her bir kodbloğa atandığı için bozunum ağırlık haritası, en-büyük-havuzlama yöntemiyle ayrık dalgacık dönüşümü seviyelerine nakledilmektedir. Bozunum ağırlıkları, düşük ayrık dalgacık dönüşümü seviyelerinden yüksek ayrık dalgacık dönüşümü seviyelerine nakledilirken de en-büyük-havuzlama kullanılır. Böylece her bir kodblok için bir bozunum ağırlık değeri elde edilmektedir. Bu ağırlık haritaları, sıkıştırma-sonrası bit hızı-bozunum eniyileme aşamasında kullanılmak üzere JPEG2000 kodlayıcısına girdi olur. Önerilen yöntemin doğrulanması için, önerilen bit hızı atama yöntemiyle ulaşılmış olan görsel kalite, bilinen bit hızı atama yöntemleriyle (sıkıştırma-sonrası bit hızı-bozunum eniyileme, çarpıcılık haritası, gözün sabitlendiği noktaların foveasyonu ve hemen-fark edilebilir-değişim haritası) ulaşılmış olan kalite değerleriyle karşılaştırılmıştır. Ayrıca, önerilen yöntemle elde edilen algılanabilir kaliteye, görsel bozunum duyarlılığı kullanımının katkısını değerlendirmek için, sadece görsel dikkat haritasına dayanan bit hızı atama kullanılarak geri çatılmış imgeler de önerilen bit hızı atama yöntemi kullanılarak geri çatılmış imgelerle karşılaştırılmıştır. Başarım karşılaştırmaları öncelikle, ITU-T tarafından geliştirilmiş olan, imgelerin nesnel kalitelerini değerlendiren ikili karşılaştırma yöntemine dayanmaktadır. Gerçekleştirilmesi bir web sitesiyle kolaylaştırılmış olan ikili karşılaştırmalı değerlendirmede, değerlendirme deneklerine, bit hızı atama yöntemleriyle elde edilmiş olan geri çatılmış imgeler ikili olarak gösterilmiş ve her bir ikilinin gösteriminden sonra deneklerden iki imge arasındaki kalite farkı için bir oy vermesi istenmiştir. Nesnel değerlendirmeye ek olarak, Masked MS-SSIM olarak bilinen, daha öznel bir algısal kalite değerlendirme yöntemi de kullanılmıştır. Bu değerlendirme yöntemi, ilgi bölgeleri için, geri çatılmış imgeyle asıl imge arasında bir yapısal benzerlik değeri hesaplamaktadır. Nesnel ve öznel karşılaştırma sonuçlarının güvenilirlikleri istatistiksel hipotez testleriyle doğrulanmıştır. Özet olarak, önerilen bit hızı atama yönteminin diğer bilinen bit hızı atama yöntemlerine göre gözle görülebilir derecede yüksek kaliteye sahip geri çatılmış imge ürettiği deneysel olarak gösterilmiştir. Buna ek olarak, görsel bozunum duyarlılığının görsel dikkat haritasıyla birlikte kullanılarak bit dağıtımı yapıldığında elde edilen geri-çatılmış imgelerin nesnel kaliteleri sadece görsel dikkat haritası kullanılarak bit-dağıtımı yapıldığında elde edilen geri-çatılmış imgelerin nesnel kalitelerinden daha yüksek ölçülmüştür. Bu çalışmada önerilen yöntem, görsel dikkat haritasını elde etmek için istemciler tarafından toplanan göz sabitlenme verisini kullanan, böylece bu görsel dikkat haritası ve görsel bozunum duyarlılığı haritasıyla bit dağıtımı yapan, görüntüleme sunucusu uygulamalarında kullanılmaya uygundur. Göz sabitlenme verisinin toplanabilmesi için göz izleme cihazı gereksinimi, uygulamanın bir zayıf yönü gibi görünse de, göz hareketleri yazılımsal olarak da elde edilebildiği için cihaz gereksinimi ortadan kalkabilir. Sonraki araştırmalarda, derin öğrenme yoluyla, algılanabilir bozunumun ve kodlamada kullanılan bit miktarının birlikte azaltılması ile önerilen bit dağıtımı yönteminin iyileştirilmesi incelenebilir. Derin öğrenmede kullanılan geri yayılım yöntemi, bit miktarını çıktı olarak veren katmanların ağırlıklarını hesaplar. Bunun için ayrık dalgacık dönüşüm katsayılarının nicemlenmesinde kullanılan adım aralığının ikiye bölünerek ilerlenmesinden kaynaklanan, bit hızı miktarındaki değişimin sürekli olmaması sorununun çözülmesi gerekmektedir. Buna çözüm olarak, harcanan bit hızı değişimlerine ek adımlar eklenebilir. Ayrıca, geri yayılım yönteminin girdi olarak kullandığı hata değeri, algılanabilir bozunumları temsil edebilmesi açısından, yapısal benzerlik yöntemiyle kestirilebilir.
This thesis study proposes a regional bit allocation method for improving the subjective quality for image encoding. This bit allocation method jointly uses the visual attention and visual distortion sensitivity levels of image regions for decreasing the perceptual distortions. Visual attention levels of image regions are estimated by using an exponential model of fixation durations. The human visual system is more sensitive to the distortions in structured regions than the distortions in complex textured regions. Therefore, a method for estimating distortion sensitivity, that distinguishes the structured regions from complex textures by using uniform distribution of gradient directions and connected sets of pixels having same gradient directions, is also proposed. The estimates for the visual attention level and the distortion sensitivity level are jointly used to modify the distortion contribution of each codeblock in bit allocation. The exponential model used to obtain the visual attention map of an image inputs the average of fixation duration maps of all viewer subjects. The fixation duration maps are based on eye-tracking experiments. For optimizing the perceptual quality by bit allocation, the encoder should decrease the perceptual distortions in visually conspicuous regions. The distortions in structured regions, such as object contours or letters, are very noticeable. Therefore, the distortion sensitivity estimation should determine the image regions containing true edges with significant lengths regardless of the edges' gradient magnitudes. The second visual distortion sensitivity issue is determining whether a region is complex textured or not. The complex textured regions can conceal distortions caused by lossy compression whereas in smooth regions such distortions are easily perceptible. The proposed method compares the entropy of the orientations of gradients within an image block against a threshold for classifying it as complex textured. The visual quality achieved by the proposed bit allocation method is compared with those achieved by well-known bit allocation methods (post-compression rate-distortion optimization, saliency map, foveation of fixations, and foveated just-noticeable-difference map) in order to validate the proposed method. Additionally, to assess the contribution of the use of visual distortion sensitivity to the perceived quality achieved by the proposed method, the reconstructed images resulting from bit allocation based on only the visual attention maps are also compared against those resulting from the proposed bit allocation method. The performance comparisons are primarily based on the paired comparison method developed by ITU-T that evaluates the subjective qualities of the images. In the pairwise comparative evaluation facilitated by a web page, the evaluator subjects are presented with the decoded images for different bit allocation methods pair by pair and vote for the differential quality of each pair. In addition to subjective evaluation, a more objective perceptual quality assessment method, known as Masked MS-SSIM, is also used. This assessment method calculates a similarity index between the reconstructed image and the original image for regions of interest. The plausibility of the subjective and objective comparison results are verified by using statistical hypothesis tests. In summary, the proposed bit allocation method has been experimentally shown to yield a substantially higher perceptual visual quality than the other well-known bit allocation methods. The method is conceivable for use in media server applications where the server processes the eye fixation data collected by the clients to obtain the visual attention map.