Tez No |
İndirme |
Tez Künye |
Durumu |
531218
|
|
Learned frame prediction for video prediction / Video sıkıştırma için öğrenilmiş çerçeve tahmini
Yazar:SERKAN SÜLÜN
Danışman: PROF. DR. AHMET MURAT TEKALP
Yer Bilgisi: Koç Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Konu:Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
|
Onaylandı
Yüksek Lisans
İngilizce
2018
73 s.
|
|
Tüm video sıkıştırma algoritmaları içinde en önemli metotlardan biri haraket dengelemedir. Video çerçevesi tahmini, hareket dengeleme ile benzer bir problemdir. Son yıllarda çerçeve tahmini, derin sinir ağları (DSA) tarafından yapılmaktadır. Bu tezde öğrenilmiş çerçeve tahmini yapmak için bir DSA yaratıyoruz ve ek olarak bu DSA'yı kapsayan bir video kodlayıcı üretiyoruz. DSA'mızı iki farklı amaç doğrultusunda iki farklı yöntem ile eğitiyoruz. İlk olarak çerçeve tahmini ve video sıkıştırmada en yüksek doruk sinyal gürültü oranı (PSNR) değerlerini elde etmek amacıyla DSA'mızı ortalama karesel hatayı (OKH) baz alarak eğitiyoruz. Ardından görsel olarak daha gerçekçi çerçeve tahminleri yapmak için çekişmeli eğitim yöntemini kullanıyoruz. Çerçeve tahmininde, yöntemimizi, referans yöntemler olan çerçeve farkı ve 16x16 blok hareket dengeleme ile karşılaştırıyoruz. Video sıkıştırmada, karşılaştırmaya x264 video kodlayıcıyı da dahil ediyoruz. Çerçeve tahmininde, çekişmeli eğitimin, OKH ile eğilmiş DSA'ya göre daha keskin ve gerçekçi çerçeveler ürettiğini; ancak video sıkıştırmada sürekli olarak daha başarısız olduğunu gösteriyoruz. Bu sonuç, çekişmeli eğitimin insan gözüne daha hoş görünen video çerçeveleri üretmesine rağmen video sıkıştırmada kullanılmaması gerektiğini kanıtlıyor. Ek olarak, OKH ile eğitilen DSA, çerçeve tahmininde yüksek doğruluklu sonuçlar üretiyor; nicel sonuçlarda, iki problem için de, tüm videolarda diğer yöntemlerle kıyaslanabilir sonuçlar veriyor ve ortalama başarıda diğer yöntemleri geçiyor. Daha detaylı olarak, yüksek hareketli videolarda, öğrenilmiş çerçeve tahmini, bithızı-bozulma performansında diğer yöntemleri geçiyor; ve düşük hareketli videolarda x264 ile yarışabilir bir sonuç üretiyor.
|
|
Motion compensation is one of the most essential methods for any video compression algorithm. Video frame prediction is a task analogous to motion compensation.
In recent years, the task of frame prediction is undertaken by deep neural networks
(DNNs). In this thesis we create a DNN to perform learned frame prediction and
additionally implement a codec that contains our DNN. We train our network using
two methods for two dierent goals. Firstly we train our network based on mean
square error (MSE) only, aiming to obtain highest PSNR values at frame prediction
and video compression. Secondly we use adversarial training to produce visually more
realistic frame predictions. For frame prediction, we compare our method with the
baseline methods of frame dierence and 16x16 block motion compensation. For video
compression we further include x264 video codec in the comparison. We show that
in frame prediction, adversarial training produces frames that look sharper and more
realistic, compared MSE based training, but in video compression it consistently performs
worse. This proves that even though adversarial training is useful for generating
video frames that are more pleasing to the human eye, they should not be employed
for video compression. Moreover, our network trained with MSE produces accurate
frame predictions, and in quantitative results, for both tasks, it produces comparable
results in all videos and outperforms other methods on average. More specically,
learned frame prediction outperforms other methods in terms of rate-distortion performance
in case of high motion video, while the rate-distortion performance of our
method is competitive with x264 in low motion video. |