Tez No İndirme Tez Künye Durumu
255869
Bayesian source modelling for single-channel audio separation / Ses sinyallerinin tek kanaldan ayrıştırılmasında Bayesçi modeller
Yazar:ONUR DİKMEN
Danışman: PROF. DR. LALE AKARUN
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2009
111 s.
Kaynak ayrıştırma veya gürültü temizleme gibi ses işleme problemlerinde ses sinyallerinin fiziksel özelliklerini yansıtabilecek modellere ihtiyaç vardır. Bayesçi yaklaşımda, bu, gerçekçi önsel dağılımlar tanımlamayarak gerçekleştirilebilir. Biz, bu tezde, ses sinyallerinin zaman-frekans bölgesi gösterimlerindeki yerel ilintileri içerecek iki model geliştirdik: Gamma Markov zincirleri (GMZ) ve Gamma Markov rasgele alanları (GMRA). Önerdiğimiz ses modellerinde, zaman-frekans katsayılarının değişintileri bu yapılar kullanılarak birbirlerine bağlı olarak modellenirken, katsayılar bu değişintilere koşullu olarak, bağımsız Gauss dağılımlarından gelmektedir. GMZ ve GMRA modellerinin kullanım alanı, ses kaynaklarının değişintilerinin modellenmesiyle sınırlı değildir. Değişkenler arasında bağımlılık olan herhangi bir problemde, mesela Poisson serilerinde, de kullanılabilirler. Bunu göstermek için, negatif olmayan matris ayrıştırma (NOMA) kullanarak tek kanaldan kaynak ayrıştırma probleminde, frekans şablonları ve uyarma vektörlerindeki bağımlılığı modellemek için GMZ'leri kullandık.GMZ'ler ile değişinti değişkenlerinin sadece zaman ya da frekans ekseni boyunca olan bağımlılıklarını modelleyebiliriz. GMRA'lar ise değişkenlerin tüm komşularına bağımlı olduğu düzgelenmemiş bir dağılım tanımladıkları için iki yöndeki bağımlılıkları da içerebilir. İki model de değişinti değişkenleri arasında pozitif ilinti olacak şekilde tanımlanmıştır. Böylece, sinyalin enerjisi hem zaman hem de frekans ekseni boyunca yavaşça değişmektedir. Değişkenler arasındaki ilintinin büyüklüğü ise modelin hiper parametreleri ile belirlenmektedir.Bu tezde, GMZ ve GMRA temelli ses modellerimizi gürültü temizleme ve tek kanaldan kaynak ayrıştırma problemlerinde kullandık. Ayrıca bir öğrenme kümesine ihtiyaç duymadan, sadece gözlemlenen sinyalin varlığında, kestirim ve eniyileme içiçe gerçekleştirilerek tonal ve vurmalı ses kaynakları birbirlerinden ayrılmaktadır. Bu iki modelle, hem gürültü temizleme, hem de kaynak ayrıştırma problemlerinde başarılı sonuçlar elde ettik. GMRA'lara dayalı olan modelle geri çatılan sinyaller hem biraz daha başarılı, hem de daha doğaldır.Önerdiğimiz üçüncü bir modelle de Gamma ve GMZ önsel dağılımları kullanarak, NOMA ile tek kanaldan kaynak ayrıştırma yaptık. Burada da hiper parametreler kestirim sırasında eniyilenmekte ve kullanıcının hemen hemen hiçbir kritik karar vermesine gerek kalmamaktadır. Bu modelle elde edilen sonuçlar önceki iki modelle elde edilenlerden daha başarılıdır. Ayrıca, bu modelde kestirim ve eniyileme daha hızlı bir şekilde yapılabilmektedir. Buna rağmen, bu model sadece kaynak ayrıştırma problemi için önerildiğinden, önceki iki model gibi genel uygulanabilirliği yoktur.
In many audio processing tasks, such as source separation, denoising or compression, it is crucial to construct realistic and flexible modelsto capture the physical properties of audio signals. This can be accomplished in the Bayesian framework through the use of appropriate prior distributions. In this thesis, we describe two prior models, Gamma Markov chains (GMCs) and Gamma Markov random fields (GMRFs) to model the sparsity and the local dependency of the energies of time-frequency expansion coefficients. We build two audio models where the variances of source coefficients are modelled with GMCs and GMRFs, and the source coefficients are Gaussian conditioned on the variances. The application area of these models are not limited to variance modelling of audio sources. They can be used in other problems where there is dependency between variables, such as the Poisson observation models. In single-channel source separation using non-negative matrix factorisation (NMF), we make use of GMCs to model the dependencies in frequency templates and excitation vectors.A GMC model defines a prior distribution for the variance variables such that they are correlated along the time or frequency axis, while a GMRF model describes a non-normalised joint distribution in which each variance variable is dependent on all the adjoining variance variables. In our audio models, the actual source coefficients are independent conditional on the variances and distributed as zero-mean Gaussians. Our construction ensures a positive coupling between the variance variables, so that signal energy changes smoothly over both axes to capture the temporal and/or spectral continuity. The coupling strength is controlled by a set of hyperparameters.We tested our audio models that are based on GMC and GMRF models in denoising and single-channel source separation problems where all the hyperparameters are jointly estimated given only audio data. Both models provided promising results, but the reconstructed signals by the GMRF model were slightly better and more natural sounding.Our third model makes use of Gamma and GMC prior distributions in an NMF setting for single-channel source separation. The hyperparameters are again optimised during the inference phase and the model needs almost no other design decisions. This model performs substantially better than the previous two models. In addition, it is less demanding in terms of computational power. However, it is designed only for source separation, i.e., it is not a general audio model as the previous two models.