Tez No |
İndirme |
Tez Künye |
Durumu |
136750
|
|
Multimodal speaker identification with audio-video processing / Çoklu-ortam ses-görüntü işleme ile biometrik konuşmacı tanıma
Yazar:ALPER KANAK
Danışman: PROF. DR. MURAT TEKALP ; YRD. DOÇ. DR. ENGİN ERZİN ; YRD. DOÇ. DR. YÜCEL YEMEZ
Yer Bilgisi: Koç Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Biyoloji = Biology ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
|
Onaylandı
Yüksek Lisans
İngilizce
2003
70 s.
|
|
ÖZETÇE Bu tezde, metne bağlı çoklu ortamlı bir konuşmacı tamma sistemi tanıtılmıştır. Amaç, geleneksel tek ve çift ortamlı tanıma sistemlerinin başaranını arttırmaktır. Önerilen sis tem, bir video akımında bulunan üç temel ortamı birleştirir: ses, yüz dokusu ve du dak hareketi. Video akımının her çerçevesi arasındaki dudak hareketi özdudak katsayıları ile hesaplandıktan sonra bu katsayılar bir öznitelik vektörüne dönüştürülür. Elde edilen öznitelik vektörleri, tüm akım boyunca doğrusal aradeğerlenerek ses işaretinin oram ile eşleştirildikten sonra mel-frekans kepstral katsayılarla (MFCC) birleştirilir. Sonuçta elde edilen birleşik öznitelik vektörleri, Saklı Markov modeli tabanlı bir tanıma sisteminde eğitim ve sınama amacıyla kullanılır. Yüz dokusu ise bir özyüz etki yöresinde ayrıca işlenerek karar füzyonu aşamasında sisteme katılır. Deneysel sonuçlar sistem başarımmin gösterilmesi için teze eklenmiştir.
|
|
ABSTRACT In this thesis we present a multimodal text-dependent speaker identification system. The objective is to improve the recognition performance over conventional unimodal or bimodal schemes. The proposed system decomposes the information existing in a video stream into three modalities: voice, face texture and lip motion. Lip motion between successive frames is first computed in terms of eigenlip coefficients and then encoded as a feature vector. The feature vectors obtained along the whole stream are linearly interpolated to match the rate of the speech signal and then fused with mel frequency cepstral coefficients (MFCC) of the corresponding speech signal. The resulting joint feature vectors are used to train and test a Hidden Markov Model (HMM) based identification system. Face texture images are treated separately in eigenface domain and integrated to the system through decision-fusion. Experimental results are also included for demonstration of the system performance. IV |