Tez No İndirme Tez Künye Durumu
783537
Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması / Implementation of a D-vector based speaker diarization system using hybrid voice activity detection
Yazar:YUNUS KORKMAZ
Danışman: DR. ÖĞR. ÜYESİ AYTUĞ BOYACI
Yer Bilgisi: Fırat Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Yazılım Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2023
79 s.
Teknolojik gelişmelerin hızla yaşandığı günümüzde insan yerine makinelerden ve yazılımlardan faydalanan sistemler gittikçe çoğalmaktadır. Bu sistemler, birçok alanda olduğu gibi Dijital Konuşma İşleme (DSP) alanında da geliştirilmeye ihtiyaç duymaktadır. DSP alanlarından biri olan Konuşmacı Diyarizasyonu, konuşma içeren bir ses kaydından, kimin ne zaman konuştuğu bilgisinin otomatik olarak çıkarılmasını gerektirmektedir. Yüksek performans ile çalışan bir konuşmacı diyarizasyon sistemi geliştirme günümüzde hala bu alanda çalışan arastırmacılar için güncel sorunların başında gelmektedir. Daha düşük hata oranına sahip konuşmacı diyarizasyon sistemlerini geliştirebilmek için, bu sistemleri oluşturan ses ön işleme, konuşma aktivite tespiti/detektörü, konuşmacı bölütleme ve konuşmacı kümeleme gibi alt sistemlerin iyileştirilmesi gerekmektedir. Bu tez çalışmasında, konuşmacı diyarizasyon sistemlerinin aşamalarından biri olan Konuşma Aktivite Tespit sistemi için daha önce önerilmemiş hibrit bir model geliştirilerek düşük hata oranına sahip bir konuşmacı diyarizasyon sisteminin tasarlanması hedeflenmiştir. Denetimli ve denetimsiz öğrenmenin mantıksal operatörlerle birleştirildiği hibrit konuşma aktivite tespit sisteminde, denetimsiz öğrenme için özellik eşikleme, denetimli öğrenme için bir derin öğrenme mimarisi olan uzun-kısa süreli bellek (LSTM) kullanılmıştır. Konuşmacı diyarizasyon sisteminin devamında, önceden eğitilmiş bir yapay sinir ağından d-vektör'ler çıkarılmış, bu vektörler üzerinde Spektral Kümeleme uygulandıktan sonra ses kaydında kimin ne zaman konuştuğu tespit edilmiştir. Geliştirilen konuşmacı diyarizasyon sisteminin değerlendirilmesinde, konuşmacı diyarizasyon sistemleri hata metriklerinden konuşma aktivite dedektörlerinden kaynaklanan Miss ve False Alarm (FA) hata metrikleri incelenmiş, literatüre göre nispeten düşük hata oranları elde edildiği görülmüştür.
In today's world with rapid technological developments, systems that use machines and software instead of humans are increasing day after day. These systems need to be developed in the area of Digital Speech Processing (DSP), as in many other fields. Speaker Diarization, one of the DSP applications, requires automatic extraction of "who spoke when" from an audio recording containing speech. Developing a speaker diarization system working with high performance is still one of the challenging issues for researchers studying in this area. In order to develop speaker diarization systems with lower error rates, sub-systems such as Speech Pre-processing, Voice Activity Detection, Speaker Segmentation and Speaker Clustering, which constitute a speaker diarization system, need to be improved. In this thesis, it is aimed to design a speaker diarization system with low error rate by developing a hybrid model that has not been proposed before for the voice activity detection system which is one of the stages of speaker dialization systems. In hybrid voice activity detection system where supervised and unsupervised learning is combined with logical operators, feature thresholding was used for unsupervised learning while long-short term memory (LSTM), a deep learning architecture, was utilized for supervised learning. In the continuation of the speaker dialization system, d-vectors were extracted from a pre-trained artificial neural network, and after Spectral Clustering was applied on these vectors, "who spoke when" was detected in the audio recording. At the evalution phase of the proposed speaker diarization system, Miss and False Alarm (FA) metrics, which can be occurred due to used Voice Activity Detectors in Speaker Diarization Systems, were interpreted in detail. It was observed that using an Hybrid VAD in diarization systems has achieved low Miss and False Alarm (FA) error rate.