Tez No İndirme Tez Künye Durumu
636912
Derin öğrenme kullanarak konuşma bölütlerinin tespiti için optimal özellik parametre kümesi belirleme / Determining optimal feature parameter set for detection of speech segments using deep learning
Yazar:ÖZLEM BATUR DİNLER
Danışman: PROF. DR. NİZAMETTİN AYDIN
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
92 s.
Konuşma, birçok kişisel bilgi içeren bir biyometrik işarettir. İnsan iletişiminin en doğal ve en verimli biçimini temsil etmektedir. Gelişen teknoloji ile birlikte, bu konuşma işaretinden elde edilen bilgiler kullanılarak konuşma tanıma, konuşmacı tanıma, konuşma sentezleme ve konuşma kodlama ve çözme gibi çok çeşitli ses işleme uygulamaları geliştirilmektedir. Günümüzde özellikle güvenlik gerektiren kişisel işlemlerde bu uygulamalar aktif bir rol oynamaktadır. Bu uygulamaların geliştirilmesinde çoğu zaman konuşma bölütlerinin tespit sistemi bir ön işlem olarak kullanıldığından konuşma bölütlerinin doğru tespit edilmesi oldukça önemlidir. Konuşma bölütleme (segmentasyon), bir konuşma işaretini daha küçük akustik birimlere bölme işlemi olarak adlandırılır. Aynı zamanda, konuşma işaretini kelimeler, heceler veya fonemler arasında sınır bulma prosedürü olarak tanımlamak ta mümkündür. Bu tez çalışmasında, sürekli bir konuşma içerisindeki Ünsüz (Consonant), Ünlü (Vowel), ve Sessiz (konuşmanın olmadığı, Silent) (C/V/S) bölgeleri Geçitli Tekrarlayan Birim (Gated Recurrent Unit, GRU) tekrarlayan sinir ağlarına dayalı tahmin edebilen (belirleyebilen) fonem tabanlı bir konuşma tespit sistemi geliştirilmiştir. Bu amaçla, C/V/S konuşma bölütlerinin sınırlarını tanımlamak için 4 farklı pencere uzunluğu, 3 farklı pencereleme yöntemi ve 3 farklı hibrit özellik çıkarım yöntemi birlikte kullanılarak 6 farklı sınıflandırıcı yöntemi ile test edilmiştir. Böylece çeşitli parametrelerin farklı hibrit özellik çıkarım yöntemleri ile birlikte kullanılmasının C/V/S konuşma bölütlerinin tespit sistemi üzerindeki etkisi incelenmiştir. Bu çalışmada, Enerji, Sıfır Geçiş Sayısı (ZCR) ve Mel Frekans Kepstral Katsayı (MFCC) temelli bir hibrit özellik çıkarım yöntemi kullanılmıştır. Bu bağlamda, farklı hibrit özellik çıkarım yöntemleri çeşitli parametreler ile birlikte kullanılarak bir ses işaretinin içerisindeki C/V/S konuşma içeren bölütlerin tespitini en iyi modelleyen parametre setinin belirlenmesi amaçlanmıştır. Yapılan uygulamalar sonucunda GRU modelinin, Kürtçe akustik işaretini karakterize etme başarımını arttırdığı gözlenmiştir. Ayrıca, günümüzde, Kürtçe alanında çok az sayıda akademik çalışma yapıldığından dolayı, bu çalışma bu alanda önemli bir katkı yapacaktır.
Speech is a biometric sign containing a lot of personal information. It represents the most natural and efficient form of human communication. Along with the developing technology, a wide range of sound processing applications such as speech recognition, speaker recognition, speech synthesis, and speech coding and decoding have been developed using the data obtained from this speech signal. Nowadays, these applications play an active role, especially in personal processes that require security. Since the detection system of speech segments is usually used as a pre-treatment in the development of these applications, it is very important to determine speech segments accurately. The procedure of dividing a speech signal into smaller acoustic units is called speech segmentation. It is also possible to define speech signal segmentation as the procedure of finding boundaries between words, syllables, or phonemes. A phoneme based speech detection system that can predict (detect) Consonant, Vowel, and Silent (no speech) (C/V/S) regions in a continuous speech based on Gated Recurrent Unit (GRU) recurrent neural networks was developed in this thesis study. For this purpose, 4 different window lengths, 3 different windowing methods and 3 different hybrid feature extraction methods were tested together with 6 different classifier methods in order to define the boundaries of C/V/S speech segments. Thus, the effect of the use of various parameters with different hybrid feature extraction methods on the recognition system of C/V/S speech segments was examined. A hybrid feature extraction method based on Energy, Zero-Crossing Rate (ZCR), and Mel Frequency Cepstral Coefficient (MFCC) was used in this study. In this proposed method, it was aimed to determine the parameter set that best models the detection of segments containing C/V/S speech within a sound signal by using different hybrid feature extraction methods together with various parameters. As a result of the applications, it was observed that the GRU model increased the performance of characterizing the Kurdish acoustic signal. Furthermore, since there are very few academic studies in the field of Kurdish nowadays, this study will provide a significant contribution to this field.