Konuşma seslerinden duygu tanıma, insan-bilgisayar etkileşiminin ve işbirliğinin en üst düzeyde olması için önemli bir disiplindir. Farklı frekans ve karakteristikler içeren konuşma sinyalinin analizi zordur, bu nedenle konuşma verilerinden duyguları tanımak makine öğrenmesi için karmaşık bir problemdir. Ses özniteliklerinin çıkarımında ve sınıflandırmada farklı yöntemler geliştirilse de başarı oranları, dillere, duygulara ve veri tabanlarına göre değişmektedir.
Bu tez çalışmasında, farklı boyutlardaki veri setlerinde uygulanabilecek, düşük hesaplama karmaşıklığına sahip, maliyeti düşük ve sınıflandırma performansını arttıran yeni bir model sunulmuştur. Öznitelik çıkarım tekniğine katkıda bulunacak yerel özniteliklerden genel optimum özniteliklere ulaşan yeni bir strateji elde edilmiştir. Önerilen model üç ana aşamadan oluşmaktadır. Bu aşamalar, öznitelik çıkarma, öznitelik seçme ve sınıflandırmadır. Ham ses verilerine dokuz seviyeli 1B-ADD uygulanarak alçak-geçirgen filtre katsayıları elde edilmiştir. Daha sonra her bir alçak geçirgen filtreye 1B-YİÖ ve 1B-YÜÖ uygulanarak öznitelik çıkarma ve ardından öznitelik birleştirme gerçekleştirilmiştir. 1B-YİÖ ve 1B-YÜÖ kullanılarak yerel ve dokusal öznitelikler elde edilmiştir. Sıralı bir yapı oluşturan dokuz seviyeli 1B-ADD yöntemi ile konuşma sinyallerindeki gürültüler giderilmiş, ses sinyal boyutu indirgenmiş ve frekans bölgesinde yeni öznitelikler çıkarılmıştır. Öznitelik çıkarım aşamasında 1B-YİÖ, 1B-YÜÖ ve 1B-ADD birlikte kullanılarak çok seviyeli yeni bir elle öznitelik çıkarım süreci sunulmuştur. Uzaklık tabanlı KBA ile sınıflandırıcıya giriş olacak en etkili öznitelikler seçilmiş ve diğer öznitelikler elenmiştir. Sınıflandırma aşamasında, güçlü bir sınıflandırıcı olan DVM kullanılmıştır.
Önerilen model konuşmacıdan ve metinden bağımsız olarak RAVDESS, EMODB, SAVEE ve EMOVO gibi farklı karşılaştırma veri tabanlarında test edilmiştir. Literatüre, konuşma seslerinden duygu tanıma alanında, sınıflandırma ortalama doğruluk değerini arttıran düşük hesaplama karmaşıklığına sahip yeni bir model kazandırılmıştır.
|
Emotion recognition from speech sounds is an essential discipline which serves to keep the interaction and cooperation between human and computer. It is difficult to analyze the speech signal containing various frequencies and characteristics; thus, speech data-based emotion recognition is a complex problem for machine learning. Even though different methods have been developed for sound/voice/speech feature extraction and classification, success rates vary depending on the languages, emotions, and databases.
In this thesis, a new process is proposed that can be applied to databases with different sizes, has low calculation complexity, is low cost, and increases the classification performance. Specifically, a new strategy that makes a contribution to feature extraction technique via reaching the global features from local features is developed. The proposed model consists of three main stages. These stages are feature extraction, feature selection, and classification. Low pass filter coefficients are obtained by applying nine-level One Dimensional Discrete Wavelet Transform (1D-DWT) to raw audio data. Afterward, feature extraction and feature combining are achieved by applying One Dimensional Local Binary Pattern (1D-LBP) and One Dimensional Local Ternary Pattern (1D-LTP) to each of the low pass filters. Local and textural features are obtained by using 1D-LBP and 1D-LTP. Noises in the speech signals are eliminated, the speech signal size is reduced, and new features are extracted through a sequential structure creating nine-level 1D-DWT. In the feature extraction phase, 1D-LBP, 1D-LTP, and 1D-DWT are used together and a new multi-level manual feature extraction process is presented. The most effective features that will be used as inputs to the classifier are selected with distance-based Neighborhood Component Analysis (NCA) while other features are eliminated. Support Vector Machines (SVM), a powerful classifier, is used during the classification phase.
The proposed model is tested, without depending on the textual and speaker, in different databases of RAVDESS, EMODB, SAVEE, and EMOVO. Within this framework, in the field of emotion recognition from speech sounds, a new model that increased the classification rating is provided to the literature. |