Duygu tanıma son yıllarda önemi gittikçe artan konulardan bir tanesidir. Duygu tanıma yüz ifadelerinden ve biyomedikal sinyallerden yapılabildiği gibi ses verilerinden de yapılabilmektedir. Özellikle yüz yüze iletişim kurulmadığı durumlarda kişinin duygu durumunun tespitinde ses verisi kullanılmaktadır. Elle özellik çıkarımı ve özellik seçimi klasik yöntemlerle sesten duygu tanımada en önemli aşamalardır. Sesten duygu tanıma alanında en çok çıkarılan özellikler spektral, prozodik ve format özellikleridir. Özellik seçimi için ise oldukça çok yöntem önerilmiştir. Buna rağmen sesten duygu tanıma problemi tam olarak çözülememiş, karmaşık bir problemdir ve tanıma oranını arttırmak için daha iyi tekniklere ihtiyaç duyulmaktadır. Bu nedenle bu tez çalışmasında sesten duygu tanıma işlemi gerçekleştirilmiştir.
Bu çalışmada en çok bilinen ve açık bir veri tabanı olan Berlin duygu veri tabanı (EmoDB) kullanılmıştır. EmoDB yedi farklı duyguya ait ses veri tabanıdır. Bu tez çalışmasında uygulamalar cinsiyet ve kişi bağımsız olarak gerçekleştirilmiştir. Tez çalışmasında üç farklı uygulama gerçekleştirilmiştir. Tüm uygulamalar yedi duygu ve üçerli duygu grupları üzerinde gerçekleştirilmiştir.
Uygulamalarda kullanılacak veri kümeleri ve önişlemlerin açıklanması amacıyla iki farklı ön çalışma gerçekleştirilmiştir. Bu ön çalışmaların ilkinde Uygulama 1 ve Uygulama 2'de kullanılan veri kümeleri oluşturulmuştur. Veri kümeleri farklı sayıda ve farklı özelliklerden oluşturulmuştur. Çıkarılan özellikler Spektral özelliklerden Mel Frekansı Kepstrum Katsayıları (MFCC), Doğrusal Öngörüm Katsayıları (LPC), Ayrık Dalgacık Dönüşümü (DWT) ve Öz Bağımlı Model Parametreleri (AR) özellikleridir. Ayrıca prozodik özelliklerden Temel Frekansa ait özelliklerde çıkarılmıştır. Özellik seçiminde kullanılan spektral, prozodik ve format özellikleri incelenmiş sınıflandırma için etkin özellikler üzerinde çalışma yoğunlaştırılmıştır. Oluşturulan veri kümeleri özellik seçimi yapılmadan sınıflandırılmıştır. Sınıflandırma amacı ile tüm uygulamalarda Yapay Sinir Ağları (YSA), Destek Vektör Makineleri (DVM), k En yakın Komşuluk Algoritması (kNN) ve Sade Bayes (SB) algoritmaları kullanılmıştır. Ön çalışmada ikinci olarak Uygulama 3'de kullanılan veri kümeleri ve ön işlemler açıklanmıştır.
Uygulama 1'de özellik seçimi için önerilen Etmen Tabanlı Otomatik Özellik Seçimi (Agent Based Automatic Feature Selection - ABAfs ) yaklaşımı sunulmuştur. Ön çalışmalarda belirlenen etkin veri kümeleri üzerinde uygulanan çalışmada seçilen özellikler sınıflandırılmıştır.
Tez çalışmasında gerçekleştirilen ikinci uygulama Bulanık C-Ortalama Algoritması (BCO) ile duygu tanıma işlemidir. Bu uygulamada BCO yöntemi ile boyut azaltımı işlemi gerçekleştirilmiştir. Oluşturulan özellikler ön çalışmada belirlenen veri kümeleri üzerinde gerçekleştirilmiş ve sınıflandırıcıya verilmiştir.
Bu çalışmadaki üçüncü ve son uygulama Derin Öğrenme Algoritmaları ile duygu tanımadır. İlk iki uygulamada duygu tanıma işlemi yapılmadan önce özellik çıkarımı ve özellik seçimi işlemleri gerçekleştirilmiştir. Bu uygulamada özellik seçimi yapılmadan ham verilerden spektrogram görüntüleri elde edilerek Derin Öğrenme Algoritmalarından AlexNET ile sınıflandırılmıştır. Ayrıca elle çıkarılan özelliklerin derin öğrenme ile sınıflandırma başarısının karşılaştırılabilmesi için etkin özellikler DSA ile sınıflandırılmıştır.
Tez kapsamında gerçekleştirilen tüm çalışmalar değerlendirildiğinde, yedi duygu grubunda en yüksek sınıflandırma doğruluğu (SD) 16 adet MFCC katsayılarından oluşturulan veri kümesi ile %92.98 ile BCO ile özellik seçimi yöntemiyle gerçekleştirilmiş ve literatüre kazandırılmıştır. Ayrıca literatür incelendiğinde bu zamana kadar duygu tanıma alanına hiç uygulanmamış özellik seçim yöntemlerinin bu çalışmada gerçekleştirilmiş olması da tez çalışmasının özgünlüğünü ortaya koymaktadır. Kısacası bu tez çalışması, elde edilen sonuçlar, Duygu Tanıma probleminde hangi özelliklerin daha etkin olduğunun tespiti ve sınıflandırılması konularında gerçekleştirilen çalışmalar açısından literatürde önemli bir yere sahip olacaktır.
|
Speech emotion recognition from data gains significance in recent years. Emotion recognition has been made from facial expressions and biomedical signals as well as from speech data. Emotion recognition from speech has been used when there is no face-to-face communication. Manually feature extraction and feature selection were the most important steps in traditional speech emotion recognition. Spectral, prosodic and format features are the most frequently extracted features in this area. There were many methods which have been proposed for feature selection. Despite this, the problem of emotion recognition from the speech has not been solved completely and varios techniques are needed to increase the recognition rate. Therefore, in this thesis, emotion recognition from sound was carried out.
Berlin Emotion Database (EmoDB), which is the most known and open access database, was used in the study. EmoDB is speech database consist of seven emotion. In this thesis the applications were performed gender and person independent. In this thesis, three different applications were carried out.
Two different preliminary studies were carried out in order to explain the data sets and pre-processes to be used in the applications. In the preliminary studies, firstly, the data sets used in Application 1 and Application 2 were created. Data sets are made up of from different numbers and different features. The features of Mel Frequency Kepstrum Coefficients (MFCC), Linear Prediction Coefficients (LPC), Discrete Wavelet Transform (DWT) and Autoregressive Parameters (AR) were extracted with different dimensions. In addition, the format features which were format frequency and pitch have been extracted. ANN, DVM, kNN and NB algorithms are used for classification purposes. In the preliminary studies, secondly the data sets used in Application 3 and pre-processing was explained.
First, the Agent Based Automatic Feature Selection (ABAfs) approach was proposed for feature selection. The study applied on the effective data sets, determined the features selected in the in the preliminary studies, were classified. The data sets created in the preliminary study were given to the classifier.
The third and last application of the study was emotion recognition with deep learning algorithms. Before performing emotion recognition in the first two applications, feature extraction and feature selection has been performed. In this application, spectrogram images are obtained from raw data without any feature selection. Afterwards it was classified with AlexNET algorithm. In addition, MFCC attributes are classified with DNN in order to compare the classification success of manually extracted features.
When all the studies conducted within the scope of the thesis were evaluated, the highest classification accuracy (SD) in seven emotion groups was achieved with a data set consisting of 16 MFCC coefficients with a BCO feature selection method with a rate of 92.98%, and it was added to the literature. In addition, when the literature is examined, the fact that feature selection methods, which have not been applied to emotion recognition until now, have been carried out in this study reveals the originality of the thesis study. So this thesis study will have an important place in the literature in terms of the results obtained, the studies conducted on the determination and classification of which features are more effective in the Emotion Recognition problem. |