Tez No İndirme Tez Künye Durumu
647909
Music emotion recognition using convolutional long short term memory deep neural networks / Evrişimli uzun kısa süreli bellek derin sinir ağlarını kullanarak müzikten duygu tanıma
Yazar:SERHAT HIZLISOY
Danışman: DOÇ. DR. ZEKERİYA TÜFEKCİ
Yer Bilgisi: Çukurova Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2020
115 s.
Bu tezde, Türk müziği duygu tanıma için evrişimli uzun-kısa süreli bellek derin sinir ağı (CLDNN) mimarisine dayalı bir yaklaşım öneriyoruz. Bu amaçla, her biri 30 saniyelik 124 Türk geleneksel müziği alıntısından oluşan yeni bir Türkçe duygusal müzik veritabanı oluşturuldu. Standart akustik özelliklere ek olarak, evrişimli sinir ağları (CNN) katmanlarını log-mel filtre bankası enerjileri ve mel frekans sepstral katsayıları ile besleyerek elde edilen yeni özellikleri kullandık. Sınıflandırma sonuçları, en iyi performansın, yeni özellik setinin standart özelliklerle birleştirildiğinde ve LSTM + DNN sınıflandırıcı kullanılarak elde edildiğini göstermektedir. %99.19 genel doğruluk, 10 kat çapraz doğrulama ile önerilen sistem kullanılarak elde edilir. Standart özelliklere yeni öznitelikler eklendiğinde doğal dinleyiciler ve uzmanlar için sırasıyla 6.45 ve 5.65 puan iyileşme elde edilir. Ayrıca, LDNN sınıflandırıcısının, K en yakın komşu (k-NN), Sıralı Minimal Optimizasyon (SMO), Naïve Bayes ve Rastgele Ormanlar (RF) sınıflandırıcıları ile karşılaştırıldığında müzikten duygu tanıma doğruluk oranı için sırasıyla doğal dinleyiciler için, 1.61, 1.61, 2.42 ve 3.23, uzmanlar için 5.65, 0.81, 4.84 ve 6.45 puan iyileştirmeler sağladığını sonuçlar göstermektedir.
In this thesis, we propose an approach for Turkish music emotion recognition based on convolutional long-short term memory deep neural network (CLDNN) architecture. For this purpose, a new Turkish emotional music database composed of 124 Turkish traditional music excerpts with a duration of 30 seconds each is constructed. We used novel features obtained by feeding convolutional neural network (CNN) layers with log-mel filterbank energies and mel frequency cepstral coefficients (MFCC) in addition to standard acoustic features. Classification results show that the best performance is obtained when the new feature set is combined with the standard features using the LSTM + DNN (LDNN) classifier. The overall accuracy of %99.19 is obtained using the proposed system with 10-fold cross-validation. When new features are added to the standard features, 6.45 and 5.65 points improvements are achieved for native listeners and experts, respectively. Additionally, the results also show that the LDNN classifier yields 1.61, 1.61, 2.42 and 3.23 points improvements for native listeners and 5.65, 0.81, 4.84, and 6.45 points improvements for experts in music emotion recognition accuracies compared to that of K nearest neighbors (k-NN), Sequential Minimal Optimization (SMO), Naïve Bayes and Random Forest (RF) classifiers, respectively.