Tez No İndirme Tez Künye Durumu
547249
Türkçe ağızların tanınmasında derin öğrenme tekniğinin kullanılması / Identification of Turkish dialects using deep learning techniques
Yazar:GÜLTEKİN IŞIK
Danışman: DOÇ. DR. HARUN ARTUNER
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
118 s.
Otomatik konuşma tanıma sistemleri, konuşma seslerinin metne geçirilmesine yarar. Herhangi bir dilde otomatik konuşma tanıma sisteminin performansı, konuşmacı cinsiyeti ve duygu durumunun yanı sıra dilin varyantları olan ağızlara da bağlıdır. Ağızlar aynı coğrafik bölgede yaşayan insanların konuştuğu, söyleyiş biçimi ve sözcüksel yapı olarak birbirine benzeyen ve diğer bölgelerde konuşulan ağızlardan, sayılan bu özellikler bakımından ayrılan günlük konuşma biçimleridir. Ağız tanımanın amacı sesli ifade özelliklerinden insanların ağızlarının belirlenmesidir. Ağzın tanınmasının ardından dil ve akustik modellerin bu ağza adapte edilmesiyle konuşma tanıma sisteminin başarımının arttığı bilinmektedir. Ayrıca sesli ifadeden konuşulan ağzın belirlenmesi; sesli yanıt sistemlerinde ön işlem adımı olarak veya adli bilişimde ipucu elde etmede kullanılabilir. Ağız tanımada kullanılan modelleme teknikleri farklı dil katmanlarındaki bilgiyi modellemeye yöneliktir. Akustik, fonotaktik ve prozodik katmanlarındaki öznitelikler insanların konuştuğu ağza özgü önemli bilgiler vermektedir. Konuşmanın fonetik farklılıkları, fiziksel düzeyde spektral öznitelikleri incelenerek tespit edilebilmektedir. Klasikleşmiş Mel Frekans Kepstral Katsayıları (MFCC) ve Log mel-spektrogram gibi öznitelikler bu amaçla kullanılmaktadır. Fonotaktik, bir dilde/ağızda, fonemlerin bir arada bulunma kurallarına karşılık gelmektedir. Fonem dizilimleri ve bu dizilimin sıklığı ağızdan ağza değişiklik göstermektedir. Fonem dizilimleri fonem tanıyıcılar yardımıyla elde edilmekte ve daha sonra dil modelleriyle fonem dağılımları çıkartılmaktadır. Prozodi, konuşmanın tonlama, vurgu ve ritim gibi işitsel öznitelikleridir. Bu özniteliklerin insanın konuşmayı algılamasında anahtar rol üstlendiği bilinmektedir. Bu algısal öznitelikler fiziksel düzeyde temel frekans (perde), enerji ve sürenin ölçülmesiyle elde edilmekte ve uygun parametrik gösterimlere çevrilmektedir. Son yıllarda, derin sinir ağlarının popüler hale gelmesiyle birlikte Konvolüsyonel Sinir Ağları (CNN) özellikle görüntü ve konuşma tanımada sıklıkla kullanılmaktadır. Bunun yanı sıra Uzun Kısa-Dönem Bellekli (LSTM) yinelemeli sinir ağları dizi sınıflandırma ve dil modelleme problemlerinde çokça kullanılmaktadır. LSTM sinir ağları, uzun dönemli bağlam bilgisini modellemede n-gram modellerden daha başarılıdır. Türkiye'nin farklı yörelerinde yaşayan insanların konuştuğu ağızlar yukarıda bahsedilen özellikler açısından birbirinden ayrılmaktadır. Bu bakımdan, bu tez çalışmasında akustik, fonotaktik ve prozodik öznitelikler kullanılarak Türkçenin ağızlarının CNN ve LSTM sinir ağlarıyla sınıflandırılması konu edilmiştir. Bu amaçla Ankara, Alanya, Kıbrıs ve Trabzon ağızlarından oluşan bir Türkçe veri kümesi oluşturulmuştur. Önerilen yöntemler Türkçe veri kümesi üzerinde sınanmış ve yorumlanmıştır. Çalışma sonucunda, kullanılan yöntemlerin Türkçe ağız tanıma için oldukça iyi sonuçlar verdiği gözlenmiştir.
Automatic speech recognition systems are used to translate speech sounds into text. The performance of the automatic speech recognition system in any language is dependent on the speaker gender and emotion as well as dialects that are variants of the language. Dialects are the speech forms that are similar to each other in the same geographic region as the utterance and lexical structure. With these characteristics, dialects are separated from each other. The aim of the dialect recognition is to identify the humans' dialect from their speech. Following the recognition of the dialect, it is known that the performance of the speech recognition system is enhanced by adapting the language and acoustic models to this dialect. Furthermore, identifying spoken dialect from speech can be used as a preprocessing step in voice response systems, or it can help to obtain a clue in forensics. The modeling techniques used in dialect recognition are intended to model information in different language layers. Features in the acoustics, phonotactic and prosodic layers give important information that specific to the dialect. Phonetic differences of speech can be determined by examining their spectral features at the physical level. Features such as classical Mel Frequency Cepstral Coefficients (MFCC) and Log mel-spectrogram are used for this purpose. Phonotactic corresponds to the rules of coexistence of phonemes in a language/dialect. Phoneme sequences and the frequency of this sequence vary from dialect to dialect. Phoneme sequences are obtained by phoneme recognizers and then phoneme distributions are extracted using language models. Prosody is the auditory features of speech such as intonation, stress and rhythm. It is known that these features play a key role in the human perception of speech. These perceptual features are extracted by measuring the fundamental frequency (pitch), energy and duration at the physical level and converted into appropriate parametric representations. In recent years, Convolutional Neural Networks (CNNs) have been frequently used particularly in image and speech recognition since deep neural networks become popular. In addition, Long Short-Term Memory (LSTM) recurrent neural networks are widely used in sequence classification and language modeling problems. LSTM neural networks are more successful in modeling long-term context information than n-gram models. Dialects spoken by people living in different regions of Turkey are separated from each other in terms of features mentioned above. From this perspective, in this thesis, acoustics, phonotactic and prosodic features were used to classify Turkish dialects with CNN and LSTM neural networks. For this purpose, a Turkish data set consisting of Ankara, Alanya, Kıbrıs and Trabzon dialects was formed. The proposed methods have been tested and interpreted on the Turkish data set. As a result of the study, it was observed that the methods used gave very good results for Turkish dialect recognition.