Tez No İndirme Tez Künye Durumu
656414
Türkçe konuşma tanıma sistemleri için derin öğrenme tabanlı modellerin geliştirilmesi / Development of deep learning based models for Turkish speech recognition
Yazar:SAADİN OYUCU
Danışman: DOÇ. DR. HÜSEYİN POLAT
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
131 s.
Kelime Hata Oranı (KHO) düşük Otomatik Konuşma Tanıma (OKT) sistemlerinde, büyük miktarda konuşma ve bu konuşmalar ile eşleştirilmiş metin veri kümesine ihtiyaç duyulmaktadır. Bu nedenle çalışma kapsamında Türkçe OKT veri kümesi hazırlamaya yönelik farklı bir yaklaşım sunulmuştur. Sunulan yaklaşımda üç farklı yöntem kullanılmıştır. İlk yöntemde, işitme güçlüğü çeken kişiler için hazırlanan altyazı belgeleri filmlerden elde edilen konuşma bilgisi ile eşleştirilmiştir. İkinci yöntemde, veriler bir mobil uygulama aracılığıyla gerçek kullanıcılardan elde edilmiştir. Üçüncü yöntemde ise transfer öğrenme yaklaşımı kullanılmıştır. Elde edilen veriler gerçek kullanıcıların onayına sunulmuştur. Türkçe OKT sistemi için gerekli Akustik Model (AM), Dil Modeli (DM) ve Okunuş Sözlüğü (OS) hazırlanan veri kümesi kullanılarak geliştirilmiştir. Yapay sinir ağı, Gauss Karışım Modeli ve Saklı Markov Modeli tabanlı akustik modellerin ilk konuşma tanıma sonuçları verilmiştir. Ayrıca OKT sistemlerinin başarımını düşürecek akustik bilgilerin ortadan kaldırılması için konuşma içerisinde geçen sessizliklerin kaldırılması ve konuşmaların parçalara ayrılması gerçekleştirilmiştir. OS'nin oluşturulmasındaki sesbirim kuralları belirlenmiştir. Günlük konuşma içerisinde sıklıkla kullanılan yabancı kelimeler ve Türkçede birden fazla okunuşa sahip olan kelimelerin farklı okunuşları OS'ye eklenmiştir. OKT için iyi dizayn edilmiş bir DM'nin AM ile birlikte kullanılması KHO'yu düşürmektedir. Bu nedenle çalışmada, Türkçe OKT'nin KHO başarımını arttırmak için cümle düzeyinde bir DM iyileştirme yöntemi önerilmiştir. Sonuç olarak, Türkçe için literatürdeki yetersiz kaynak durumu telafi edilmiştir. Ayrıca, AM, DM ve OS gerçekleştirilen iyileştirmeler ile KHO düşük ve geniş kelime dağarcığına sahip bir Türkçe OKT sistemi geliştirilmiştir. Geliştirilen OKT sistemine erişimi kolaylaştırmak için web servis tabanlı bir platform hazırlanmıştır. Kullanıcıların platforma erişimi, platform ile birlikte hazırlanan web arayüzü üzerinden gerçekleştirilmiştir. Ayrıca geliştirilen uygulama programlama arayüzleri sayesinde farklı uygulama ve servislerin platforma erişimi sağlanmıştır. Böylelikle mobil cihazlarda ve nesnelerin interneti ekosisteminde sorunsuz çalışabilen geniş kelime dağarcığına sahip bir Türkçe OKT platformu geliştirilmiştir.
Automatic Speech Recognition (ASR) systems with low Word Error Rate (KHO) need a large amount of speech and a data set of text matched with these speeches. For this reason, a different approach to preparing a Turkish ASR data set is presented in the scope of the study. Three different methods were used in the proposed process. In the first method, subtitle documents prepared for people with hearing difficulties were matched with movies' speech information. In the second method, data were obtained from real users via a mobile application. In the third method, the transfer learning approach was used. The obtained data were submitted to the approval of real users. The Acoustic Model (AM), Language Model (LM) and lexicon required for the Turkish ASR system were developed using the prepared data set. The first speech recognition results of different acoustic models based are given. Also, to eliminate acoustic information that would reduce the performance of ASR systems, silences in the speech were removed and speeches were divided into parts. Also, the phoneme rules in the creation of the lexicon have been determined. Foreign words that are frequently used in daily speech and different readings of words that have more than one pronunciation in Turkish were added to the lexicon. Using LM together with AM in ASR systems decreases WER. Therefore, in the study, a sentence-level LM improvement method is proposed to increase the performance of Turkish ASR's WER. As a result, the low resource situation stated in the literature for Turkish has been compensated. Also, with the improvements made on AM, LM and lexicon, a Turkish ASR system with low WER and large vocabulary has been developed. A web service-based platform has been prepared to facilitate access to the developed ASR system. Users were provided with access to the ASR system via the web interface designed with the platform. Also, different applications access to the platform has been provided through the application programming interface. Thus, a Turkish ASR platform with a large vocabulary has been developed that can work smoothly on mobile devices and the Internet of Things ecosystem.