Tez No İndirme Tez Künye Durumu
626161
Uçtan uca türkçe konuşma tanıma için çıktı düzeltme metodu önerisi ve tekrarlayan sinir ağı tasarımı / Development of output correction methodology for turkish speech recognition and design of a recurrent neural network
Yazar:RECEP SİNAN ARSLAN
Danışman: DOÇ. DR. NECAATTİN BARIŞÇI
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
119 s.
Otomatik konuşma tanıma (OKT), konuşma sinyallerinin girdi olarak alınması ve bilgisayarlar tarafından işlenebilmesi için metne dönüştürülmesi işlemidir. OKT uygulamaları çok yönlü ve gerçek hayatta yaygın olarak kullanılmasına rağmen, gürültülü ortamlarda, kelime dağarcığı büyümesi veya konuşma sinyalinin kalitesiz olması durumlarında yazımsal hatalar üretme eğilimindedirler. Bu çalışmada, OKT sistemlerinin üretmiş olduğu çıktılardaki hataların tespit edilmesi ve düzeltilmesi için alternatif hipotez önerisi yaklaşımına dayalı özgün bir model önerilmiştir. Hatalı kelimeleri belirleme, düzeltilebilir olanları seçme ve bu kelimelerin düzeltileceği aday sözcüklerin belirlenmesi gibi bir dizi işlem adımı içermektedir. Aday sözcüklerin belirlenmesinde "Levensthein" algoritması ve bu çalışma için hazırlanmış olan "Türkçe şablon kelimeler veritabanı" kullanılmaktadır. Önerilen modelin etkinliği, verimliliği ve sunduğu katkı düzeyi Uzun Kısa Süreli Bellek (UKSB) ve Geçitli Tekrarlayan Birim (GTB) bellek yapısının kullanıldığı uçtan uca Türkçe OKT sistemi ile test edilmiştir. Yapılan testler sonucunda, konuşma tanıma sisteminin performansı %4,60 oranında artış göstermiştir. 100 ve 500 kelime içeren sözcük dağarcığı ile yapılan testlerde sırasıyla %99,2 ve %80,3 oranında doğru tanıma performansı yakalanmıştır.
Automatic speech recognition (ASR) is the process of receiving speech signals as input and converting them into text for processing by computers. Although ASR applications are versatile and widely used in real life, they tend to produce spelling errors in noisy environments, increase of vocabulary size, or poor speech signals. In this study, an original model based on alternative hypothesis suggestion approach is proposed to detect and correct erroneous outputs produced by ASR systems. The method involves a series of processing steps, such as identifying the erroneous words, selecting the ones that can be corrected, and selecting candidate words to correction. "Levenshtein" algorithm and Turkish template words database prepared for this study are used in determining candidate words. The effectiveness, efficiency and contribution level of this proposed model has been tested with an end-to-end Turkish ASR system using Long short term memory and Gated recurrent unit memory structure. As a result of the tests, the performance of the speech recognition system has increased by 4,60%. In tests performed with vocabulary containing 100 and 500 words, 99,2% and 80,3% correct recognition performance were obtained, respectively.