Tez No İndirme Tez Künye Durumu
34211 Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
Bir türkçe fonem kümeleme sistemi tasarımı ve gerçekleştirimi / The Design and implementation of a Turkish speech phoneme clustering systems
Yazar:HARUN ARTUNER
Danışman: PROF. DR. ALİ SAATÇİ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Ses tanıma sistemleri = Voice recognition systems ; Tasarım = Design ; Türkçe = Turkish
Onaylandı
Doktora
Türkçe
1994
166 s.
IV ÖZET Günümüzde bilgisayar ve insan arasındaki etkileşim, el ve gözü birlikte kullanmayı gerektiren, daha çok yazıya dayalı biçimde gerçekleşmektedir. Halbuki insanlar kendi aralarında, daha çok sese dayalı iletişim yolunu kullanmaktadırlar. İnsan- bilgisayar arasında, yazının yanı sıra, sese dayalı etkileşimin kurulabilmesi kullanım kolaylığı, doğallığı ve konforu açısından önem taşımaktadır. Bunun yapılabilmesi sesli ifadelerin hızlı ve hatasız çözümlenebilmesini (tanınabilmesini) gerektirir. Sesin bilgisayar-insan arası etkileşim bağlamında yerini alması, sesli ifadelerin ya da konuşmanın tanınmasında ortaya çıkan sorunların çözülebilmesine bağlıdır. Sesli ifadeleri tanımadaki zorluklar bunun, daha çok gerçek zamanlı (hızlı) yapılması gereğinden kaynaklanmaktadır. Sesli ifade tanıma süreci, konuşulan dilin yapışma bağlı olarak da farklılıklar göstermektedir. Sesli ifade tanımada, genelde iki temel yaklaşım kullanılmaktadır. Bunlar sözcük tanıma ve fonem tanıma yaklaşımlarıdır. Türkçe sözcükler, fiil çekimi, ismin i ve e halleri gibi nedenlerle sonekler almaları dolayısıyla, kimi zaman batı dillerinde bu ya da birkaç cümleye karşı gelen karmaşıklıkta olabilmektedir. Bu nedenle sınırlı ve genel amaçlı bir sözlük oluşturma olanağı bulunamadığından Türkçe genel bir sesli ifade tanıma kapsamında sözcük tanıma yaklaşımının kullanılamayacağı düşünülmüştür. Bu tez kapsamında, sözcük altı ses birimlerine dayalı sürekli sesli ifade tanıma yaklaşımı benimsenmiştir. Yaratılan deneysel Türkçe korpüs ses birimlerine ve tek konuşmacıya dönük olmuştur. Bu bağlamda, ilk olarak, tanınması amaçlanan ses birimlerine ilişkin, temsil niteliği yüksek ve uygun özellik vektörlerinin belirleme çalışmaları yürütülmüştür. Daha sonra, tanıma sürecinde kullanılacak ve her fonemi en iyi temsil ettiği varsayılan özellik vektörlerinden, Türkçe Codebook oluşturulmuştur. Türkçe Alfabe fonemik bir alfabe özelliği taşımaktadır. Bu sayede Türkçe her foneme bir yazı simgesi (harf) atanabilmektedir. Bu tez kapsamında Türkçe sesli ifade phorC larından fonemlere, geçiş (phon to phoneme mapping) çalışmaları yürütülerek sözcük tanıma ve tanınan sözcüğün yazıya geçirilmesi kapsamında dolaysız yararlanılacak fonem kümeleme amaçlanmıştır. Bu bağlamda Türkçe fonemler için fonotopik dağılımları, Self Organizing Feature Map yöntemi kullanılarak elde edilmiştir. Anahtar Sözcükler: Türkçe sesli ifade tanıma, Konuşmacıya bağımlı Türkçe fonem tanıma, Türkçe özellik vektörü çıkarımı, Türkçe Codebook, Nöron Ağlan
ABSTRACT Units such as keyboard, mouse, CRT's, printers and plotters constitute, today the basic tools of communication between man and machine. These units necessitate mainly the use of texts as means of interaction. As far as the ease and comfort of computers usage is concerned, the idea of speech based communication becomes an important issue in the frame work of man-computer interaction which requires speech recognition. The real time aspect (or the speech) of that recognition poses the hardest problem of the subject, so it requires experimentation with new techniques based on new approches. In speech recognition two main approaches prevail, one based on word recognition and the other on phoneme recognition. As Turkish words may take on suffixes they may show complexities which render them equivalent to as much as several sentences in English. Consequently, the word recognition approach cannot be used within the scope of Turkish speech recognition because a general-purpose dictionary with clear-cut boundaries cannot be built. Within the scope of this thesis, an approach based on the recognition of sub-lexical sound units was adopted. The experimental Turkish word corpus created within this context was accordingly based on sound units and speaker-dependent In this thesis, studies were first conducted to determine feature vectors that are highly representative of and suitable for the sound units to be recognised. Then, a Turkish Codebook was generated using the feature vectors, assumed as best representatives per phoneme, to be used in the recognition process. The Turkish alphabet is a phonemic alphabet. For this reason, a written sign (letter) can be assigned to each Turkish phoneme. Within the context of Turkish phonem recognition and the mapping of those phone into phonemes in order to pass from spoken to written words a general phoneme clustering is realized. In the framework of that clustering phonotopic maps are obtained for each of the 28 Turkish phonems using the Self Organizing Feature map method. Keywords: Turkish speech recognition, Speaker-dependent Turkish phoneme recognition, Turkish feature vector extraction, Turkish Codebook, Neural Network.