Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
166835	Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.	A study on language modeling for Turkish large vocabulary continuous speech recognition / Türkçe geniş dağarcıklı sürekli konuşma tanıma için dil modelleme üzerine bir çalışma Yazar:ALİ ORKAN BAYER Danışman: DR. MELTEM TURHAN YÖNDEM ; DOÇ. DR. TOLGA ÇİLOĞLU Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Dizin:	Onaylandı Yüksek Lisans İngilizce 2005 66 s.

oz TÜRKÇE GENİŞ DAĞ ARCIKLI SÜREKLİ KONUŞMA TANIMA İÇİN DİL MODELLEME ÜZERİNE BİR ÇALIŞMA Bayer, Ali Orkan Yüksek Lisans, Bilgisayar Mühendisliği Bölümü Tez Yöneticisi : Dr. Meltem Turhan Yöndem Ortak Tez Yöneticisi : Doç. Dr. Tolga Çiloğlu Eylül 2005, 54 sayfa Bu çalışma Türkçe için geniş dağarcıklı sürekli konuşma tanıma problemine yönelmektedir. Türkçe için sürekli konuşma tanıma, dilin eklemeli yapısı nedeniyle iyi yapılamamaktadır. Dilin eklemeli doğası bu alanda kullanılan klasik dil modellerinin performansını düşürmektedir. Bu tez çalışmasında öncelikle değişik parametreler kullanılarak akustik modeller oluşturulmuştur ve test edilmiştir. Sonra üç tip n-gram dil modeli eğitilmiştir. Bu modeller sınıf tabanlı modelleri, gövde tabanlı modelleri ve gövde-ek-dizisi tabanlı modelleri kapsamaktadır. Hidden Markov Model Toolkit (HTK) kullanılarak sistemi önce bi-gram ve sonra da tri-gram modellerle test etmek için iki aşamalı tanıma yapılmıştır. Bu çalışmanın sonunda kelime dağarcığını kapsamaları nedeniyle, gövde ve ek dizileri üzerinden eğitilen modellerin daha iyi sonuç verdiği bulunmuştur. Anahtar Kelimeler: Geniş Dağarcıklı Konuşma Tanıma, Eklemeli Diller, Dil Modelleri, İki Aşamalı Tanıma

ABSTRACT A STUDY ON LANGUAGE MODELING FOR TURKISH LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION Bayer, Ali Orkan M.S., Department of Computer Engineering Supervisor : Dr. Meltem Turhan Yöndem Co-Supervisor : Assoc. Prof. Dr. Tolga Çiloğlu September 2005, 54 pages This study focuses on large vocabulary Turkish continuous speech recognition. Con tinuous speech recognition for Turkish cannot be performed accurately because of the agglutinative nature of the language. The agglutinative nature decreases the performance of the classical language models that are used in the area. In this thesis firstly, acoustic models using different parameters are constructed and tested. Then, three types of n-gram language models are built. These involve class-based models, stem-based models, and stem-end-based models. Two pass recognition is performed using the Hidden Markov Model Toolkit (HTK) for testing the system first with the bigram models and then with the trigram models. At the end of the study, it is found that trigram models over stems and endings give better results, since their coverage of the vocabulary is better. Keywords: Large Vocabulary Continuous Speech Recognition, Agglutinative Lan guages, Language Modeling, Two-pass Recognition IV