Tez No İndirme Tez Künye Durumu
96195 Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
Statistical modeling of agglutinative languages / Sondan eklemeli dillerin istatistiksel modellenmesi
Yazar:DİLEK ZEYNEP HAKKANİ TÜR
Danışman: DOÇ. KEMAL OFLAZER
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğal dil işleme = Natural language processing ; Konuşma tanıma = Speech recognition ; İstatistiksel modelleme = Statistical modelling
Onaylandı
Doktora
İngilizce
2000
122 s.
ÖZET SONDAN EKLEMELİ DİLLERİN İSTATİSTİKSEL MODELLENMESİ Dilek Z. Hakkani-Tür Bilgisayar Mühendisliği, Doktora Tez Yöneticisi: Doç. Dr. Kemal Oflazer Ağustos, 2000 Bilgisayar donanımmdaki yeni gelişmeler ve çok büyük derlemlerin varlığı is tatistiksel tekniklerin doğal dil işlemeye uygulanmasını mümkün ve çok çekici bir araştırma alanı yapmıştır. Bu tekniklerin ingilizce ve benzeri dillerde cümle çözümleme (parsing), kelime anlamı tekleştirme (word sense disambiguation), sözcük sınıfı işaretleme (POS tagging) ve konuşma tanımaya uygulanmasıyla oldukça iyi sonuçlar elde edilmiştir. Ancak, Türkçe gibi, ingilizce ve benzeri diller den bir takım farklı özellikleri olan diller genellikle bu açıdan incelenmemişlerdir. Türkçe'nin istatistiksel modellenmesi ilginç bir problemdir. Verilen bir kökten az sayıda kelime üretilebilen ingilizce ve benzeri dillerin aksine Türkçe ve Fince gibi üretken eklemeli biçimbirimi olan dillerde, verilen bir kökten binlerce, hatta milyonlarca, yeni kelime üretmek mümkündür. Bu dil modelleme açısından çok ciddi bir veri yetersizliği problemine sebep olur. Bu doktora tezinde, Türkçe için istatistiksel dil modelleme tekniklerinin geliştirilmesi ve uygulanması ve bu tekniklerin biçimbirimsel tekleştirme, yazım hatalarının düzeltilmesi ve konuşma tanıma için aday (n-best) listesini yeniden değerlendirme gibi temel doğal dil ve konuşma işleme uygulamalarında denenmesi anlatılmaktadır. Bütün bu uygulamalarda veri yetersizliği probleminin etkisini azaltmak için kelimeden daha küçük birimler kullanıldı Biçimbirimsel tekleştirme için, çekim eki grupları (inflectional groups) modelleme birimi olarak kullanılarak n-birimli dil modelleri (n-gram language models) ve maksimum düzensizlik (max imum entropy) modelleri geliştirildi. Aldığımız sonuçlar, karmaşık biçimbirimsel yapıya sahip dilleri modellemek için sözcükten daha küçük birimler kullanmanın gerçekten de çok faydalı olduğunu gösterdi ve n-birimli dil modelleme yöntemi, maksimum düzensizlik yönteminden daha iyi sonuçlar verdi. Aday listesini yeniden değerlendirmek ve yazım hatalarının düzeltilmesi içinse biçimbirimsel tekleştirme için geliştirilen bu modeller ve bunların önek-sonek (prefix-suffix) vivıı modelleri gibi yakınsamaları kullandıldı. Önek-sonek modelleri, aday listesinin yeniden değerlendirilmesinde çok iyi sonuçlar verdi, ancak yazım hatalarının düzeltilmesinde doğruluk açısından sözcük tabanlı modellerden daha iyi sonuç vermedi. Anahtar sözcükler: Doğal Dil İşleme, İstatistiksel Dil Modelleme, Biçimbirimsel Tekleştirme, Konuşma Tanıma, Yazım Hatalarının Düzeltilmesi, n-birimli Dil Modelleri, Maksimum Düzensizlik Modelleri.
ABSTRACT STATISTICAL MODELING OF AGGLUTINATIVE LANGUAGES Dilek Z. Hakkani-Tür Ph.D. in Computer Engineering Supervisor: Assoc. Prof. Kemal Oflazer August, 2000 Recent advances in computer hardware and availability of very large corpora have made the application of statistical techniques to natural language process ing a possible, and a very appealing research area. Many good results have been obtained by applying these techniques to English (and similar languages) in pars ing, word sense disambiguation, part-of-speech tagging, and speech recognition. However, languages like Turkish, which have a number of characteristics that dif fer from English have mainly been left unstudied. Turkish presents an interesting problem for statistical modeling. In contrast to languages like English, for which there is a very small number of possible word forms with a given root word, for languages like Turkish or Finnish with very productive agglutinative morphology, it is possible to produce thousands of forms for a given root word. This causes a serious data sparseness problem for language modeling. This Ph.D. thesis presents the results of research and development of statisti cal language modeling techniques for Turkish, and tests such techniques on basic applications of natural language and speech processing like morphological dis ambiguation, spelling correction, and n-best list rescoring for speech recognition. For all tasks, the use of units smaller than a word for language modeling were tested in order to reduce the impact of data sparsity problem. For morphological disambiguation, we examined n-gram language models and maximum entropy models using inflectional groups as modeling units. Our results indicate that using smaller units is useful for modeling languages with complex morphology and n-gram language models perform better than maximum entropy models. For n-best list rescoring and spelling correction, the n-gram language models that were developed for morphological disambiguation, and their approximations, via prefix-suffix models were used. The prefix-suffix models performed very well for n-best list rescoring, but for spelling correction, they could not beat word-based iv