Tez No İndirme Tez Künye Durumu
38440
Computer processing of Turkish: Morphological and lexical investigation /
Yazar:TUNGA GÜNGÖR
Danışman: PROF.DR. SELAHATTİN KURU
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Dilbilim = Linguistics
Dizin:Biçimbilim = Morphology ; Doğal dil işleme = Natural language processing ; Türkçe = Turkish
Onaylandı
Doktora
İngilizce
1995
185 s.
ÖZET Bu tezin konusu Türkçe'nin biçimbiliminin incelenmesidir. Türkçe bitişimli diller grubuna dahildir. Bu özelliğinden dolayı Türkçe'nin biçimbilimi oldukça karmaşıktır ve pek çok istisnai durumlar içerir. Son zamanlarda yapılan çalışmalarda dilin sadece bir kısmı incelenmiştir. Bu çalışmalar özellikle temel bazı kuralların açıklanması ve gösterilmesi üzerine kurulmuştur. Bu tezin başlıca amacı, Türkçe'nin tüm biçimbilimsel yapısını açığa çıkarmak ve bu yapının bilgisayardaki gösterimini oluşturmaktır. Bu işlem tamamlanmadan, dilin sözdizimsel ve anlambilimsel olarak incelenmesi hemen hemen olanaksızdır. Bu çalışmada biçimbilim analizini iki kısma ayırıyoruz: Eklerin yapısının ve sıralanmasının incelenmesi. Dilin biçimbilimini bu iki kısmı göz önüne alarak tanımlayacağız. Daha sonra bu tanımlamaları Genişletilmiş Geçiş Ağı formasyonunda birleştireceğiz. Böylece, Türkçe'nin biçimbilimsel yapısının bilgisayardaki gösterimini elde edeceğiz. Bu önerilen yapı, Türkçe konusundaki dil uygulamaları için bir temel oluşturacaktır. Bu uygulamalar arasından, bir biçimbilimsel tarama programı ile yazım düzeltme elemanı da içeren bir yazım kontrol programı hazırlayacağız. Bu biçimbilimsel gösterimi ve hazırlanan programları kullanarak Türkçe hakkında istatistik bilgi üreteceğiz. Bu üretim iki kısımdan oluşuyor: sözlük ve biçimbilimi analizi ile metin analizi. Bunlardan ilki dilin yapısal kısımları hakkındaki bilgilerden yararlanır. İkincisi ise dilin günlük kullanımıyla ilgilidir. Bu amaçla, bir metin oluşturacağız ve yazım kontrol programını bu metin üzerinde çalıştıracağız. Anahtar sözcükler : Bilgisayarlı dilbilimi, Doğal dil işleme, Biçimbilimsel analiz, Türkçe, Genişletilmiş geçiş ağları, Yazım kontrolü, Metin
ABSTRACT The morphological analysis of Turkish is the subject of this thesis. Turkish belongs to the group of agglutinative languages. Because of its agglutinative nature, Turkish morphology is quite complex and includes many exceptional cases. Most recent research on Turkish morphology have limited themselves with a partial treatment of the language. The study has concentrated especially on the explanation and representation of the basic rules. The main objective of this thesis is to bring the full morphological structure of Turkish to light and to build its computer representation. Before this analysis is handled, the syntactic or semantic parsing of the language is quite impossible. In this study, we divide the analysis of the morphology into two interrelated parts: morphophonemic analysis and morphotactic analysis. We investigate and define the morphological structure for both of these. Then we combine these in the Augmented Transition Network (ATN) formalism. This forms the formal representation of the Turkish morphological structure. This proposed morphological structure forms a basis for the language applications about Turkish. Among these applications, we design and implement a morphological parser and a spelling checker which incorporates a spelling corrector component. We perform statistical analysis of Turkish based on this morphological representation and the implemented programs. This analysis is formed of two parts: lexical and morphological analysis, and corpus analysis. The first one uses the information about the structural parts of the language. The second one deals with the daily usage of the language. For this purpose, we form a corpus and run the spelling checker program on this corpus. Key words : Computational linguistics, Natural language processing, Morphological analysis, Turkish, Augmented transition networks, Spelling checking, Corpus IV