Tez No İndirme Tez Künye Durumu
222302
Türkçe'nin bağlılık ayrıştırması / Dependency parsing of Turkish
Yazar:GÜLŞEN ERYİĞİT
Danışman: PROF.DR. EŞREF ADALI
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğal dil işleme = Natural language processing ; Türkçe = Turkish
Onaylandı
Doktora
Türkçe
2006
141 s.
Bu çalışmada, zengin bitişken bir biçimbirimsel yapıya sahip, tümce içi öğe dizilişleri serbest ve çoğunlukla sağa bağımlı türde olan Türkçe'nin bağlılık ayrıştırması konusunda araştırmalar yapılmıştır. Sıralanan bu özellikleri ile Türkçe, İngilizce'den ve ayrıştırma alanında üzerinde yoğun olarak çalışılmış birçok dilden farklılıklar göstermektedir. Bu niteliği ile benzer özellikler gösteren bir sınıf dilin temsilcisi olarak görülebilir. Bu çalışmada, yakın geçmişte kullanıma sunulan Türkçe derlem (Odtü- Sabancı Türkçe ağaç yapılı derlemi) kullanılarak, veri güdümlü ayrıştırıcılarda farklı tasarım yöntemlerinin kullanılmasının etkileri incelenmiştir. Öncelikle ayrıştırma algoritmaları ve öğrenme algoritmalarını içeren temel ayrıştırma mimarisi, temel model olarak alınan bazı kural tabanlı ayrıştırıcılar, koşullu olasılık tabanlı modele dayalı bir istatistiksel ayrıştırıcı ve ayırdedici öğrenmeye dayalı sınıflandırıcı tabanlı gerekirci bir ayrıştırıcı kullanılarak irdelenmiştir. Daha sonra, ayrıştırmada biçimbirimsel birimleri, çekimsel özellikleri ve görünüm bilgilerini kullanmanın etkileri incelenmiştir. Sonuçlar, sözcükler yerine sözcüklerden daha küçük olan biçimbirimsel birimlerin tümce yapısının ana birimleri olarak kullanılmasıyla, Türkçe'de ayrıştırma başarımının arttırılabileceğini ve çekimsel özelliklerin ve görünüm bilgilerinin kullanılmasının Türkçe'nin bağlılık çözümlemesinde çok önemli etkisinin olduğunu göstermektedir. Araştırmalar sonucunda, Türkçe'nin bağlılık ayrıştırması konusunda ilgili çalışmalar arasındaki en yüksek başarımlar elde edilmiştir. Anahtar Kelimeler: Bağlılık Ayrıştırması, Veri güdümlü Ayrıştırma, Sentaks Analizi, Doğal Dil İşleme
In this study, we focus on dependency parsing of Turkish, a language that is characterized by a rich agglutinating morphology, free constituent order, and predominantly head-final syntactic constructions. In this way, Turkish can be viewed as the representative of a class of languages that are very different from English and most other languages that have been studied in the parsing literature. Using data from the recently released Turkish treebank (Metu-Sabancı Turkish treebank), we investigate the impact of different design choices in developing data-driven parsers. We first investigate the basic parsing methodology, including both parsing algorithms and learning algorithms by using some rule-based parsers as baselines and a statistical parser using a conditional probabilistic model and a deterministic classifier-based parser using discriminative learning. We then examined the impact of using morphological units, inflectional features and lexicalization in parsing. Our results showed that parsing accuracy in Turkish can be improved by taking morphologically defined units rather than word forms as the basic units of syntactic structure and that using inflectional features and lexicalization is crucial for the dependency parsing of Turkish. At the end of our research, we obtained the most state-of-the-art results in the literature for dependency parsing of Turkish. Keywords: Dependency parsing, Data-driven Parsing, Syntax Analysis, Natural Language Processing