Tez No |
İndirme |
Tez Künye |
Durumu |
222302
|
|
Türkçe'nin bağlılık ayrıştırması / Dependency parsing of Turkish
Yazar:GÜLŞEN ERYİĞİT
Danışman: PROF.DR. EŞREF ADALI
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğal dil işleme = Natural language processing ; Türkçe = Turkish
|
Onaylandı
Doktora
Türkçe
2006
141 s.
|
|
Bu çalışmada, zengin bitişken bir biçimbirimsel yapıya sahip, tümce içi öğe dizilişleriserbest ve çoğunlukla sağa bağımlı türde olan Türkçe'nin bağlılık ayrıştırmasıkonusunda araştırmalar yapılmıştır. Sıralanan bu özellikleri ile Türkçe, İngilizce'den veayrıştırma alanında üzerinde yoğun olarak çalışılmış birçok dilden farklılıklargöstermektedir. Bu niteliği ile benzer özellikler gösteren bir sınıf dilin temsilcisi olarakgörülebilir. Bu çalışmada, yakın geçmişte kullanıma sunulan Türkçe derlem (Odtü-Sabancı Türkçe ağaç yapılı derlemi) kullanılarak, veri güdümlü ayrıştırıcılarda farklıtasarım yöntemlerinin kullanılmasının etkileri incelenmiştir. Öncelikle ayrıştırmaalgoritmaları ve öğrenme algoritmalarını içeren temel ayrıştırma mimarisi, temel modelolarak alınan bazı kural tabanlı ayrıştırıcılar, koşullu olasılık tabanlı modele dayalı biristatistiksel ayrıştırıcı ve ayırdedici öğrenmeye dayalı sınıflandırıcı tabanlı gerekirci birayrıştırıcı kullanılarak irdelenmiştir. Daha sonra, ayrıştırmada biçimbirimsel birimleri,çekimsel özellikleri ve görünüm bilgilerini kullanmanın etkileri incelenmiştir. Sonuçlar,sözcükler yerine sözcüklerden daha küçük olan biçimbirimsel birimlerin tümceyapısının ana birimleri olarak kullanılmasıyla, Türkçe'de ayrıştırma başarımınınarttırılabileceğini ve çekimsel özelliklerin ve görünüm bilgilerinin kullanılmasınınTürkçe'nin bağlılık çözümlemesinde çok önemli etkisinin olduğunu göstermektedir.Araştırmalar sonucunda, Türkçe'nin bağlılık ayrıştırması konusunda ilgili çalışmalararasındaki en yüksek başarımlar elde edilmiştir.Anahtar Kelimeler: Bağlılık Ayrıştırması, Veri güdümlü Ayrıştırma, Sentaks Analizi,Doğal Dil İşleme
|
|
In this study, we focus on dependency parsing of Turkish, a language that ischaracterized by a rich agglutinating morphology, free constituent order, andpredominantly head-final syntactic constructions. In this way, Turkish can be viewed asthe representative of a class of languages that are very different from English and mostother languages that have been studied in the parsing literature. Using data from therecently released Turkish treebank (Metu-Sabancı Turkish treebank), we investigate theimpact of different design choices in developing data-driven parsers. We firstinvestigate the basic parsing methodology, including both parsing algorithms andlearning algorithms by using some rule-based parsers as baselines and a statisticalparser using a conditional probabilistic model and a deterministic classifier-basedparser using discriminative learning. We then examined the impact of usingmorphological units, inflectional features and lexicalization in parsing. Our resultsshowed that parsing accuracy in Turkish can be improved by taking morphologicallydefined units rather than word forms as the basic units of syntactic structure and thatusing inflectional features and lexicalization is crucial for the dependency parsing ofTurkish. At the end of our research, we obtained the most state-of-the-art results in theliterature for dependency parsing of Turkish.Keywords: Dependency parsing, Data-driven Parsing, Syntax Analysis,Natural Language Processing |