Joint learning of syntax and argument structure in dependency parsing / Üye yapısı ve bağlılık çözümlemesinin birlikte öğrenimi
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Bilişsel Bilim Ana Bilim Dalı / Bilişsel Bilimler Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Dilbilim = Linguistics
Dizin:Bilgisayarlı dil bilim = Computerized linguistics ; Doğal dil işleme = Natural language processing
114 s.
Bağlılık ayrıştırması bir tümcedeki bağlılık ilişkilerini saptayarak bunların bağlılık türlerini sınıflandırma işlemidir. Bağlılık ilişkilerinin saptanması, tümcedeki iye-uydu (head-dependent) yapısının çözümlenmesi anlamına gelir. Bağlılık ayrıştırıcılar, tümce içindeki iye-uydu ilişkilerini saptamanın yanı sıra, bu ilişkierin dilbilgisel türlerini de sınıflandıran yapay zeka modelleridir. Burada bahsedilen dilbilgisel ilişkiler, tümcenin üye-yapısını tanımlayan özne, nesne, niteleyici gibi dilbilgisel rolleri kapsar. Bu bağlamda, bağlılık türlerinin sınıflandırılması, bir başka deyişle bağlılık etiketleme tümcedeki her sözcüğün tümcenin üye yapısındaki görevinin tanımlanması olarak yorumlanabilir.
Bu çalışmada, mevcut bağlılık ayrıştırıcıların aksine, tümcede öncelikle üye rollerini ve üye yapısını saptamaya çalışan bir ayrıştırma modeli geliştirilmiştir. Bu model bir çok farklı dile ve veri setine uygulanmış ve modelin belirli dillerde bağlılık ayrıştırma başarımında önemli artışlara yol açtığı saptanmıştır. Geliştirilen modelin farklı dillerdeki başarımı göz önünde bulundurularak, dilbilgisel bilgiyi bağlılık ilişkileri olarak kodlayan yaklaşımın ve veri setlerinin, farklı dillerde üye yapısını bu tarz bir veri üzerinden öğrenmeyi ne kadar mümkün kılıp kılmadığına dair gözlemler sunulmuştur.
This thesis is an experimentation on learning predicate-argument structure and syntax within the dependency parsing framework. The linguistic representation used in this framework is dependency grammar. In dependency grammar, the predicate argument structure of a sentence is represented in the form of labeled and uni-directed dependency trees.
Dependency parsing is the problem of inducing a dependency grammar from data. The dependency parsing problem can be conceived of as a combination of two tasks: head-selection (arc-prediction) and label-classification. Head selection aims to determine head-modifier relations in the sentence by associating modifiers with the heads that they modify using dependency arcs. On the other hand, label classification aims to determine the grammatical role of each word in the sentence. In existing parsing approaches, these two tasks are usually stacked on top of one another where the former takes precedence over the latter. In other words, models first try to predict the dependency arcs by connecting dependents to their heads and generating an unlabeled tree, following which they assign labels to the arcs of the tree. In this set up, dependency labeling have no impact at all in predicting the correct dependency tree as it applies only after the tree is already generated.
In this study, instead of generating an unlabeled dependency tree and then using dependency labels only as names over the arcs in that tree, we give dependency labels a more central role in the overall parsing process. We first predict the dependency label of each word, therefore predicting its grammatical role in the sentence, and then generate the dependency tree based on those predictions. We call this method label-first parsing. As it will be shown, this approach improves the parsing accuracy considerably for a number of languages.
Another important aspect of the label-first parsing approach is that in this approach syntactic attachment is mainly driven by the argument structure that the system detects, therefore a lot of weight is put on predicting the predicates and the arguments correctly. We experiment with a variety of languages and show that a parser that can accurately predict the predicate and argument roles early in the parsing process can perform better across a number of languages compared to one which does not. Comparing the variation in parsing performance across languages, and considering their typological characteristics, we also try to derive conclusions about the suitability of the dependency representation for learning the predicate-argument structure in languages with different linguistic properties. |