Tez No İndirme Tez Künye Durumu
479976
Türkçe için gözetimsiz sözdizimsel belirsizlik giderme / Unsupervised syntactic disambiguation for turkish
Yazar:ÖZKAN ASLAN
Danışman: DOÇ. DR. SERKAN GÜNAL ; DOÇ. DR. BEKİR TANER DİNÇER
Yer Bilgisi: Anadolu Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2017
115 s.
Doğal dillerde bir tümce, her biri farklı yapısal yorumlara karşılık gelen birden çok sözdizim ağacı ile gösterilebilir. Bu durum sözdizimsel belirsizlik olarak adlandırılır. Sözdizimsel belirsizlik giderme, basitçe, tümceden elde edilen sözdizim ağaçlarının bağlama göre en uygun olandan en az uygun olana doğru sıralanmasıdır. Bu tezde, sözdizimsel belirsizlik giderme problemi Türkçe için ele alınmış ve gözetimsiz yönteme dayanan bir çözüm önerilmiştir. Yöntemin gözetimsiz olarak adlandırılmasının nedeni sözdizim ağaçlarının sıralanmasında kullanılan olasılık modellerinin imlenmemiş bir metin koleksiyonundan elde edilmiş olmasıdır. Tez kapsamında, sözdizimsel belirsizlik giderme işini gerçekleştirmek amacıyla, sözdizimsel çözümleyici, Morfolog adlı biçimbilimsel çözümleyici ve TrLex adlı sözlükçe gibi özgün altyapı ögeleri tasarlanmış ve bunları eşgüdümlü biçimde yöneten TMoST adlı bir dizge oluşturulmuştur. Ayrıca öbek yapı dilbilgisine dayanan yeni bir tümce çözümleme gösterimi önerilmiş ve bu gösterimde biçimbilimsel ve sözdizimsel yapıları birlikte işleyebilmeyi sağlayan ve dizimbirim adı verilen yeni bir kavram tanıtılmıştır. Çalışmada, bazıları özgün olan 24 olasılık modeli kullanılmıştır. Modellerin problem üzerindeki başarımını ölçmeye imkân veren AUT adlı bir ağaç yapılı derlem üretilmiştir. Alanyazında sözdizimsel belirsizlik giderme için başarım, en uygun ağacın sıralamada bulunduğu konum ile veya birinci sıradaki ağacın en uygun ağaca olan benzerliği ile ölçülmektedir. Tezde iki yeni başarım ölçüsü daha önerilmiş ve bağıntı adı verilen ölçünün daha kararlı olduğu değerlendirilmiştir. Olasılık modelleri tek başına kullanıldığında en iyi başarım, üçlü biçimbirim dil modeliyle elde edilmiştir. Modeller birleştirildiğinde ulaşılan en iyi bağıntı değeri ise yaklaşık 0,41 olmuştur.
In natural languages, a sentence can be represented by more than one syntax tree, each one corresponding to different structural interpretations. This is called syntactic ambiguity. To put it simply, in syntactic disambiguation, the syntactic trees obtained from the sentence are ranked from the most appropriate to the least appropriate based on the context. In this dissertation, the problem of syntactic disambiguation is addressed for Turkish and a solution based on an unsupervised method is proposed. The reason for naming the proposed method as unsupervised is that the probability models used for sorting syntax trees are derived from an unannotated text collection. Within the scope of the dissertation, in order to realize the syntactic disambiguation process, novel infrastructure items including a syntactic parser, a morphologic analyzer called Morfolog, a lexicon called TrLex are designed and a system named TMoST that manages them in a coordinated manner is constituted. Besides, a new sentence representation based on phrase structure grammar is proposed and a new concept called syntheme, which allows morphological and syntactic structures to work together, is introduced. In the study, 24 probabilistic models, some of which are novel, are used. In order to measure the performance of the models over the problem, a treebank called AUT is constituted as well. In the literature, the performance for syntactic disambiguation is commonly measured by the position of the best tree in the ranking or by the similarity of the first tree to the best one. In the dissertation, two new performance measures are proposed and it is revealed that the measure called correlation is more stable. When the probabilistic models are used individiually, the best performance is obtained with the morpheme trigram language model. When the models are combined, the best correlation value is achieved as 0.41 approximately.