Tez No İndirme Tez Künye Durumu
694541
Automatic disambiguation of turkish discourse connectives based on a Turkish connective lexicon / Türkçe söylem bağlaçlarının Türkçe bağlaç sözlüğüne dayalı olarak ayrıştırılması
Yazar:KEZBAN BAŞIBÜYÜK
Danışman: PROF. DR. ALİ HİKMET DOĞRU ; PROF. DR. DENİZ ZEYREK BOZŞAHİN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2021
170 s.
Bu tezde, verilen herhangi bir Türkçe metindeki açık söylem bağlaçlarının kullanım ve anlam belirsizliğini çözmek için yöntemler geliştirdik. Bu amaçla, öncelikle Türkçe'deki tüm bağlaç türlerini sözdizimsel ve anlamsal özellikleriyle birlikte içeren kapsamlı bir Türkçe Bağlaç Sözlüğü (TCL) oluşturduk. Bu sözlük, söylem açısından işaretlenmiş çeşitli Türkçe derlemlerindeki söylem bağıntıları kullanılarak otomatik olarak oluşturulmuştur ve Almanca bağlaç sözlüğü olan DiMLex'in formatını kullanmaktadır. Türkçe'de ilgeçler, yana sıralama bağlaçları ve zarflar (tek ya da birden fazla sözcük içeren yapılar) söylem bağlacı rolü üstlenebildiği gibi, ulaçlar da söylem bağlacı görevi yapmaktadır. Tek ya da birden fazla sözcük içeren bağlaç yapıları ve ulaç türündeki bağlaçların kullanım belirsizliğini çözmek için kural tabanlı bir Türkçe Bağlaç Ayırıcı (TCD) geliştirdik. Ardından, bağlaçların hem kullanım belirsizliğini hem de anlam belirsizliğini çözmek için çeşitli makine öğrenmesi modelleri tasarladık. TED-Multilingual Discourse Bank derleminin Türkçe bölümündeki ve Türkçe Söylem Bankası (versiyon 1.1) derlemindeki, insan eliyle hazırlanmış söylem işaretlemeleri ile TCD ve makine öğrenmesi modellerinin sonuçlarını karşılaştırarak bir değerlendirme yaptık. Her iki yaklaşım da oldukça iyi sonuçlar vermekle birlikte, makine öğrenmesi yaklaşımının kural tabanlı yaklaşımdan daha iyi performans gösterdiğini gözlemledik. Bu tez kapsamında TCL ve TCD programları için kullanıcı dostu arayüzler geliştirdik. TCL programı hem Türkçe'deki söylem bağlaçlarını özellikleriyle birlikte listeler hem de çeşitli filtreleme ve analiz yetenekleri sunar. TCD programı ise seçilen bir serbest Türkçe metni arayüzüne yükler ve metindeki bağlaçların söylem ve söylem dışı kullanımlarını işaretler. Ek olarak, seçilen metin dosyası için hazırlanmış bir söylem işaretleme dosyası varsa, program ayrıştırma sonuçlarını otomatik olarak değerlendirir. Bu tez, Türkçe bağlaçların ve ulaçların söylem ve söylem dışı kullanım belirsizliğinin çözümüne önemli katkılar sağlayarak Türkçe söylem işlemlemesine katkı sağlarken, bildiğimiz kadarıyla, özellikle ulaç türündeki bağlaçların kullanım belirsizliğini çözmeye yönelik ilk denemedir. Tez, aynı zamanda Türkçe'deki her türlü söylem bağlacınının anlam belirsizliğini çözmede bir ilktir. Bu bakımdan tezdeki çalışmaların Türkçe söylem işlemleme alanındaki araştırmacılara bir referans noktası sağlayacağı ve yeni araştırma fırsatları yaratacağı öngörülmektedir.
In this thesis, we developed methods for disambiguating the discourse usage and sense of connectives in a given free Turkish text. For this purpose, we firstly built a comprehensive Turkish Connective Lexicon (TCL) including all types of connectives in Turkish together with their syntactic and semantic features. This lexicon is built automatically by using the discourse relation annotations in several discourse annotated corpora developed for Turkish and follows the format of the German connective lexicon, DiMLex. As in many other languages, Turkish has lexical connectives (referred to as single and phrasal connectives in this work), and it also includes suffixal connectives. We developed a rule-based Turkish Connective Disambiguator (TCD) in order to solve the usage ambiguity of single, phrasal and suffixal connective types. Then, we designed machine learning models to disambiguate the discourse usage and sense of connectives. We evaluated the TCD and the machine learning models by comparing their results with the human annotations in the Turkish section of the TED-Multilingual Discourse Bank and Turkish Discourse Bank 1.1. We observed that the machine learning approach outperforms the baseline rule-based approach although both approaches yield quite good results. Within the scope of this thesis, we developed user-friendly interfaces for the TCL and TCD programs. The TCL program lists the discourse connectives in Turkish with their features and it presents several filtering and analysis capabilities. The TCD program, on the other hand, loads the selected free Turkish text to its interface and marks the discourse and non-discourse occurrences of connectives in the text. Additionally, if the selected file has a corresponding annotation file, the program automatically evaluates the disambiguation results. This thesis makes important contributions to Turkish discourse parsing by solving the usage ambiguity of the single and phrasal connectives as well as the suffixal connectives, which, to the best of our knowledge, has been attempted for the first time in this thesis. This thesis is also the first attempt to disambiguate the sense of all types of discourse connectives in Turkish. In this respect, it is predicted that the thesis would set baselines for future Turkish connective disambiguation works and pave the road for future researchers in the Turkish discourse parsing field.