Tez No İndirme Tez Künye Durumu
761153
Deep learning-based dependency parsing for Turkish / Derin öğrenme tabanlı Türkçe bağlılık ayrıştırması
Yazar:ŞAZİYE BETÜL ÖZATEŞ
Danışman: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN ; PROF. DR. TUNGA GÜNGÖR
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2022
184 s.
Bağlılık ayrıştırma, otomatik soru cevaplama ve makine çevirisi gibi birçok doğal dil işleme (DDİ) sistemi için önemli bir adımdır. Zengin morfolojisi ve karmaşık gramer yapısıyla Türkçe dili otomatik işlenmesi oldukça zor bir dildir. Türkçe DDİ araçlarının ve kaynaklarının kısıtlı olması bu işi daha da zorlaştırmaktadır. Veri güdümlü derin öğrenme modelleri, bağlılık ayrıştırma alanında etkili performans göstermektedir. Veri güdümlü bir bağlılık ayrıştırıcıyı eğitmek için gereken verinin miktarı ayrıştırıcının performansını doğrudan etkilemektedir. Ayrıca, derin öğrenme tabanlı sistemlerin yüksek başarı göstermesi için büyük miktarlarda veriye ihtiyaç duyduğu gözlemlenmiştir. Bu tezde, Türkçe bağlılık ayrıştırmadaki zorlukların üstesinden gelmek için iki tip çözüm önerdik. İlk olarak, Türkçe metinleri ayrıştırmak için gereken veri miktarını ve kalitesini artırdık. Bu bağlamda, 9.761 yeni cümleyi manuel olarak etiketleyerek BOUN ağaç yapılı derlemini oluşturduk. Aynı etiketleme şemasıyla IMST ve PUD ağaç yapılı derlemlerini de yeniden etiketledik. Bu sayede Türkçe için dil bilgisi kurallarına göre tutarlı en büyük ağaç yapılı derlem koleksiyonunu kullanıma sunduk. İkinci olarak, Türkçe ve diğer az kaynaklı diller için özgün ve son teknoloji bağlılık ayrıştırıcılar geliştirdik. Önce, Türkçe dil bilgisi kurallarının ve kelimelerin morfolojik özelliklerinin derin öğrenme modeline entegre edildiği bir hibrit bağlılık ayrıştırma mimarisi önerdik. Sınırlı eğitim verisine rağmen, hibrit ayrıştırıcıyla Türkçe bağlılık ayrıştırmada mevcut yöntemlerden daha yüksek başarı elde ettik. Ayrıca, yarı denetimli geliştirmeye dayalı bir derin öğrenme tabanlı bağlılık ayrıştırıcı önerdik. Türkçe'nin yanı sıra kaynak yetersizliği olan başka dillerde de deneyler yaparak son teknoloji sonuçlar elde ettik. Derin öğrenme tabanlı modellerin yalnızca fazla miktarda eğitim verisiyle değil, aynı zamanda akıllıca çıkarılan bilgilerin entegrasyonuyla da geliştirilebileceğini gösterdik.
Dependency parsing is an important step for many natural language processing (NLP) systems such as question answering and machine translation. Turkish, being a morphologically rich language and having a complex grammar, is challenging for automatic processing. Limited NLP tools and resources for Turkish make the task even more challenging. Data-driven deep learning models show promising performance in dependency parsing. Yet, the amount of data to train a data-driven dependency parser directly affects performance, and deep learning-based systems require extensive data to achieve good performance. In this thesis, we focused on Turkish dependency parsing and proposed two solutions to the challenges this task poses. First, we increased the size and quality of labeled data for Turkish dependency parsing. In this respect, we created the BOUN Treebank by annotating 9,761 sentences. In addition, we re-annotated the IMST and PUD treebanks using the same annotation scheme. As a result, we presented the largest collection of Turkish treebanks with consistent annotation. Second, we developed novel state-of-the-art dependency parsing models for Turkish as well as other low-resource languages. As our first parsing approach, we introduced a hybrid dependency parser where Turkish grammar rules and morphological features of words are integrated into the deep learning model. Despite the limited training data, the hybrid parser achieved higher success than the current methods for Turkish dependency parsing. As our second parsing approach, we proposed a deep dependency parser with semi-supervised enhancement. By conducting experiments on a number of low-resource languages besides Turkish, we achieved state-of-the-art results on all datasets. We have shown that deep learning-based models can be improved not only by additional training data, but also by integrating intelligently extracted information.