Tez No İndirme Tez Künye Durumu
751801
Developing a new approach in natural language understanding to detect defective expressions for turkish / Türkçe için doğal dil anlamada anlatım bozukluklarının tespiti için yeni bir yaklaşım geliştirilmesi
Yazar:ATİLLA SUNCAK
Danışman: DR. ÖĞR. ÜYESİ ÖZLEM AKTAŞ
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Anlatım bozuklukları = Expression mistakes ; Derin öğrenme = Deep learning ; Doğal dil işleme = Natural language processing ; Makine öğrenmesi = Machine learning ; Metin sınıflandırma = Text categorization ; Türkçe = Turkish
Onaylandı
Doktora
İngilizce
2022
82 s.
Anlatım bozukluğu, Türkçe cümlelerdeki anlamsal ve biçimsel belirsizlikleri ifade eden dil bilgisel bir terimdir. Genelde cümledeki özne, yüklem, nesne gibi ögelerin gereksiz kullanımından veya hiç kullanılmamasından ya da eklerin yanlış kullanımından kaynaklanırlar. Literatürdeki çeşitli çalışmalar incelendiğinde, bu konu ile alakalı çoğunlukla dilbilimcilerin gerçekleştirdiği öğrenci anketleri ve kompozisyon analizleri ya da araştırmacıların yaptığı manuel analizler ortaya çıkmaktadır. Konu ile alakalı doğal dil işleme çalışmalarının olmaması, bizi bu konuyu bilgisayar teknolojileri kullanarak analiz etmeye yöneltmiştir. Ancak, Türkçe gibi dil bilgisel anlamda zorlu diller, özellikle anlamsal problemlerde kural tabanlı ve dile özgü çözümler gerektirir. Kural tabanlı sistemlerin ise işlem sırasındaki etkinliği, geliştirme sırasındaki zaman tüketimi ve dildeki değişime karşı adaptasyon problemleri gibi büyük engelleri mevcuttur. Makine öğrenmesi modelleri, son yıllarda büyük gelişmeler göstermiştir, bu gelişmeler ise doğal dil işleme uygulamalarında eşi görülmemiş bir performans artışı sağlamıştır. Bu tezde, anlatım bozukluklarının tespitinde derin öğrenme modellerinden LSTM ve CNN; makine öğrenmesi sınıflandırıcılarından da KNN, SVM ve RF modelleri önerilmiştir. Deneysel çalışmalar, derin öğrenme yaklaşımlarının, anlatım bozukluğu tespitinde makine öğrenmesi sınıflandırıcılarına göre daha ön plana çıktığını göstermektedir. Ayrıca bu çalışma, veri seti artırıldığında ve daha uygun hale getirildiği takdirde, uzun dönem bağımlılıklarının da öğrenme kabiliyetine sahip olduğundan LSTM mimarisinin daha iyi sonuçlar verebileceğini yansıtmaktadır. Tezin, bu alanda yapılan orijinal bir çalışma olması, Türkçe doğal dil işlemeye büyük bir katkı sağlayacak ve alanda çalışma yapan diğer araştırmacılara da iyi bir kaynak olacağı düşünülmektedir.
Defective expression is a grammatical term that refers both semantic and morphologic ambiguities in Turkish sentences. They are generally caused by misusing of a suffix in addition to absence or unnecessary use of an element in a sentence such as object, subject and etc. Having analyzed several studies related to this issue, it is found out that they are mostly performed by linguists by means of student questionnaires, tests or manual analysis by researchers. The absence of Natural Language Processing (NLP) studies related to this issue directed us to deal with this subject using computer technologies. However, grammatically demanding languages such as Turkish generally require rule-based and language-specific solutions especially in semantic problems. Rule-based systems have some major obstacles such as efficiency in processing, time consumption while development and intolerance for alteration in language. Machine learning models have made great advances in recent years, which led to unprecedented boost in NLP applications in terms of performance. In this thesis, we propose deep learning models of Long Short-Term Memory (LSTM) and Convolutional Neural Network (CNN) in addition to machine learning classifiers of k-Nearest Neighbor (KNN), Support Vector Machine (SVM) and Random Forest (RF) to detect defective expressions in Turkish sentences. Experimental trials show that deep neural approaches come into prominence for detection in comparison to traditional classifiers. The study also reflects that due to having learning capability of long term dependencies, LSTM architecture will provide more promising results when amount of dataset is increased and more optimized. By being an original study in this field, this study is considered to make a great contribution to Turkish NLP and provides an excellent source for other researchers studying this area.