Günümüzde metinsel verilerin artmasından dolayı bu verilerin işlenmesi ve analizi daha da zorlaşmaktadır. Doğal dil işleme bu soruna çözüm için geliştirilmiş bir alandır, ve duygu analizi, soru cevaplama, spam tespiti gibi birçok konu için uygulanmaktadır. Doğal dildeki soruları yanıtlamayı amaçlayan soru cevaplama, bu tezin ana konusudur. Soru cevaplama için veri seti olarak Stanford Üniversitesi'nin oluşturduğu, çoktan seçmeli değil tek cevabı olan sorulardan oluşan SQuAD kullanılmaktadır. SQuAD için kıyaslama platformu bulunmaktadır, ve bu platform için makine öğrenmesi veya derin öğrenme tabanlı birçok dil modeli kullanılmaktadır. Derin öğrenme tabanlı modellerde, modele yeni bir veri eklenmek istediğinde modelin tekrardan eğitilmesi zaman ve maliyet açısından sorun oluşturmaktadır. Bu sorunlardan dolayı, SQuAD için kullanılan dil modelleri üzerinde bu modellerin başarısını artırabilecek, bu modellerin yeniden eğitime ihtiyaç duymadığı doğal dil-tabanlı ve üçlü-tabanlı olmak üzere iki eklenti önerilmesi amaçlanmaktadır.
İlk eklentide doğal dil işleme yöntemlerinden yararlanan doğal dil-tabanlı bir yöntem önerilmektedir. String işlemleri, Varlık İsmi Tanıma ve Cümle Ögeleri yöntemleri kullanılarak kısaca RNP adında sırasıyla sil ve karşılaştır, Varlık İsmi Tanıma ile arama, Cümle Ögeleri etiketleme ile arama yöntemleri geliştirilmektedir. Bu yöntemlerin kullanılabilmesi için ilk olarak paragraf içinde ilgili cümleyi seçme işlemi gerçekleştirilmektedir. Seçilen cümle üzerinde RNP yöntemleri analiz edilmektedir. Bu analiz tüm veri seti ve BERT dil modellerinin üzerinde uygulanmıştır. Tüm veri seti üzerinde sorular incelendiğinde RNP yöntemleri yaklaşık %19.9 oranında doğru cevapları tespit etmiştir. BERT modellerinin yanlış cevapladığı sorular üzerinde uygulanan analiz sonucunda ise, RNP yöntemleri eklenti olarak BERT modellerinin doğruluk değerini %1.1 ve %2.4 arasında artırmıştır.
Üçlü tabanlı eklentide ise ontoloji yaklaşımından esinlenilmektedir. Bu yöntem ile, ontolojinin özne-yüklem-nesne üçlüsünden yararlanarak üçlü çıkarımı ile cevabın doğru tespit edilmesi amaçlanmaktadır. İlk olarak yine ilgili cümle seçim işlemi soru terimlerine göre gerçekleştirilmektedir. Seçilen cümle üzerinde üçlülerin çıkarılması ile bu üçlüler arasında aday cevap aranmaktadır. Arama işlemi soru terimleri analiz edilerek gerçekleştirilmektedir. Bu eklenti cevabı olan ve olmayan tüm sorular için uygulanmaktadır. BERT, ALBERT, ELECTRA, RoBERTa ve SpanBERT dil modellerinin yanlış yanıtladığı sorular analiz edilmektedir Analizlerin sonucunda, üçlü-tabanlı eklenti, dil modellerinin doğruluk değerini %3.3 ile %7.5 arasında artırmıştır.
Bu eklentiler dil modellerinin yanlış cevapladığı soruları yanıtlayabildiğini ve doğruluk değerini artırabildiğini göstermektedir. Ayrıca amaçlandığı gibi her iki eklentide hiçbir yeniden eğitime ihtiyaç duymamaktadır. Sadece paragraf ve soru girdi olarak her iki eklentiye verildiğinde, soruları dil modelinden ve veri setinden bağımsız olarak analiz edebilmektedir.
|
Nowadays, due to the increase in textual data, the processing and analysis of these data have become more difficult. Natural language processing is a field that has been developed to solve this problem, and has been applied to many topics such as sentiment analysis, question answering, spam detection. Question answering, which aims to answer questions in natural language, is the main topic of this thesis. For question answering, SQuAD, which was created by Stanford University and consisted of single-answer rather than multiple-choice questions, is used as the dataset. There is a benchmarking platform for SQuAD, and many language models based on machine learning or deep learning are used for this platform. In deep learning-based models, retraining the model when new data is wanted to be added to the model creates a problem in terms of time and cost. Because of these problems, it is aimed to propose two extensions, namely natural language-based and triple-based, which can increase the success of these models on the language models used for SQuAD, and these models do not need retraining.
In the first extension, a natural language-based method is proposed by making use of natural language processing methods. By using string operations, Named Entity Recognition and Part of Speech tagging methods, remove&compare, search with Named Entity Recognition and Part of Speech tagging methods, namely RNP, have been developed. In order to use these methods, firstly, the related sentence in the paragraph is selected. RNP methods are analyzed on the selected sentence. This analysis is applied to the whole dataset and BERT language models. When the questions on the whole SQuAD were examined, RNP methods determined the correct answers at a rate of approximately 19.9%. As a result of the analysis applied to the questions that the BERT models answered incorrectly, RNP methods increased the accuracy value of BERT models between 1.1% and 2.4% as an extension.
The triple-based extension is inspired by the ontology approach. This method, it is aimed to determine the answer correctly with triple extraction by making use of the subject-predicate-object triples of ontology. First, the related sentence selection process is performed according to question terms. A candidate answer is sought among these triples by extracting the triples on the selected sentence. The search process is carried out by analyzing the question terms. This extension is implemented for all questions that have an answer and no answer. Questions answered incorrectly by the BERT, ALBERT, ELECTRA, RoBERTa, and SpanBERT language models are analyzed. As a result of the analysis, the triple-based extension increased the accuracy of the language models between 3.3% and 7.5%.
These extensions show that they can answer questions that language models answer incorrectly and increase the accuracy value. Also, both extensions do not need any retraining as intended. Only when the paragraph and question are given to both extensions as input, it can analyze the questions independently of the language model and dataset. |