Bilişim dünyasında yüksek hızda yaşanan gelişmeler ve internet kullanımının çok yaygın hale gelmesi ile birlikte, dijital platformlarda üretilen verinin çeşitliliği ve miktarı artmıştır. Üretilen bu büyük verinin çoğunluğu metinlerden oluşan içeriklerdir. Ancak her geçen gün artan metin verilerini geleneksel yöntemlerle işlemek zor bir problem haline gelmiştir. Bu nedenle büyük veri teknolojileri ve özellikle büyük veriler üzerinde oldukça başarılı performans gösteren derin sinir ağları ve sinir ağı temelli kelime temsil yöntemleri geliştirilmiştir.
Bu tez çalışmasında kelime temsil yöntemleri, büyük veri teknolojileri ile birlikte kullanılmış derin öğrenme mimarileri üzerinde detaylı analizler yapılmıştır. Yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe çalışmaların sayısının yeterli olmadığı görülmüştür. Bu nedenle çalışmanın hedef dili olarak Türkçe tercih edilmiş bununla birlikte tez çalışmasında üç uygulama geliştirilmiştir ve iki özgün yöntem önerilmiştir. İlk uygulamada çalışmaların yapılacağı ortamı belirlemek için büyük veri uygulaması yapılmıştır. İkinci uygulamada metin işleme öncesinde önişleme çalışmaları yapılmıştır. Bu kapsamda TF (Term Frequency) - IDF (Inverse Document Frequency) yöntemi ile ilk kez Türkçe için stopwords listesi oluşturulmuştur. Üçüncü uygulamada ise oldukça büyük Türkçe etiketsiz verilerden oluşan bir veri seti (Dataset-1) üretilmiştir. Bu veri seti üzerinde kelime temsil yöntemleri kullanılarak kelime vektörleri eğitilmiş ve farklı kelime temsil yöntemlerinin başarımları kıyaslanmıştır. Üçüncü uygulama için de yaklaşık 1,5 milyon veri ve 10 sınıftan oluşan ikinci bir Türkçe veri seti (Dataset-2) üretilmiştir. Bu veri seti üzerinde, kelime vektörleri, önceden eğitilmiş kelime vektörleri olarak transfer öğrenme yöntemi ile farklı derin öğrenme mimarileri üzerinde metin sınıflandırma problemi için kullanıldığı bir yöntem önerilmiştir. Önerilen bu yöntem ile hemen hemen tüm modeller üzerinde mevcut başarım değerleri %5-%7 arasında geliştirilmiştir. İkinci yöntem olarak sözlük yöntemi adı verilen yeni bir yöntem önerilmiştir. Türkçe için hali hazırda geliştirilmiş bir yazım denetleyicisi olmadığı için bu yöntem ile Dataset-2 üzerindeki yanlış yazılmış kelimeler tespit edilmiş ve bir derin öğrenme modeli olan LSTM (Long Short Term Memory) ile bu kelimelerin yerine doğru kelimeler tespit edilmeye çalışılmıştır. Uygulama sonucunda elde edilen sınıflandırma başarımı analiz edildiğinde yaklaşık 55.000 hatalı kelimenin doğru kelime ile değiştirildiği ve başarım değerinin %8.68 geliştirildiği görülmüştür.
Bu tez çalışmasıyla birlikte Türkçe metin işleme çalışmalarına katkı sağlamak amacıyla iki adet büyük Türkçe veri seti üretilmiştir. Ayrıca bu veri setleri üzerinde şimdiye kadar eğitilmiş en büyük Türkçe kelime vektörleri üretilerek araştırmacıların kullanımına açık halde paylaşılmıştır.
|
With the high-speed developments in the IT world and the widespread use of the Internet, the diversity and amount of data produced on digital platforms has increased. The majority of this big data generated is textual content. However, it has become a difficult problem to process the increasing text data with traditional methods. For this reason, deep neural networks and neural network-based word embedding methods have been developed that perform highly successfully on big data technologies and especially big data.
In this thesis, detailed analysis has been made on deep learning architectures used word embedding methods with big data technologies. When the studies were examined, it was seen that there were many natural language specific studies, especially English, but the number of Turkish studies was not sufficient. Therefore, Turkish was chosen as the target language of the study. However, three applications were developed in the thesis and two novel methods were proposed. In the first application, a big data application was made to determine the platform in which the studies would be conducted. In the second application, preprocessing studies were performed before text processing. In this context, the stopwords list for Turkish was generated for the first time by TF (Term Frequency) - IDF (Inverse Document Frequency) method. In the third application, a dataset (Dataset-1) consisting of very large Turkish unlabeled data has been generated. Word vectors were trained on this dataset using word embedding methods and the performances of different word embedding methods were compared. For the third application, a second Turkish dataset (Dataset-2) consisting of approximately 1,5 million data and 10 classes were generated. A method has been proposed on this data set where word vectors are used for the problem of text classification on different deep learning architectures with the transfer learning method as pre-trained word vectors. With this proposed method, current performance values on almost all models have been improved between 5-7%. As a second method, a new method called the dictionary method has been proposed. Since there is no spelling checker developed for Turkish, the misspelled words on Dataset-2 have been identified and LSTM (Long Short Term Memory), which is a deep learning model, has tried to identify the correct words instead. When the classification performance obtained as a result of the analysis was analyzed, it was seen that approximately 55.000 incorrect words were replaced with the correct words and the performance value was improved by 8.68%.
With this thesis, two large Turkish datasets were generated in order to contribute to Turkish text processing. In addition, the largest Turkish word vectors ever trained on these datasets were generated and shared open to researchers. |