Tez No İndirme Tez Künye Durumu
797484
Makine öğrenmesiyle kazak dilinde yeni bir topluluk anahtar kelime çıkarım modeli / A novel ensemble keyword extraction model in the kazakh language with machine learning
Yazar:AIMAN ABIBULLAYEVA
Danışman: PROF. DR. AYDIN ÇETİN
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2023
104 s.
Anahtar kelime çıkarımı; otomatik dizin oluşturma, özetleme, sınıflandırma, kümeleme ve otomatik filtreleme gibi birçok uygulama için çözülmesi gereken temel problemlerden biridir. Diğer dillerin yanı sıra, Kazakça'da internet üzerinden bilgiler her geçen gün muazzam bir şekilde artmaktadır. Büyük miktarda metni veya makaleyi işlemek için otomatik bir anahtar kelime çıkarımı sistemi büyük talep görmektedir. Bu tez çalışmasında Kazak haber sayfalarından anahtar kelime çıkarımı için yeni bir model önerilmektedir. Topluluk Token Sınıflandırma modülünde Rastgele Orman (Random Forest), Aşırı Gradyan Artırma (XgBoost), Oylama Sınıflandırması (Voting Classification) topluluk algoritmaları ve Karar Ağacı (Decision Tree) algoritması ayrı ayrı eğitilmiş ve test edilmiştir. Önerilen yöntem, anahtar kelime çıkarımı problemini bir dizi etiketleme problemi olarak çözüyor. Önerilen modelin eğitilmesi ve test edilmesi için Kazak ve Rusça haber sayfalarından veri setleri derlenmiştir. Bu veri kümeleri üzerinde istatistiksel ve grafik öznitelikler kullanılarak yeni Topluluk Anahtar Kelime Çıkarımı (T-AKÇ) modeli önerilmiştir. Modelin başarımını ölçmek için literatürde yaygın olarak kullanılan İngilizce dilinde haber içeriklerinden oluşan 500N-KPCrowd veri kümesi için sonuçlar alınmış ve yeni derlenmiş veri kümelerinden alınan sonuçlarla karşılaştırılmıştır. Önerilen model ile, 500N-KPCrowd ve Rus veri kümelerinde sırasıyla 0,71 ve 0,86 F1 skoru elde edilmiştir. Kazak veri kümesi için 0,97 en iyi F1 skoru ile literatürdeki en yüksek sonuca ulaşılmıştır.
Keyword extraction is one of the main problems to be solved for many text mining applications such as automatic indexing, summarization, classification, clustering and automatic filtering. The text data on the Internet in Kazakh is increasing gradually like the other languages daily. Automated keyword extraction is essential when dealing with large amounts of text or articles. In this thesis, a new ensemble model for keyword extraction from Kazakh news pages is proposed. The Ensemble Token Classification module, Random Forest, XgBoost, Voting Classification ensemble algorithms and Decision Tree algorithm are trained and tested separately. The proposed method solves the keyword extraction problem as a sequence labelling problem. Datasets from Kazakh and Russian news were compiled to train and test the proposed model. A new Ensemble Keyword Extraction Model (EnsembleKEM) was proposed using graphical and statistical features for these datasets. To measure the performance of the model, the results for the 500N-KPCrowd dataset, which consists of news content in English widely used in the literature, were used and compared with the results for the newly compiled datasets. Using the proposed model, F1 skors of 0,71 and 0,86 were obtained in the 500N-KPCrowd and Russian datasets, respectively. The highest result in the literature was obtained with the best F1 skor of 0,97 for the Kazakh dataset.