Tez No |
İndirme |
Tez Künye |
Durumu |
797503
|
|
Dizi etiketleme temelli yeni bir karma anahtar kelime çıkarım modeli / A novel sequential labeling based hybrid keyword extraction model
Yazar:HÜMA KILIÇ
Danışman: PROF. DR. AYDIN ÇETİN
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğal dil işleme = Natural language processing ; Yapay zeka = Artificial intelligence
|
Onaylandı
Doktora
Türkçe
2023
94 s.
|
|
Anahtar kelime çıkarımı, metin içeriğinin kümelenmesi ve bağlanmasındaki büyük zorluklardan biridir. Literatürde, anahtar kelime ve anahtar ifade çıkarımı için çeşitli makine öğrenmesi yaklaşımları önerilmiştir. Bu tezde ilk olarak literatürde önerilen modeller ve performans sonuçları iki ana başlık altında sunulmuştur. Ancak, anahtar kelime çıkarımı modellerinin performans sonuçları hala beklentilerin altındadır. Bu tez kapsamında, yeni bir hibrit anahtar kelime çıkarma modeli olan HibritAKÇ önerilmiştir. Önerilen yöntem, anahtar kelime çıkarım problemini bir dizi etiketleme görevi olarak ele almaktadır. Naive Bayes, Destek Vektör Makinesi, Çok Katmanlı Algılayıcı ve Rastgele Orman sınıflandırma algoritmaları, modelin Token Sınıflandırma modülünde ayrı ayrı eğitilmiştir. Modelde metin, grafik, gömme ve küme öznitelikleri kullanılarak Token Sınıflandırma işlemi gerçekleştirilmiştir. Modelin performansı literatürde yaygın olarak kullanılan Inspec, Semeval-2017, 500N-KPCrowd veri kümeleri ve yeni derlenen TRDizinEn ve DergiParkEn veri kümeleri kullanılarak değerlendirilmiştir. Model, tüm veri kümeleri için ortalama 0,664 F1 skoruna ulaşmıştır. En yüksek F1-skor (0,74) TRDizinEn veri seti ile elde edilmiştir.
|
|
Keyword extraction is one of the main problems in clustering and linking textual content. In literature, several machine learning approaches were proposed for keyword and keyphrase extraction. In this thesis, firstly, the models proposed in the literature and their performance results are presented under two main headings. However, the state-of-the-art performance results are still below the expectations. We propose a novel hybrid keyword extraction model, HybridKEM. The proposed method addresses the keyword extraction problem as a sequence labelling task. Naive Bayes, Support Vector Machine, Multi-Layer Perceptron and Random Forest classification algorithms were trained separately in the Token Classification module of the model. The Token Classification process was performed by using text, graphic, embedding, and set features in the model. The performance of the model was evaluated using the Inspec, Semeval-2017, 500N-KPCrowd datasets, which are widely used in studies in the literature, and two newly collected, TRDizinEn and DergiParkEn datasets.
The model achieved an average F1-score of 0.664 for all datasets. The highest F1-score (0.74) was obtained with the TRDizinEn dataset. |