Tez No İndirme Tez Künye Durumu
789887
Akademik makalelerde anahtar kelime çıkarımı için yeni yaklaşımlar / New approaches for keyword extraction in academic articles
Yazar:FURKAN GÖZ
Danışman: DR. ÖĞR. ÜYESİ ALEV MUTLU
Yer Bilgisi: Kocaeli Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2022
111 s.
Anahtar kelimeler, bir metni en iyi tanımlayan kelime ya da kelime öbekleridir. Anahtar kelimeler birçok Doğal Dil İşleme (DDİ) probleminin çözümünde etkin bir şekilde kullanılmaktadır. Çevrim içi metin sayısındaki artışla beraber metinlerden anahtar kelimelerin otomatik olarak elde edilmesi problemi ortaya çıkmıştır. Anahtar kelime çıkarma yöntemleri denetimli ve denetimsiz öğrenme yaklaşımları olmak üzere iki temel sınıfa ayrılmaktadır. Denetimsiz öğrenmeye dayalı yöntemler etki alanından bağımsız olması ve eğitim verisine ihtiyaç duyulmaması açısından öne çıkmaktadır. Denetimli öğrenmeye dayalı yöntemler denetimsiz öğrenmeye dayalı yöntemlere göre daha güçlü bir öğrenme modeli sunar ve genellikle daha yüksek başarıma sahiptir. Bu tez kapsamında anahtar kelime çıkarma probleminin çözümü için üç farklı yöntem önerilmiştir. Geliştirilen ilk yöntemde denetimsiz öğrenmeye dayalı çizge tabanlı bir yaklaşım benimsenmiştir. MGRank olarak adlandırılan bu yöntem çok kenarlı tam çizge model yapısını kullanmaktadır. Çizgede kenar ağırlıkları aday anahtar kelimelerin arasındaki mesafeye, düğüm ağırlıkları aday anahtar kelimelerin metin içerisindeki konumlarına göre belirlenmektedir. SkyWords olarak adlandırılan ikinci yöntem denetimli ve denetimsiz öğrenme modellerini birleştiren hibrit bir anahtar kelime çıkarma yöntemidir. SkyWords, Skyline operatörü ve çoğunluk oylama prensibinden faydalanarak yüksek kalitede aday anahtar kelimelerin belirlenmesini sağlar. SkyWords metin ile aday anahtar kelimelerin arasındaki anlamsal benzerliğe göre anahtar kelimeleri belirler. SkyRank olarak adlandırılan üçüncü yöntem ise denetimsiz öğrenmeye dayalı istatistiksel bir yaklaşıma sahiptir. SkyRank girdi olarak bir metin alır ve Skyline operatörü yardımıyla aday anahtar kelimeleri tespit eder. SkyRank anahtar kelimeleri metne en çok benzeyen aday anahtar kelimelerden seçer. Geliştirilen yöntemler akademik makalelerden oluşturulmuş veri kümeleri ile test edilmiştir. Yöntemlerin başarısı literatürde yer alan çeşitli yöntemlerle karşılaştırılmıştır. Karşılaştırmada kesinlik, duyarlılık, F1-Skor, MRR ve MAP ölçütleri kullanılmıştır. Geliştirilen yöntemlerin diğer yöntemlere göre başarılı olduğu görülmüştür.
Keywords are words or phrases that describe a text. Keywords are used effectively in solving many Natural Language Processing (NLP) problems. With the increasing number of online texts, the problem of automatically extracting keywords from texts has emerged. Keyword extraction methods are divided into two basic classes: supervised and unsupervised learning approaches. Unsupervised learning-based methods are characterized by the fact that they are independent of the domain and do not require training data. Supervised learning-based methods provide a stronger learning model and generally perform better than unsupervised learning-based methods. In this thesis, three different methods were proposed to solve the problem of keyword extraction. In the first method developed, a graph-based approach based on unsupervised learning was adopted. This method, called MGRank, uses a parallel complete graph model structure. In the graph, edge weights are determined according to the distance between candidate keywords, and node weights are determined according to the positions of candidate keywords in the text. The second method, called SkyWords, is a hybrid keyword extraction method that combines supervised and unsupervised learning models. SkyWords uses the Skyline operator and the principle of majority voting to identify high-quality candidate keywords. SkyWords determines keywords based on semantic similarity between text and candidate keywords. The third method, SkyRank, uses a statistical approach based on unsupervised learning. SkyRank takes a text as input and identifies candidate keywords using the Skyline operator. SkyRank selects the keywords that are most similar to the text from the candidate keywords. The developed methods were tested with datasets created from academic articles. The success of the methods was compared with different methods from the literature. Precision, recall, F1-Score, MRR and MAP criteria were used for comparison. The methods were found to be successful compared to other methods.