Kısa metin sınıflandırmada yüksek boyutluluk problemi sınıflandırıcıların işlem maliyetini ve performansını etkilediği için önemli bir yer tutmaktadır. Ayrıca kısa metinlerin seyrek, eksik ve tutarsız yapıda olmaları yüksek boyutluluk yanında uğraşılması gereken başka bir konudur. Tüm öznitelik uzayını en iyi temsil edecek alt öznitelik uzayını seçmek, yüksek boyutluluk problemine sunulan en etkili çözüm yollarından biridir. Bu yüzden bu alanda seyreklik probleminden en az etkilenecek ve etkili öznitelik seçecek yaklaşımlara ihtiyaç vardır. Bu amaç doğrultusunda kısa metin alanında etkili çalışacak iki öznitelik seçme yaklaşımı bu çalışmada sunulmuştur. Bu yaklaşımlardan ilki Orantılı Öznitelik Seçme (Proportional Rough Feature Selector-PRFS) adı verilen kaba kümeler tabanlı yaklaşımdır. PRFS yaklaşımı kaba kümeler yardımı ile terimlerin/özniteliklerin değer kümesine göre dokümanları belirli bölgelere ayırır. Bu bölgesel ayırma ile bir dokümanın bir sınıfa kesin ait olması veya ait olma olasılığında olduğu belirlenebilir. Ayrıca bir sınıfa ait olma olasılığında olma durumundaki dokümanlara bir ceza uygulamak için α adında bir katsayı ve terim vektör uzayındaki seyrekliğin etkisi hesaplanmıştır. Daha sonra PRFS metodu en iyi ve en çok bilinen öznitelik seçim yaklaşımlarından Gini katsayısı, bilgi kazanımı, ayırt edici öznitelik seçici ve son zamanlarda önerilmiş yöntemlerden max-min oranı ve normalleştirilmiş fark ölçüsü ile dört kısa metin veri kümesi üzerinde farklı öznitelik boyutlarında Makro-F1 sonuçlarının kıyaslanması yapılarak test edilmiştir. Deneysel sonuçlar, PRFS'nin Makro-F1 açısından diğer öznitelik seçim yöntemlerine göre daha iyi veya rekabetçi performans sunduğunu göstermiştir. Bu çalışma, kaba küme teorisi kullanılarak kısa metin sınıflandırması için yeni bir filtre öznitelik seçme yöntemi önerdiğinden, bu araştırma alanında öncü bir çalışma olabilir.
İkinci yaklaşım XY metot olarak tanıtılan yaklaşımdır. Bu yaklaşım, tüm ikili sınıf kombinasyonları için terimleri dokuman frekansına göre ikili koordinat düzleminde düşünür. Daha sonra terimin XY doğrusuna olan uzaklığı hesaplanır. Ayrıca λ gibi bir değer hesaplanır ve bu değere göre terimler pozitif, negatif ve üçüncü bölge diye farklı bölgelere ayrılır. XY metodunun amacı olabildiğince negatif bölgeden az terim seçmektir. Bu metot da çok iyi bilinen ki-kare, bilgi kazanımı, Poisson dağılımından sapma yaklaşımları ve son zamanlarda önerilmiş max-min oranı ve ayırt edici öznitelik seçici yaklaşımları ile dört farklı kısa metin verisi üzerinde farklı öznitelik boyutları için Makro-F1 sonuçları test edilmiştir. Deneysel sonuçlar, XY metodunun Makro-F1 açısından diğer öznitelik seçim yöntemlerine göre daha iyi veya rekabetçi performans sunduğunu göstermiştir.
|
High dimensionality problem is an important concern for short text classification due to its effect on computational cost and accuracy of classifiers. Also, short text data, besides being high dimensional, has an incomplete, inconsistent and sparse structure. Selection of important features that provides a better representation is a solution for high dimensionality problem. However, it is a fact that in feature selection process, short texts need feature selection approaches that will be least affected by the sparse problem. In this study, two feature selection approaches that will work effectively in the short text field are presented for this purpose. Firstly, we developed a novel filter feature selection method called Proportional Rough Feature Selector (PRFS) which uses the rough set for a regional distinction according to the value set of term to identify documents that to be exact belong to a class and have a possibility for belonging to a class. Documents which are possible to belong to a class are penalized by multiplying with a coefficient named α. Additionally, the effect of sparsity in the term vector space is calculated with the help of rough set. The PRFS is compared with state-of-the-art filter feature selection methods such as Gini index, information gain, distinguishing feature selector, recently proposed max-min ratio and normalized difference measure methods. The comparison is carried out using various feature sizes on four different short text datasets with Macro-F1 success measure. Experimental results demonstrated that the PRFS offers either better or competitive performance with respect to other feature selection methods in term of Macro-F1. This study may be a pioneering study in this research field as it proposes a novel feature selection method for short text classification using rough set theory.
Secondly, this study presents a new filter feature selection method called XY method which represents the features on XY line and calculates the distance of a feature to the XY line. Also, a value like λ is calculated. According to this value, the terms are divided into different regions such as negative, positive, and third. The XY method aims to select as few terms as possible in the negative region. The XY method is compared with well-known filter feature selection methods such as chi-square, information gain, deviation from Poisson distribution, recently proposed max-min ratio, and distinguishing feature selector methods. The comparison is carried out using various feature sizes in order to make a fair evaluation on four different short text datasets with Macro-F1 success measure. Experimental results demonstrate that the XY method offers either better or competitive performance with respect to other feature selection methods in term of Macro-F1. |