Günümüzde internet hizmetlerinin artmasıyla her geçen gün metinsel veri üssel olarak artış göstermektedir. Bu metinlerin daha anlamlı ve kullanışlı hale gelebilmesi için metinlerin içeriklerine göre sınıflandırılması gerekmektedir. Bu sebeple otomatik metin sınıflandırma yaklaşımları oldukça önem kazanmıştır. Metin sınıflandırma yaklaşımlarının temel görevi metinleri içeriklerine göre sınıflara atamaktır. Metin içerikli dokümanları içeriklerine uygun sınıflara atayabilmek için birçok işlem adımları bulunmaktadır. Bunlar; öznitelik çıkartma, öznitelik seçimi, öznitelik ağırlıklandırma ve sınıflandırma işlemleridir. Metin sınıflandırma başarımını artırabilmek için bu aşamaların her biri ayrı bir öneme sahiptir. Ancak öznitelik seçimi son yıllardaki çalışmalarda daha popüler hale gelmiştir. Bu tez çalışmasında, metin sınıflandırma için kullanılan lokal öznitelik seçim metotları üzerinde farklı globalleştirme (maksimum, toplam, ağırlıklı toplam) teknikleri kullanılarak performans karşılaştırması yapılmış ve literatürde var olan güncel öznitelik seçim metotlarının performansından daha yüksek performansa sahip yeni bir öznitelik seçim metodu önerilmiştir. Bu amaçla farklı karakteristiğe sahip veri kümeleri üzerinde globalleştirme tekniklerinin başarımı nasıl değiştirdiğini gözlemlemiş olduk. Ayrıca, özniteliğin koleksiyon bazlı ve sınıf bazlı skorlarını göz önünde bulundurarak, Ayrıntılı Öznitelik Seçimi (EFS) adında yeni bir öznitelik seçim metodu önerilmiştir.
|
Nowadays, with the increase of internet services, textual data increases exponentially with each passing day. In order to make these texts more meaningful and useful, the texts should be classified according to their content. For this reason, automatic text classification approaches have gained importance. The main task of text classification approaches is to assign texts to classes according to their content. There are many steps to assign text-containing documents to classes suitable for their content. These are feature extraction, feature selection, feature weighting and classification processes. In order to increase the text classification performance, each of these stages has a special importance. However, feature selection has become more popular in recent years. In this thesis, performances were compared using different globalisation techniques (maximum, sum, weighted sum) on local feature selection methods used for text classification and a novel feature selection method with higher performance than the current feature selection methods in the literature are proposed. For this purpose, we have observed how globalisation techniques change performance on datasets with different characteristics. Also, considering the corpus-based and class-based scores of the feature, a new feature selection method is proposed, called Extensive Feature Selector(EFS). |