Tez No İndirme Tez Künye Durumu
270507
Improving text classification performance with the analysis of lexical dependencies and class-based feature selection / Sözcüksel bağımlılıkların ve sınıf bazlı öznitelik seçiminin analizi ile metin sınıflandırma performansında iyileştirme
Yazar:LEVENT ÖZGÜR
Danışman: DOÇ. DR. TUNGA GÜNGÖR
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Metin dil bilim = Text linguistics ; Metin erişim = Text retrieval ; Metin inceleme = Text examination ; Metin sınıflandırma = Text categorization ; Metin örgüsü = Text knitting ; Yapay zeka = Artificial intelligence
Onaylandı
Doktora
İngilizce
2010
117 s.
Bu tezde, metin sınıflandırma problemi için öznitelik çıkarımı ve öznitelik seçimi konuları üzerine çok yönlü çözümlemeler yapılmaktadır. Sınıflandırmanın çözümünde daha küçük boyutta öznitelik çözüm vektörü kullanarak daha başarılı sonuçlara ulaşmak hedeflenmiştir. Öznitelik çıkarımı konusunda, 36 değişik sözcüksel bağımlılık incelenmiş ve geleneksel sözcük-torbası dizisine en uygun halde eklenmiştir. Öznitelik seçimi ise iki aşamalıdır. İlk aşamada budama uygulaması yapılmış ve veri kümesi özelliklerine ve öznitelik çeşitlerine (sözcük, bağımlılık ve bağımlılık bileşenleri) göre en uygun budama düzeyleri bulunmuştur. İkinci adımda veri kümesi tabanlı ve sınıf tabanlı öznitelik seçimi yaklaşımları karşılaştırılmış; sonrasında budama işlemi, en başarılı olduğu tespit edilen sınıf tabanlı öznitelik seçimi ile geliştirilmiştir. Tezin son deneyinde; en başarılı bağımlılık tipleri, iki aşamalı öznitelik seçimi ile beraber kullanılmaktadır.Başarı değerlendirmesi için, metin sınıflandırma problemlerinde kullanımı herkesçe kabul edilen iki ölçüm ve ek olarak üç değişik önemlilik testi uygulanmaktadır. Belirtilen değerlendirme ölçütlerine göre, önerilen her yeni yöntem, başarıyı önemli ölçüde arttırmaktadır. Bu duruma paralel olarak; sözcüksel bağımlılıkların en uygun kullanımını, iki aşamalı öznitelik seçiminin en başarılı düzeniyle birleştirdiğimiz son deney, genel olarak en başarılı sonucu vermektedir. Bu çalışma, bilgimiz dahilinde, metin sınıflandırmada ve genelde metin temelli problemlerde sözcüksel bağımlılıkların ve iki aşamalı öznitelik seçiminin çözümlemesi ve eniyilenmesi ile ilgili ilk detaylı çalışmadır.
In this thesis, we present a comprehensive analysis of the feature extraction and feature selection techniques for the text classification problem in order to achieve more successful results using much smaller feature vector sizes. For feature extraction, 36 different lexical dependencies are included and analyzed independently in the feature vector as an extension to the standard bag-of-words approach. Feature selection analysis is twofold. In the first stage, pruning implementation is analyzed and optimal pruning levels are extracted with respect to dataset properties and feature variations (words, dependencies, combination of the leading dependencies). In the second stage, we compare the performance of corpus-based and class-based approaches for feature selection coverage and then, extend pruning implementation by the optimized class-based feature selection. For the final and most advanced test, we serialize the optimal use of the leading dependencies for each experimented dataset with the two stage (corpus and class-based) feature selection approach.For performance evaluation, we use the state-of-the-art measures for text classification problems: two different success score metrics and three different significance tests. With respect to these measures, the results reveal that for each extension in the methods, a corresponding significant improvement is obtained. The most advanced method combining the leading dependencies with optimal pruning levels and optimal number of class-based features mostly outperform the other methods in terms of success rates with reasonable feature sizes. To the best of our knowledge, this is the first study that makes such a detailed analysis on extracting individual dependencies and employing feature selection with two stage selection approach in text classification and more generally in text domain.