Tez No İndirme Tez Künye Durumu
599431
Metin sınıflandırma için terim ağırlıklandırma / Term weighting for text classification
Yazar:TURGUT DOĞAN
Danışman: DR. ÖĞR. ÜYESİ ALPER KÜRŞAT UYSAL
Yer Bilgisi: Eskişehir Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Metin sınıflandırma = Text categorization
Onaylandı
Doktora
Türkçe
2019
105 s.
Metin sınıflandırma, metin dokümanlarının etiketleri önceden belirlenmiş sınıflara atanması işlevidir. İnternetin ve teknolojinin gelişimine paralel olarak elektronik ortama aktarılan metin dokümanlarının dramatik bir biçimde artması, söz konusu dokümanların hızlıca erişimi, organize edilmesi ve sınıflandırılması gibi işlevler metin sınıflandırmanın önemini daha da arttırmıştır. Metin sınıflandırmada efektif öznitelik vektör gösterimleri sınıflandırma performanslarını doğrudan etkileyebildiği için, metin içeriklerinden elde edilen özniteliklere (terimlere) uygun ağırlık değerlerinin atanması, önemli araştırma problemlerinden biridir. Literatürde bu araştırma problemine çözüm geliştirmeyi hedefleyen birçok terim ağırlıklandırma şeması önerilmiştir. Bu tez çalışmasında, metin sınıflandırma için terim ağırlıklandırma problemleri ile popüler terim ağırlıklandırma şemalarının sundukları çözümler geniş kapsamlı olarak analiz edilmiş ve ağırlıklandırma problemlerine yönelik olarak çeşitli yeni çözümler önerilmiştir. Bu amaçla, ilk olarak yüksek terim frekansı değerlerinin ve çeşitli terim frekans faktörleri ile bu değerleri indirgemenin mevcut gözetimli terim ağırlıklandırma şemalarının performanslarına etkileri incelenmiştir. Bunun dışında, literatürde son yıllarda önerilmiş olan ters yer çekimi momentine bağlı olarak terim ağırlıklandırma şemasının bazı ekstrem senaryolara sahip terimlerin ayırt edicilik güçlerini daha makul bir biçimde yansıtabilen gelişmiş bir versiyonu önerilmiştir. Son olarak, metin sınıflandırma için, terimlerin geçmedikleri dokümanlardaki dağılım bilgilerini, ayırt ediciliklerini hesaplarken daha efektif bir biçimde kullanabilen; TF-MONO ve SRTF-MONO adında iki yeni ağırlıklandırma şeması önerilmiştir. Üç farklı popüler veri setinde iki farklı sınıflandırıcı kullanılarak, toplamda yedi farklı terim ağırlıklandırma şemasının kıyaslandığı deneylerden elde edilen sonuçlar; özellikle SRTF-MONO terim ağırlıklandırma şemasının diğerlerine nazaran daha başarılı olduğunu göstermiştir.
Text classification is the process of assigning text documents to predefined categories. In parallel with rapid development of the Internet and technology, the volume of text documents which are transferred to electronic media has increased dramatically. Hence the importance of organization and classification of text documents and quick accessing to text documents have increased. Since effective vector representations can directly affect the classification performances in text classification, assigning appropriate weight values to the features extracted from text contents is one of the important research problems. Therefore, many term weighting schemes have been proposed in the literature aiming to develop solutions to this research problem. In this thesis, general term weighting problems for text classification and proposed solutions with popular term weighting schemes are extensively analysed and various new solutions are proposed for weighting problems. For this aim, firstly, the effects of reducing high term frequency values with various term frequency factors on the performance of existing supervised term weighting schemes are investigated. In addition, an improved version of recently proposed term weighting approach based on inverse gravity moment has proposed for text classification. Proposed approach presents more reasonable representations for reflecting the discrimination power of terms on some extreme scenarios. Finally, two new term weighting schemes, namely TF-MONO and SRTF-MONO, are proposed for text classification. Proposed schemes can effectively use the distribution information of documents in which terms do not occur. The classification performances of proposed schemes are compared with five popular term weighting schemes by using two classifiers on the three benchmark datasets. Experiment results showed that SRTF-MONO has more successful classification results than other schemes.