Metin sınıflandırma, belgelerin otomatik organizasyonu için artan talepten ötürü hem akademik hem de ticari platformlarda önemli bir rol oynamaktadır. Destek Vektör Makineleri (SVM) gibi çekirdek temelli sınıflandırma algoritmaları metin madenciliği görevinde son derece popüler hale gelmişlerdir. Bu durum esas olarak SVM'in çeşitli uygulama alanları üzerindeki nispeten yüksek sınıflandırma doğruluğunun yanı sıra yüksek boyutlu ve seyrek veriyi işlemeyebilme yeteneklerinden de kaynaklanmaktadır. Son zamanlarda, metin sınıflandırmasında ontolojiler ve derlem temelli istatistiki bilgi gibi arka plan bilgi birikiminden yararlanmaya yönelik artan bir ilgi söz konusudur. Doğrusal çekirdek gibi standart çekirdek fonksiyonları yerine bu arka plan bilgisinin avantajlarından faydalanan özelleştirilmiş çekirdek fonksiyonlarını kullanarak SVM'in metin sınıflandırma alanındaki performansını arttırmanın mümkün olduğu gösterilmiştir. Buna dayanarak, SVM için eğiticili ve yarı-eğiticili anlambilimsel düzeltme çekirdeklerinde, daha yüksek mertebeden yolların, terimlerin sınıf temelli anlamsal değerlerinin ve sınıf temelli ağırlık değerlerinin yeteneklerini keşfetmek amacıyla çeşitli yöntemler geliştirilmiştir.
Bu çalışamda Yüksek Mertebeden Anlambilimsel Çekirdek (HOSK), Özyineli Yüksek Mertebeden Anlambilimsel Çekirdek (IHOSK) ve Yüksek Dereceden Terim Çekirdeği (HOTK) gibi dolaylı anlambilimsel ilişkileri çıkartan ve kullanan derlem temelli çeşitli anlambilimsel çekirdekler önerilmiştir. HOSK terimlerin belgeler arasındaki yüksek mertebeden yolları kullanır. HOSK'ta belgelerin özellik vektörleri arasındaki basit iç çarpım sonucunda birinci dereceden bir matris (F) elde edilir.HOSK belgeler, bu özellik vektörleri arasında basit nokta ürünün birinci dereceden bir matris (F) elde edilir. İkinci dereceden eş-oluşum matrisi (S), F'nin kendisi ile çarpılması sonucu oluşturulur. S, HOSK'un giriş uzayından özellik uzayına dönüşümündeki çekirdek matrisi olarak kullanılmaktadır. Deneysel sonuçlar HOSK'un doğrusal çekirdek üzerinde doğruluk açısından bir iyileştirme sağladığını göstermektedir. HOSK'un daha gelişmiş bir modeli de belgeler ve terimler arasındaki yüksek dereceli yolları yinelemeli bir şekilde kullanan IHOSK'tur. Belgeler ve terimler arasındaki anlambilimsel ilişki; belgeler arasındaki benzerlik matrisini terimler arasındaki benzerlik matrisini kullanarak ve terimler arasındaki benzerlik matrisini de belgeler arasındaki benzerlik matrisini kullanarak hesaplayan ve χ-Sim olarak adlandırılan özyineli bir teknikten uyarlanmıştır. Belge benzerlik matrisi, SR (belgeler arası benzerlik matrisi) ve SC (terimler arası benzerlik matrisi) kullanılarak özyineli bir şekilde üretilir. Deney sonuçları sınıflandırma performansının doğrusal çekirdeğe kıyasla daha da arttığını göstermektedir. Bir sonraki çalışmamızda, daha az karmaşıklıkta yüksek-mertebeli çekirdekler düşünülmüştür; HOTK sadece terimler arasındaki yüksek-mertebeli yollara bağlıdır.HOTK'deki anlambilimsel çekirdek dönüşümü sadece eğitim kümesindeki terimler arası yüksek-mertebeli eş-oluşumlar kullanılarak yapılır. HOTK, IHOSK'dan daha basittir ve aynı zamanda daha az hesaplama kaynakları gerektirir.
Bu çalışmada, SVM için anlambilimsel çekirdek inşa eden CMK olarak adlandırılan yeni bir yaklaşım önerilmektedir. CMK'yı başlangıçtaki etiketsiz veriyi etiketlendiren yeni bir yöntem eklentisi ile yarı-eğiticili öğrenmeye uyguladık ve bunu ILBOM olarak adlandırdık. Önerilen yaklaşımlar bir belge içindeki BOW ile temsil edilen terimlerin ağırlıklarını, terimlerin sınıf temelli anlamsal değerlerini kullanarak düzeltmektedir. Bu da sınıflar üzerinde ayırt ediciliği olmayan genel amaçlı kullanılan terimlerin önemini azaltırken, önemli ya da başka bir deyişle anlamlı terimlerin önemini artırmaktadır. Bu yaklaşımlar, eşanlamlı terimler ya da sınıfla yakından ilgili terimler gibi sınıfa özgü kavramların önemini arttırarak BOW'un dezavantajlarını azaltmaktadır. Terimlerin sınıflar bağlamındaki anlamsal değerleri Gestalt teoriden Helmholtz esasına göre hesaplanmaktadır. Deneysel sonuçlarımız CMK ve ILBOM'un doğrusal çekirdekten daha üstün bir sınıflandırma keskinliği sağladığını göstermektedir.
Ayrıca Sınıf Ağırlıklı Çekirdek (CWK) olarak adlandırılan başka bir yaklaşım da bu çalışmada önerilmiştir. Bu yöntem CMK'ya benzemektedir ancak; CWK özellikle hesaplama zamanı konusunda bir gelişme sağlamaktadır. Temelde bu sınıf temelli ağırlıklandırma her sınıf için terimleri önemlilik durumlarına göre gruplandırır. Bu nedenle bu sınıf temelli ağırlıklandırma belgelerin gösterimini düzeltir ki, bu da terimler arasına sınıf temelli bağımlılıklar getirerek vektör uzayı modelinin dikliğini değiştirir. Sonuç olarak, istisnai durumlarda, hiç ortak terim içermedikleri halde eğer belirli bir sınıf için benzer şekilde ağırlıklandırılmış iki belge benzer görülebilir.
Bu tezin temel katkısı standart çekirdeklerden çok daha iyi sınıflandırma doğruluğu sergileyebilen çözümler geliştirilmesi olarak düşünülebilir. Önerilen yaklaşımların ikinci katkısı bu modellerin WordNet gibi dış anlambilimsel kaynaklardan bağımsız olmaları ve bu sebepten ötürü herhangi bir dile uygulanabilir olmalarıdır. Bizim yöntemlerimizin diğer bir katkısı da eğiticisiz anlambilimsel benzerlik ölçümleri gibi diğer terim temelli anlambilimsel benzerlik yöntemleri ile kolayca kombine edilebilir bir yapıya temel oluşturmalarıdır.
Yöntemlerimizin özellikle sınıf bazlı yöntemlerimizi başka bir avantajı da, bunların yürütüm süresi ile ilgilidir. Bizim bilgimize göre, yüksek dereceli yollar ve terimlerin sınıf temelli değerleri SVM'in dönüşüm aşamasında ilk kez kullanılmaktadır ve metin sınıflandırma için bir çekirdekte terimlerin anlambilimsel olarak düzeltilmesi üzerine önemli bir bakış açısı kazandırabilir.
|
Text categorization plays a crucial role in both academic and commercial platforms due to the growing demand for automatic organization of documents. Kernel-based classification algorithms such as Support Vector Machines (SVM) have become highly popular in the task of text mining. This is mainly due to their relatively high classification accuracy on several application domains as well as their ability to handle high dimensional and sparse data which is the prohibitive characteristics of textual data representations. Recently, there is an increased interest in the exploitation of background knowledge such as ontologies and corpus-based statistical knowledge in text categorization. It has been shown that, by replacing the standard kernel functions such as linear kernel with customized kernel functions which take advantage of this background knowledge, it is possible to increase the performance of SVM in the text classification domain. Based on this, we developed a variety of semantic kernel methods in order to explore the capabilities of higher-order paths, class-based meaning values and class-based weighting of terms in both supervised learning and SSL setting for SVM.
We propose several corpus-based semantic kernels which implicitly extract and make use of semantic relations such as Higher-Order Semantic Kernel (HOSK), Iterative Higher-Order Semantic Kernel (IHOSK) and Higher-Order Term Kernel (HOTK) for SVM. HOSK makes use of higher-order co-occurrence paths of terms between documents. In HOSK, the simple dot-product between feature vectors of the documents consist of term frequencies yields a first-order document relation matrix (F). Second–order document matrix (S) is formed by multiplying F with itself. S is used as kernel matrix in HOSK's transformation from input space into feature space. The experimental results show that HOSK shows an improvement on accuracy over linear kernel. A more advanced model is IHOSK which uses higher-order paths between documents and terms together in an iterative form. The document similarity matrix is produced iteratively using SR (a similarity matrix between documents) and SC (a similarity matrix between terms). Experiment results show that the classification performance increases relative to the linear kernel. In our following study, we consider less complex higher-order kernel, HOTK that is based on higher-order paths between terms only. HOTK is much simpler than IHOSK and also requires less computational resources.
We also propose a novel approach for building a semantic kernel for SVM, which we name CMK. We applied CMK in a Semi-supervised Learning (SSL) setting with an addition of a new approach to initial labeling of unlabeled data, called ILBOM. The suggested approaches smooth the term weights of a document in BOW representation by class-based meaning values of terms. These approaches reduce the disadvantages of BOW by increasing the importance of class specific concepts which can be synonymous or closely related in a class. The meaning values of terms are calculated according to the Helmholtz principle from Gestalt theory in the context of classes. Our experimental results show that both CMK and ILBOM widely outperform the classification accuracy of the linear kernel.
Additionally we also propose another approach which is called Class Weighting Kernel (CWK). This approach is similar to CMK however it provides an improvement over CMK in terms of mainly the calculation time. This class-based weighting basically groups terms based on their importance for each class. Therefore it smooths the representation of documents which changes the orthogonality of the vector space model by introducing class-based dependencies between terms.
The main contribution of this dissertation is building novel semantic kernels those are applied to supervised and semi-upervised text classification. We show that kernels performing much better than standard kernels in terms of classification accuracy. The proposed approaches have independency of the outside semantic sources such as WordNet, so that they can be applied to any language domain. They also form a foundation that can easily be combined with other term-based semantic similarity methods such as unsupervised semantic similarity measures. To the best of our knowledge, higher-order paths and class-based values of terms are used in the transformation phase of SVM for the first time in the literature and give significant benefits on the semantic smoothing of terms in a kernel for text classification. |