Sınıflandırma algoritmaları veri madenciliği ve makine öğrenmesi problemlerinin çözümünde en çok kullanılan algoritmalardır. Sınıflandırma algoritmaları, eğitim veri kümelerini istatistiksel ve matematiksel denklemler ile analiz ederek bir sınıflandırma modeli oluştururlar. Oluşturulan sınıflandırma modelinin başarısı test veri kümesi ile değerlendirilir ve bu model sınıfı belli olmayan örneklerin sınıf etiketlerinin tahmininde kullanılır. Günümüzde, sınıflandırma algoritmaları medikal, finans, sahtekârlık tespiti, hava durumu tahmini, bankacılık ve sosyal ağlar başta olmak üzere birçok alana başarılı şekilde uygulanmaktadır. Sınıflandırma algoritmaları, sınıflandırma modellerini oluşturma yöntemlerine göre kural tabanlı, olasılık tabanlı ve ağırlık tabanlı olmak üzere üç kategoriye ayrılabilir. Kural tabanlı ve olasılık tabanlı sınıflandırma algoritmaları genellikle kategorik ve ayrık veri kümeleri üzerinde daha başarılı performans sergilerken, ağırlık tabanlı sınıflandırma algoritmaları genellikle sürekli veri kümeleri üzerinde daha başarılı olurlar.
Bu tez çalışmasında genel olarak sınıflandırma algoritmalarının performansının iyileştirilmesi üzerinde durulmuştur. İlk olarak, kural ve olasılık tabanlı sınıflandırma algoritmalarının performansını iyileştirmek üzere veri madenciliği önişleme tekniği olan ayrıklaştırma işlemi için yeni bir yöntem önerilmiştir. EF-Unique olarak adlandırılan önerilen yeni ayrıklaştırma yöntemi eşit aralıklı, eşit frekanslı ve entropi tabanlı ID3 ayrıklaştırma yöntemleri ile karşılaştırılmıştır. Önerilen yöntemin birçok deneyde diğer yöntemlerden daha başarılı sonuçlar elde ettiği görülmüştür. Ayrıca, EF-Unique yönteminin literatürde sıklıkla kullanılan naive bayes, karar ağaçları, destek vektör makinesi ve k en yakın komşu makine öğrenmesi sınıflandırma algoritmalarının performansını artırdığı gözlemlenmiştir. İkinci olarak, ağırlık tabanlı sınıflandırma algoritması olan yapay sinir ağlarının eğitim işlemi parçacık sürü optimizasyon algoritmasının geliştirilmiş bir versiyonu ile gerçekleştirilmiştir. Önerilen çoklu ortalama (multi mean) parçacık sürü optimizasyon (MM-PSO) algoritması yapay sinir ağının sınıflandırma başarısını artırmıştır. Deneysel çalışmalarda, önerilen MM-PSO algoritmasının performansını değerlendirmek için literatürde sıklıkla kullanılan UCI veri kümeleri kullanılmış ve elde edilen sonuçlar havai fişek, kril, genetik ve harmoni arama optimizasyon algoritmalarının sonuçları ile kıyaslanmıştır. Deney sonuçları değerlendirildiğinde, önerilen MM-PSO algoritması birçok deneyde havai fişek, kril, genetik ve harmoni arama optimizasyon algoritmalarından daha iyi performans sergilemiştir.
Tez kapsamında geliştirilen EF-Unique ayrıklaştırma yöntemi ve çoklu ortalama parçacık sürü optimizasyon algoritması literatüre bir yenilik getirmiştir. Geliştirilen her iki yaklaşım veri madenciliği ve makine öğrenmesi ile ilgili farklı alanlarda yapılacak farklı çalışmalarda kullanılabilecektir.
|
Classification algorithms are one of the most commonly used algorithms for solving data mining and machine learning problems. The classification algorithms analyze the training data sets with statistical and mathematical equations to generate a classification model. Performance of the generated classification model is evaluated by test dataset and then this model is used to estimate class label of an unlabeled sample. Nowadays, classification algorithms are commonly used in numerous areas especially medical, finance, fraud detection, weather forecasts, banking, and social networks. Classification algorithms can be divided into three categories considering the method of generating classification model: rule-based, statistical based, and weighted based. While rule and statistical based algorithms are shown successful performance with categorical and discrete data sets, weighted based algorithms figured out successful performance with continuous data sets.
This thesis study is mainly discourse to improving the performance of classification algorithms. Firstly, a new method is proposed for the discretization process, which is a well-known data mining pre-processing technique, to improve the performance of rule and statistical based classification algorithms. The proposed method called as EF-Unique was compared with equal width, equal frequency, and entropy-based ID3 discretization methods. The proposed method has performed better results in many experiments than other methods. Besides, EF-Unique method was observed that the proposed method improved the performance of the frequently used machine learning classification algorithms such as naïve bayes, decision tree, support vector machine, and k-nearest neighbors. Secondly, the training process of an artificial neural network, which is a weighted based classification algorithm, was performed by a novel modified version of the particle swarm optimization algorithm. The proposed multi mean particle swarm optimization (MM-PSO) is increased classification accuracy of an artificial neural network. In experimental studies, frequently used UCI datasets were used to evaluate the performance of the proposed MM-PSO algorithm and the results obtained were compared with fireworks, krill, genetic, and harmony search optimization algorithms results. When the experimental results are evaluated, the proposed MM-PSO algorithm has performed better results in many experiments than the fireworks, krill, genetic, and harmony search optimization algorithms.
The most obvious finding to emerge from this study is that EF-Unique discretization method and multi mean particle swarm optimization algorithm provide a novel approach to literature. Additionally, the proposed method and algorithm can be used in various disciplines and future studies. |