Makine öğrenmesi modellerinde istenilen performans değerlerine ulaşılamamasının bir nedeni de dengesiz veri kümelerinin kullanılmasıdır. Dengesiz veri kümeleri hedef değişkenlerin dağılımlarının eşit olmadığı veri kümelerine verilen addır. Makine öğrenmesi model kurulumu sırasında kullanılan algoritmalar, veri kümesindeki hedef değişkenlerin dağılımının eşit olduğu varsayımı altında daha iyi performans göstermektedirler. Bu nedenle makine öğrenmesi modellerini oluştururken probleme yönelik sunulan aşağı örnekleme, yukarı örnekleme veya hibrit yaklaşım çözümlerinden biri uygulanmaktadır. Bu tez kapsamında öncelikle dengesiz veri kümeleri problemi ve çözümleri ile ilgili bir bibliyometrik analiz gerçekleştirilmiş olup sonrasında problem çözümü için FuzzyCSampling olarak adlandırılan hibrit bir yaklaşım geliştirilmiştir. FuzzyCSampling yaklaşımı kümeleme ve veri örnekleme yöntemlerinin birlikte kullanarak hedef değişkenlerin eşitsiz dağılımlarının oranının azalmasını sağlamıştır. Önerilen yaklaşım farklı dengesizlik oranına ve büyüklüklere sahip olan Pima Indians Diyabet, KDD Cup 1999 ve Credit Card Fraud Detection veri kümeleriyle model oluşturulması için kullanılıp model performanslarındaki değişim incelenmiştir. Model değerlendirme ölçütleri olarak doğruluk, duyarlılık, kesinlik, F-ölçütü ve AUC kullanılmıştır. Model performans değerlendirmesinde veri kümesi %70 eğitim %30 test ayrılarak kullanılmıştır. Ayrıca modeller rastgele orman algoritması, k-en yakın komşu ve destek vektör makineleri kullanılarak Python dilinde gerçekleştirilmiştir. FuzzyCSampling yönteminin başarısının karşılaştırılması amacıyla yaygın kullanılan çözümler olan rastgele aşağı örnekleme, SMOTE, Borderline-SMOTE ve herhangi bir çözüm kullanılmayan durum için modeller kurulmuştur.
Pima Indians Diyabet veri kümesi ile oluşturulan modeller kıyaslandığında, k-en yakın komşu algoritması ve FuzzyCSampling yaklaşımı ile oluşturulan modelin performansının (doğruluk:0,885; AUC: 0,872 ve F-ölçütü:0,846) diğer modellerden daha iyi olduğu gözlemlenmiştir. KDD Cup 1999 veri kümesi ile oluşturulan modellerin arasında da rastgele orman algoritması ve FuzzyCSampling yaklaşımının uygulanması durumunda diğer modellerden daha iyi performans sonuçları (doğruluk:0,999; kesinlik: 0,993 ve F-ölçütü:0,978) elde edildiği gözlemlenmiştir. Credit Card Fraud Detection veri kümesiyle oluşturulan modeller karşılaştırıldığında FuzzyCSampling yaklaşımının rastgele orman algoritması birlikte uygulanmasının performansı (AUC:0,941; kesinlik: 0,970 ve F-ölçütü:0,932) iyileştirdiği gözlemlenmiştir. Bu tez kapsamında dengesiz veri kümeleri problemine çözüm olarak sunulan FuzzyCSampling yaklaşımının ikili sınıflandırma problemlerinde iyi bir alternatif çözüm olduğu görülmüştür.
|
The usage of imbalanced datasets would be another reason that prevents machine learning models from producing the desired performance results. Datasets that have an uneven distribution of the target variables are known as imbalanced datasets. The performance of algorithms used during building a machine learning model is better when the distribution of the target variables in the dataset is equal. For this reason, when building machine learning models, solutions for imbalanced datasets such as undersampling, oversampling, or hybrid approaches are applied to the problem. Within the scope of this thesis, a bibliometric analysis of the imbalanced datasets problem and its solutions was performed first, followed by the proposal of a new hybrid approach based on clustering for the imbalanced dataset problem. The FuzzyCSampling approach has decreased the rate of uneven distribution of the target variables by combining data sampling and clustering techniques. The proposed approach is used to create models with Pima Indians Diabetes, KDD Cup 1999 and Credit Card Fraud Detection datasets which have different imbalanced ratios and sizes, and the change in model performances is examined. The results were analyzed using the evaluation metrics accuracy, recall, precision, F1-score, and AUC. The dataset was divided into 70% training and 30% testing for the model performance evaluation. Moreover, support vector machines, k-nearest neighbor, and the random forest technique were used to build the models in Python. Models were created for the widely used solutions random undersampling, SMOTE, Borderline-SMOTE, and the absence of any solution in order to compare the effectiveness of the FuzzyCSampling approach.
In a comparison of the models developed using the Pima Indians Diabetes dataset, it was found that the model developed using the k-nearest neighbor technique and the FuzzyCSampling approach performed (accuracy:0,885; AUC: 0,872 and F1-score:0,846) better than the other models. Among the models created with the KDD Cup 1999 dataset, it was also observed that better performance results (accuracy:0,999; precision: 0,993 and F1-score:0,978) were obtained when the random forest algorithm and the FuzzyCSampling approach were applied. When the models built with the Credit Card Fraud Detection dataset were compared, it is observed that utilizing the FuzzyCSampling approach in conjunction with the random forest algorithm improves the performance (AUC:0,941; precision: 0,970 and F1-score:0,932). The FuzzyCSampling strategy, which is put forth in this thesis as a solution for the issue of imbalanced datasets, was found to be a good alternative solution for binary classification problems. |