Tez No İndirme Tez Künye Durumu
672469
Under-sampling models to improve classification of rare class in imbalanced dataset / Dengesiz veri kümesinde nadir sınıfın sınıflandırılmasını geliştirmek için alt örnekleme modelleri
Yazar:ZINA ZUHAIR RAOF AL-SHAMAA
Danışman: Assist. Prof. Dr. SEFER KURNAZ
Yer Bilgisi: Altınbaş Üniversitesi / Lisansüstü Eğitim Enstitüsü / Elektrik ve Bilgisayar Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2020
89 s.
Dengesiz verilerin sınıflandırılmasında, doğru tahminler, özellik uzayındaki veri dağılımının özelliklerinden etkilenir. Eşit olmayan sınıf ve sınıflar arasında örtüşen, küçük sınıf örneklerinin sınıflandırılmasının verimliliği üzerinde etkisi olan temel özelliklerdir. Bu sorunlar, bilgi keşfine büyük ilgi duyan anormallik tespiti, öğrencilerin okulu bırakmalarını öngörme, hastalık teşhisi vb. Gibi çeşitli gerçekçi uygulamalarda ortaya çıkar. Bu çalışma, birçok uygulama için önemli olan yan sınıfın sınıflandırma verimliliğini artırmak için iki eksik örnekleme tekniği sunmaktadır. Bu araştırmanın ilk amacı için, ana sınıfa yönelik sınıflandırma önyargılarını en aza indirmek için ana sınıf büyüklüğünün altını örnekleyerek eşit olmayan dağıtım sorununu ele alan yeni bir yöntemi araştırdık. Bu yönteme Hellinger mesafesi alt örnekleme modeli (HDUS) adı verilir. Model, Hellinger mesafesini kullanarak, her bir ana sınıf örneği ile komşu küçük sınıf örnekleri arasındaki benzerliği hesaplar, ardından küçük sınıfı değişmeden tutmayı düşünerek en yüksek benzerlik ana örneklerini seçer. Ana sınıfın eksik örneklenmesi, küçük sınıf örneklerini daha iyi ayırt etmesine yol açtı. Deneyler, HDUS'un yüksek hassasiyet, F1-Ölçü ve dengeli doğruluk sağlayarak alt sınıfın sınıflandırma performansını iyileştirdiğini göstermektedir. Sonuçlar ayrıca, HDUS'un son teknoloji ürünü düşük örnekleme modellerinden daha iyi performans gösterdiğini de göstermektedir. Bu araştırmanın ikinci amacı için, önerilen HDUS'u ANOVA özellik seçimi (HDUS + FS) ile birleştirerek hem dengesiz dağılımı hem de örtüşen sorunları ele alan bir model sunuyoruz. Bu model, gürültü olarak tanımlanan örnekleri ortadan kaldırmak için HDUS modeli kullanılarak oluşturulmuştur; daha sonra, sınır bölgesinde yüksek bir örtüşmeyi gösterebilen özellikleri ortadan kaldırmak için ANOVA özellik seçimini kullanır. Deney, önerilen HDUS + FS modelimizin sağlamlığını, tek başına özellik seçiminden daha iyi performans gösterdi ve FS modelleriyle birleştirilmiş son teknoloji ürünü.
In classifying the unbalanced data, the accurate predictions are influenced by the characteristics of data distribution in feature space. The unequal class and overlapping between classes are essential features which have an impact on the efficiency of the classification of minor class instances. These problems occur in various realistic applications such as anomaly detection, predicting students drop out of school, disease diagnosis, etc., which are of immense interest in knowledge discovery. This study presented two under-sampling techniques to improve the classification efficiency of the minor class which is of importance to many applications. For the first objective of this research, we investigated a new method that handles the unequal distribution problem by under-sampling the major class size to minimize the classification biases toward the major class. This method is named the Hellinger distance under-sampling model (HDUS). By using Hellinger distance, the model calculates the similarity between each major class samples and its neighboring minor class samples, then selects the highest resemblance major instances considering to keep the minor class without change. Under-sampling the major class led to better discriminates the minor class instances. The experiments show that HDUS improve the classification performance of minor class by providing high sensitivity, F1-Measure and balanced accuracy. Results also indicate that HDUS can outperform state-of-the-arts under-sampling models. For the second objective of this research, we present a model that handle both unbalanced distribution and overlapping problems by combining the proposed HDUS with ANOVA feature selection (HDUS+FS). This model has been built by employing HDUS model to remove the instances which identified as a noise; then employing ANOVA feature selection to eliminate the features that can indicate a high overlap in the boundary region. The experiment demonstrates the robustness of our proposed HDUS+FS model which outperforms feature selection alone and the state-of-the-arts combined with FS models.