| Tez No |
İndirme |
Tez Künye |
Durumu |
| 599735
|
|
Evaluation of the relationship between the stability of feature selection techniques and classification performance in data mining / Veri madenciliğinde öznitelik seçim tekniklerinin kararlılıkları ve sınıflandırma performansları arasındaki ilişkinin değerlendirilmesi
Yazar:MUSTAFA
Danışman: PROF. DR. MEHMET CUDİ OKUR
Yer Bilgisi: YAŞAR ÜNİVERSİTESİ / FEN BİLİMLERİ ENSTİTÜSÜ / BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Anahtar Kelime:
|
Onaylandı
Doktora
İngilizce
2019
146 s.
|
|
|
Her yıl üretilen ve depolanan veri miktarı üstel olarak artmaktadır. Hem veri kümeleri
hem de veri kümesi boyutlarındaki yaşanan bu önemli artış, veri analizi tekniklerini
ve algoritmalarını olumsuz yönde etkileyerek karmaşık modellerin üretilmesine,
performans kayıplarına ve artan hesaplama maliyetlerine neden olmuştur. Bu
problemlerin önlenmesi ve üstesinden gelinmesi için, Öznitelik seçimi gibi, çeşitli veri
önişleme teknikleri geliştirilmiştir. Boyut küçültme (indirgeme) tekniği olan öznitelik
seçimi, sınıflandırıcıların analiz kalitesini, verimliliğini ve genelleme kapasitesini
geliştirmek, hesaplama maliyetlerini azaltmak ve yüksek sınıflandırma veya
kümeleme doğruluğuna sahip basit ve anlaşılabilir modeller oluşturmak için kullanılır.
Öznitelik seçim algoritmaları tarafından elde edilen öznitelik altkümelerinin
sınıflandırma veya kümelenme performanslarının yanı sıra, öznitelik seçim
algoritmasının kararlılığı veya sağlamlığı da test edilmelidir. Kararlılık, öznitelik
seçim algoritmasının eğitim setinde yapılan değişikliklere karşı hassasiyetinin
ölçüsüdür. Düşük hassasiyete sahip algoritma, yani kararlı bir algoritma, eğitim
kümesinde yapılan her değişiklikten sonra aynı veya çok benzer sonuçlar (öznitelik
altkümeleri veya sıraları) verirken, yüksek hassasiyete sahip algoritma, yani kararsız
bir algoritma, her değişiklikten sonra farklı sonuçlar verir. Kararsız bir algoritma
tarafından üretilen sonuçlar değişken olacağından, sınıflandırma modellerinin
oluşturulmasında kullanılacak sonuçların (öznitelik kümesinin) seçilmesini ve girdi ve
çıktılar arasındaki ilişkinin kurulmasını zorlaştırır. Öznitelik seçim algoritmasına olan
güveni sarsar. Bu nedenle, algoritma kararlılığı öznitelik seçim algoritmaları için
önemli bir başarı kriteridir. Bu tezde kararlılık ile sınıflandırma performansı arasındaki
ilişkiyi belirlemek ve yorumlamak için toplam yedi filtreleyen (T-Testi,
viiBhattacharyya, Wilcoxon, ROC, Entropi, ReliefF ve Karar Ağacı Topluluğu) ve iki
ardışık seçim (Ardışık İleri Öznitelik Seçimi (SFS) ve Ardışık Geri Öznitelik Seçimi
(SBS)), veya sarmalayan, öznitelik seçimi algoritması, on iki kararlılık ölçüsü, üç
sınıflandırıcı ve yedi gerçek dünya veri kümesi kullanılmıştır.
|
|
|
Each year the amount of data produced and stored increases exponentially. This
significant increase in both datasets and dataset sizes adversely affects data analysis
techniques and algorithms, results in the production of complex models, performance
losses and increased computational costs. Various data preprocessing techniques, such
as feature selection, have been developed to prevent and overcome these problems.
Feature selection, which is a data size (dimension) reduction technique, is used to
improve analysis quality, efficiency and generalization capacity of classifiers, to
reduce computational costs and to create simple and understandable models that have
high classification or clustering accuracy. Besides the classification or clustering
performances of the feature subsets obtained by the feature selection algorithms,
stability, i.e., robustness, of the feature selection algorithm should also be tested.
Stability is the measure of the sensitivity of the feature selection algorithm against the
changes (perturbations) made on the training set. Algorithm with low sensitivity, i.e.,
a stable algorithm, produces the same or very similar results (feature subsets or ranks)
after each change done in the training set, whereas algorithm with high sensitivity, i.e.,
an unstable algorithm, produces different results after each change. Since the results
produced by an unstable algorithm will be variant, it makes it difficult to select the
result set (feature set) to be used in building classification models and to establish the
relationship between inputs and outputs. This undermines trust in the feature selection
algorithm. Therefore, algorithm stability is an important success criterion for feature
selection algorithms. In this thesis, a total of seven filter (T-Test, Bhattacharyya,
Wilcoxon, ROC, Entropy, ReliefF and Decision Tree Ensemble) and two sequential
(Sequential Forward Feature Selection (SFS) and Sequential Backward Feature
vSelection (SBS)), or wrapper, feature selection algorithms, twelve stability measures,
three classifiers and seven real-world datasets were used to determine and interpret the
relationship between feature selection algorithm stability and classification
performance. |