Tez No |
İndirme |
Tez Künye |
Durumu |
803043
|
|
Ensemble pruning using optimization modeling / Optimizasyon modellemesi kullanarak topluluk budaması
Yazar:PINAR KARADAYI ATAŞ
Danışman: DOÇ. DR. SÜREYYA AKYÜZ
Yer Bilgisi: Bahçeşehir Üniversitesi / Fen Bilimleri Enstitüsü / Mühendislik Bilimleri Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Matematik = Mathematics ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Dinamik optimizasyon = Dynamic optimization
|
Onaylandı
Doktora
İngilizce
2020
67 s.
|
|
Denetimsiz ögrenmede topluluk kümelenmesinin performans sorunu, veri madenciligi
ve makine ögrenimi topluluklarında büyük bir endise kaynagıdır. En
önemli endise, tahmini performansın sonucunu belirleyen çesitlilik ve dogruluktur.
Bazı büyük fikirler performansı artırmak için bilesen sınıflandırıcılarının
çesitliligini veya dogrulugunu artırırken, bazıları mükemmel topluluk sonuçları
olusturmak için bu iki metrigi kullanmıs veya manipüle etmistir. Bu tez, literatürde
belirtilen bazı topluluk kümelenme performans sınırlamalarının üstesinden
gelebilecek yeni bir kümelenme toplulugu seçim modelini önermektedir,
yani amacımız mevcut topluluk kümeleme modellerini önemli ölçüde artırmaktır.
Daha spesifik olarak, yeni topluluk modelimizi çesitlilik ve dogruluk ödünlesmesini
karsılamak için tasarladık ve karsılastırma için üç küme toplulugu yönteminin
her biri için onbir veri seti kullandık. Ayrıca algoritmamızın veri alanına
baglı olmamasını sagladık. Sadece çesitliligin veya dogrulugun tek basına performansı
artıramayacagını degil, ayrıca topluluk alt kümelerinin kardinalitesinin
iyi sonuçlar edinmek için önemli bir parametre oldugunu fark ettik. Tekniklerimizi
kardinalite sayısı açısından son kümelenme teknikleriyle test ettikten ve
karsılastırdıktan sonra, diger topluluk yöntemleriyle karsılastırıldıgında, önerilen
topluluk seçme yöntemimizin daha iyi bir dogruluk saglama açısından performans
artısı sagladıgını tespit ettik. Bunun yanında, önerilen metodoloji, veri
ön islemedeki adımlardan olan özellik seçim problemi için uyarlanmıs, yeniden
modellenmistir. Son yıllarda, çesitli özellik seçme yöntemlerinin birlestirildigi
topluluk temelli özellik seçme yaklasımları önerilmistir. Önerilen algoritma birden
fazla veri seti üzerinde test edilmistir ve ögrenme performansları çesitli özellik
seçim algoritmaları ile karsılastırılmıstır. Ampirik sonuçlar, önerilen algoritmanın
yüksek sınıflandırma dogrulugunda performans elde ettigini göstermektedir.
|
|
The performance problem of ensemble clustering in unsupervised learning is a
huge concern in data-mining and machine-learning communities. The most crucial
concern is diversity and accuracy, both of which determine the outcome of
predictive performance. While some great minds have increased the diversity
or accuracy of component classifiers to boost performance, some have utilized or
manipulated these two metrics to generate excellent ensemble results. This thesis
suggests a new clustering ensemble selection model that can overcome some of
the ensemble-clustering performance limitations noted in the literature, meaning
our goal is to considerably enhance existing ensemble-clustering models. More
specifically, we designed our new ensemble model to satisfy the diversity-andaccuracy
trade-off and used eleven datasets for each of the three cluster-ensemble
methods for comparison. We also ensured that our algorithm did not depend on
the data domain. Not only did we realize that diversity or accuracy alone cannot
enhance performance, but we also noticed that the cardinality of the ensemble
subsets was an important parameter in obtaining better results. After testing
and comparing our technique with recent clustering techniques in terms of the
cardinalities, we found that compared to other ensemble methods, our proposed
ensemble-selection method resulted in performance enhancement for providing
a better accuracy to a particular problem. Besides that, the proposed methodology
was adapted and re-modeled for feature selection problem, which is one of
the steps in data pre-processing. In recent years, ensemble based feature selection
approaches have been proposed in which, multiple diverse feature selection
methods are combined. The proposed algorithm was tested on multiple data
sets and learning performances are compared with various feature selection algorithms.
The empirical results show that the proposed algorithm performs at
higher classification accuracy. |