Tez No İndirme Tez Künye Durumu
803043
Ensemble pruning using optimization modeling / Optimizasyon modellemesi kullanarak topluluk budaması
Yazar:PINAR KARADAYI ATAŞ
Danışman: DOÇ. DR. SÜREYYA AKYÜZ
Yer Bilgisi: Bahçeşehir Üniversitesi / Fen Bilimleri Enstitüsü / Mühendislik Bilimleri Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Matematik = Mathematics ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Dinamik optimizasyon = Dynamic optimization
Onaylandı
Doktora
İngilizce
2020
67 s.
Denetimsiz ögrenmede topluluk kümelenmesinin performans sorunu, veri madenciligi ve makine ögrenimi topluluklarında büyük bir endise kaynagıdır. En önemli endise, tahmini performansın sonucunu belirleyen çesitlilik ve dogruluktur. Bazı büyük fikirler performansı artırmak için bilesen sınıflandırıcılarının çesitliligini veya dogrulugunu artırırken, bazıları mükemmel topluluk sonuçları olusturmak için bu iki metrigi kullanmıs veya manipüle etmistir. Bu tez, literatürde belirtilen bazı topluluk kümelenme performans sınırlamalarının üstesinden gelebilecek yeni bir kümelenme toplulugu seçim modelini önermektedir, yani amacımız mevcut topluluk kümeleme modellerini önemli ölçüde artırmaktır. Daha spesifik olarak, yeni topluluk modelimizi çesitlilik ve dogruluk ödünlesmesini karsılamak için tasarladık ve karsılastırma için üç küme toplulugu yönteminin her biri için onbir veri seti kullandık. Ayrıca algoritmamızın veri alanına baglı olmamasını sagladık. Sadece çesitliligin veya dogrulugun tek basına performansı artıramayacagını degil, ayrıca topluluk alt kümelerinin kardinalitesinin iyi sonuçlar edinmek için önemli bir parametre oldugunu fark ettik. Tekniklerimizi kardinalite sayısı açısından son kümelenme teknikleriyle test ettikten ve karsılastırdıktan sonra, diger topluluk yöntemleriyle karsılastırıldıgında, önerilen topluluk seçme yöntemimizin daha iyi bir dogruluk saglama açısından performans artısı sagladıgını tespit ettik. Bunun yanında, önerilen metodoloji, veri ön islemedeki adımlardan olan özellik seçim problemi için uyarlanmıs, yeniden modellenmistir. Son yıllarda, çesitli özellik seçme yöntemlerinin birlestirildigi topluluk temelli özellik seçme yaklasımları önerilmistir. Önerilen algoritma birden fazla veri seti üzerinde test edilmistir ve ögrenme performansları çesitli özellik seçim algoritmaları ile karsılastırılmıstır. Ampirik sonuçlar, önerilen algoritmanın yüksek sınıflandırma dogrulugunda performans elde ettigini göstermektedir.
The performance problem of ensemble clustering in unsupervised learning is a huge concern in data-mining and machine-learning communities. The most crucial concern is diversity and accuracy, both of which determine the outcome of predictive performance. While some great minds have increased the diversity or accuracy of component classifiers to boost performance, some have utilized or manipulated these two metrics to generate excellent ensemble results. This thesis suggests a new clustering ensemble selection model that can overcome some of the ensemble-clustering performance limitations noted in the literature, meaning our goal is to considerably enhance existing ensemble-clustering models. More specifically, we designed our new ensemble model to satisfy the diversity-andaccuracy trade-off and used eleven datasets for each of the three cluster-ensemble methods for comparison. We also ensured that our algorithm did not depend on the data domain. Not only did we realize that diversity or accuracy alone cannot enhance performance, but we also noticed that the cardinality of the ensemble subsets was an important parameter in obtaining better results. After testing and comparing our technique with recent clustering techniques in terms of the cardinalities, we found that compared to other ensemble methods, our proposed ensemble-selection method resulted in performance enhancement for providing a better accuracy to a particular problem. Besides that, the proposed methodology was adapted and re-modeled for feature selection problem, which is one of the steps in data pre-processing. In recent years, ensemble based feature selection approaches have been proposed in which, multiple diverse feature selection methods are combined. The proposed algorithm was tested on multiple data sets and learning performances are compared with various feature selection algorithms. The empirical results show that the proposed algorithm performs at higher classification accuracy.