Tez No İndirme Tez Künye Durumu
571118
A multi-objective approach to cluster ensemble selection problem / Kümeleme topluluğu seçimi problemine çok amaçlı yaklaşım
Yazar:DİLAY AKTAŞ
Danışman: DR. ÖĞR. ÜYESİ BANU LOKMAN ; DOÇ. DR. TÜLİN İNKAYA
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Yöneylem Araştırması Ana Bilim Dalı
Konu:Endüstri ve Endüstri Mühendisliği = Industrial and Industrial Engineering
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2019
89 s.
Kümeleme, verideki gizli örüntüleri ön bilgi olmadan ortaya çıkarmayı hedefleyen gözetimsiz bir öğrenme biçimidir. Kümelemede benzer olan nesneler aynı kümede, benzer olmayan nesneler farklı kümelerde olacak şekilde verinin gruplandırılması amaçlanmaktadır. Öneri sistemleri, dolandırıcılık tespiti, pazar araştırması gibi çeşitli alanlarda kullanılmaktadır. Teknolojideki gelişmelerle birlikte, bir veri setinden farklı kümeleme algoritmaları, farklı parametreler ve farklı öznitelikler kullanılarak çeşitli kümeleme çözümleri elde edilebilmektedir. Kümeleme topluluğu (clustering ensemble), bir veri setinden farklı kümeleme yöntemleri ile elde edilen çözümlerin birleştirilerek fikir birliğine varılan ortak bir çözüm (consensus clustering) oluşturulması için ortaya çıkan güçlü bir araçtır. Böylece, gürbüz (robust) ve doğru (accurate) kümeleme sonuçları elde edilmektedir. Bu çalışmada, kümeleme topluluğu seçimi problemi için çok amaçlı bir yaklaşım önerilerek ortak çözümler üretilmiştir. Önerdiğimiz yaklaşım mevcut kümeleme çözümlerinden temsilciler seçip bu temsilcilerin birleştirilmesiyle bir ortak çözüm üretmektedir. Mevcut çalışmalardan farklı olarak bu çalışmada, bir kümeleme topluluğundan kalite, çeşitlilik ve temsilci sayısına göre baskın temsilci alt kümeleri seçilmesi amaçlanmaktadır. Alt küme seçim aşamasından önce başlangıç kütüphanesinin özelliklerini incelemek ve ortak çözümü yanıltabilecek ayrık çözümlerin elenmesi hedeflenerek bir ön eleme yöntemi geliştirilmiştir. Önerilen yaklaşımın performansı gerçek sınıf etiketleri bilinen veri setleri üzerinde test edilmiştir. Sonuçlar yaklaşımımızın iyi çalıştığı ve elde edilen ortak çözüm sonuçlarının mevcut çözümler ile kıyaslandığında daha iyi olduğunu göstermektedir.
Clustering is an unsupervised learning method that partitions a data set into groups. The aim is to assign similar points to the same cluster and dissimilar points to different clusters with respect to some notion of similarity. It is applicable to a wide range of areas such as recommender systems, anomaly detection, market research, and customer segmentation. With the advances in the computational power, a diverse set of clustering solutions can be obtained from a dataset using different clustering algorithms, different parameter settings and different features. Clustering ensemble has emerged as a powerful tool for combining the strengths of these multiple clustering solutions and generating a consensus solution. It improves the quality of clustering in terms of accuracy and robustness. In this study, we address the cluster ensemble selection problem, and propose a multi-objective approach to generate a consensus clustering solution. Our proposed algorithm selects a representative subset of clustering solutions, and produces a consensus clustering solution by combining these representatives. Different from the existing approaches, we design the representative selection approach based on three criteria: quality, diversity, and size of the representative set. Before the representative selection, we apply a preprocessing procedure to analyze the characteristics of the clustering solutions in the library and eliminate the ones that may mislead the consensus function. We test the performance of the proposed approach on the benchmark datasets. The results show that the proposed approach works well, and the resulting consensus solution is better than the clustering solutions in the library.