Tez No İndirme Tez Künye Durumu
763023
Clustering based on hyperplanes / Hiperdüzlem tabanlı topaklama
Yazar:EDWARD CHOME
Danışman: PROF. DR. HAKAN ÇEVİKALP
Yer Bilgisi: Eskişehir Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Bilimleri Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Alt uzaylar = Subspaces ; K-ortalamalar yöntemi = K-means method ; Kümeleme = Clustering ; Topaklama = Gathering
Onaylandı
Doktora
İngilizce
2022
98 s.
Makine öğrenimi alanında topaklama çok önemli problemlerden biridir. Bu bağlamda çok çeşitli yaklaşımlar kullanılarak birçok topaklama algoritması önerilmiştir. Bu çalışmada, yüksek boyutlu veri topaklamaye odaklanılmış ve maksimum marj topaklama yaklaşımı kullanılmıştır. Bu amaçla iki yöntem önerilmiştir: İlk önerilen yöntemde, klasik maksimum marj topaklama yaklaşımı kullanılmıştır ve verileri aralarında en büyük marj ile iki kümeye bölen bir yöntem önerilmiştir. İkinci yöntemde ise topaklama da küme kompaktlığı dikkate alınmış ve küme örneklerine en iyi uyan ancak aynı zamanda birbirinden mümkün olduğunca uzak iki paralel hiperdüzlem bulunmuştur. Ek olarak, bu topaklama yöntemlerinin aykırı değerlere ve veri örnekleri içindeki gürültüye karşı daha dayanıklı olan varyantları tanıtılmıştır. Ortaya çıkan optimizasyon problemlerini çözmek için stokastik gradyan (SG) algoritmasını kullanılmıştır. Bu nedenle önerilen tüm topaklama yöntemleri büyük ölçekli verilerle hızlı çalışacak niteliktedir. Deneysel sonuçlar, önerilen yöntemlerin, özellikle yüksek boyutlu topaklama problemlerinde, literatürde bulunan diğer maksimum marjlı topaklama yöntemlerine kıyasla daha iyi performans gösterdiğini göstermektedir.
In machine learning, clustering is of pivotal importance and there is a growing research interest directed towards it. Many clustering algorithms have been proposed using a wide range of approaches. In this study, we focus on high-dimensional data clustering and adopt the maximum margin clustering approach. To this end, we introduced two methods: The first proposed method uses the classical maximum margin clustering approach, and it splits the data into two clusters with the largest margin between them. The second proposed method takes the cluster compactness into consideration, and it searches for two parallel hyperplanes that best fit the cluster samples but at the same time as far as possible from each other. In addition, we introduced the variants of these clustering methods that are more robust to the outliers and noise within the data samples. We use the stochastic gradient (SG) algorithm to solve the resulting optimization problems, therefore all proposed clustering methods scale well with large-scale data. The experimental results show that the proposed methods significantly outperform the existing maximum margin clustering methods, especially on high-dimensional clustering problems, which shows the efficacy of the proposed methods.