Tez No İndirme Tez Künye Durumu
719970
Veri kümesindeki doğal yapılanmalar ile makine öğrenmesi / Machine learning with natural structures in the data set
Yazar:BERGEN KARABULUT
Danışman: DOÇ. DR. HALİL MURAT ÜNVER ; PROF. DR. GÜVENÇ ARSLAN
Yer Bilgisi: Kırıkkale Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Destek vektör makineleri = Support vector machines ; Doğal yapı = Native state ; Kümeleme = Clustering ; Sınıflandırma = Classification ; Yapı bilgi modellemesi = Building information modeling
Onaylandı
Doktora
Türkçe
2022
120 s.
Makine öğrenmesinde yaygın kullanılan öğrenme türlerinden birisi denetimli öğrenmedir. Teknolojik gelişmeler ve veri boyutlarındaki hızlı artışla birlikte mevcut denetimli öğrenme yöntemlerinin daha etkin hale getirilmesi ve yeni yöntemlerin geliştirilmesi yönündeki çalışmalar önem kazanmıştır. Bu doğrultuda, veri kümesinden daha etkin yararlanmayı amaçlayan çalışmalar dikkat çekmektedir. Bu çalışmaların bazılarında, kümeleme gibi denetimsiz öğrenme yöntemleriyle elde edilen doğal yapılanmaların, denetimli öğrenme sürecinde kullanımının araştırıldığı görülmektedir. Mevcut çalışmalar, veri kümesindeki doğal yapılanmaların tespit edilmesi ve bu yapılanmaların denetimli öğrenme sürecinde kullanımının etkin sonuçlar sağlayabildiğini göstermekte ve yeni çalışmaların gerekliliğini ortaya koymaktadır. Bu çalışmada, veri kümesindeki yapısal bilginin (yani doğal yapılanmaların) elde edilmesi ve bu bilginin denetimli öğrenme sürecinde kullanılması için iki farklı yaklaşım araştırılmıştır. İlk olarak Benzerlik Tabanlı Doğal Kümeler (SNC) olarak adlandırılan yeni bir kümeleme algoritması önerilmiştir. SNC kümeleme algoritması ile elde edilen yapısal kümeler, sınıflandırma sürecine adapte edilerek yeni algoritmalar araştırılmıştır. Bu şekilde, Doğal Kümeler Tabanlı En Benzer Örnekler (NC-MSI), Doğal Kümeler Tabanlı Destek Vektör Makinesi (NC-SVM) ve Doğal Kümeler Tabanlı Destek Vektör Makinesi-Sınırlar (NC-SVM-B) sınıflandırma algoritmaları önerilmiştir. Bu sınıflandırma algoritmalarının her birinde yapısal kümeler farklı şekilde kullanılmıştır. Önerilen algoritmalar, literatürde yer alan benzer yöntemlerle çeşitli gerçek hayat veri kümeleri üzerinde karşılaştırmalı olarak analiz edilmiştir. Elde edilen sonuçlar, önerilen algoritmaların, özellikle bazı veri kümelerinde önemli örnekleri yani yapısal bilgiyi başarılı şekilde tespit edebildiğini ve veri kümesinden daha etkin yararlanabildiğini göstermektedir. İkinci olarak, veri kümesinden doğal yapılanmaların elde edilmesi için CURE kümeleme algoritması kullanılmıştır. CURE algoritması ile veri kümesinin yapısal bilgisini elde eden ve bu bilgiyi eğitim kümesi yerine denetimli öğrenme sürecinde kullanan Temsili Noktalar Tabanlı Destek Vektör Makinesi (RP-SVM) algoritması önerilmiştir. Bu algoritmada, SVM yöntemi tüm eğitim kümesi yerine daha az örnek içeren temsili noktalar kümesi ile eğitilmektedir. RP-SVM yöntemi, çeşitli gerçek hayat veri kümeleri üzerinde standart SVM, KMSVM, KNN ve CART yöntemleri ile karşılaştırmalı olarak analiz edilmiştir. Elde edilen sonuçlar, RP-SVM yönteminin standart SVM yöntemi ile benzer doğruluk elde ederken eğitim kümesi boyutunu önemli ölçüde azalttığını ve daha az destek vektörü kullanılmasını sağlayabildiğini göstermektedir. Ayrıca RP-SVM yöntemi, KNN ve CART yöntemlerine kıyasla daha az eğitim örneği kullanarak daha iyi doğruluk elde edebilmektedir. Bununla birlikte, RP-SVM yöntemi KMSVM yöntemine göre daha az veri azaltma sağlamakta ancak RP-SVM yönteminin tüm veri kümelerinde doğruluk açısından iyi sonuçlar elde ederek KMSVM yönteminden daha kararlı olduğu görülmektedir. Bu çalışma kapsamında elde edilen sonuçlar, veri kümesinden elde edilen doğal yapılanmaların denetimli öğrenme sürecine katkı sağlayabileceğini göstermektedir. Önerilen yöntemler, geliştirilebilir ve farklı makine öğrenmesi yöntemlerine adapte edilebilir niteliktedir. Ayrıca önerilen yaklaşımlar, büyük veri çalışmaları için motivasyon sağlayabilir.
One of the commonly used learning types in machine learning is supervised learning. With the technological developments and the rapid increase in data sizes, studies aimed at making existing supervised learning methods more effective and at developing new methods have gained importance. In this direction, studies aiming to make more effective use of the data set draw attention. In some of these studies, it is seen that the use of natural structures obtained by unsupervised learning methods, such as clustering, in the supervised learning process has been investigated. Existing studies show that detecting the natural structures in the data set and using these structures in the supervised learning can provide effective results, and reveal the necessity of new studies. In this study, two different approaches have been investigated in order to obtain the structural information (that is, the natural structures) in the data set and to use this information in the supervised learning process. Firstly, a new clustering algorithm called Similarity-based Natural Clusters (SNC) was proposed. Structural clusters obtained with the SNC algorithm were adapted to the classification and new algorithms were investigated. In this way, the Natural Clusters-based Most Similar Instances (NC-MSI), Natural Clusters-based Support Vector Machine (NC-SVM) and Natural Clusters-based Support Vector Machine-Boundaries (NC-SVM-B) classification algorithms were proposed. Structural clusters were used differently in each of these algorithms. The proposed algorithms were analyzed comparatively on various real-life data sets with similar methods in the literature. The results show that the proposed algorithms can successfully detect the important instances, i.e., the structural information, especially in some data sets, and can utilize the data set more effectively. Secondly, the CURE clustering algorithm was used to obtain the natural structures from the data set. A Representative Points-based Support Vector Machine (RP-SVM) algorithm was proposed, which obtains the structural information of the data set with the CURE algorithm and uses this information in the supervised learning instead of the training set. In this algorithm, the SVM method is trained with a set of representative points containing fewer samples instead of the entire training set. The RP-SVM method was analyzed comparatively with the standard SVM, KMSVM, KNN and CART methods on various real-life data sets. The results show that the RP-SVM method can achieve similar accuracy to the standard SVM method, while significantly reducing the training size and using fewer support vectors. In addition, the RP-SVM method can obtain better accuracy by using fewer training samples compared to the KNN and CART methods. Moreover, while the RP-SVM method achieves less data reduction than the KMSVM method, it is seen that the RP-SVM method is more stable than the KMSVM method by obtaining good results in terms of accuracy in all data sets. The results obtained within the scope of this study show that the natural structures obtained from the data set can contribute to the supervised learning process. The proposed methods can be improved and adapted to different machine learning methods. In addition, the proposed approaches can provide motivation for big data studies.