Tez No İndirme Tez Künye Durumu
285606
A classification algorithm using mahalanobis distance clustering of data with applications on biomedical data sets / Biomedikal veri kümeleri üzerinde mahalanobis uzaklığı veri kümelenmesi ile sınıflandırma algoritması
Yazar:BAHADIR DURAK
Danışman: YRD. DOÇ. DR. CEM İYİGÜN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Endüstri Mühendisliği Bölümü
Konu:Endüstri ve Endüstri Mühendisliği = Industrial and Industrial Engineering
Dizin:Kümeleme = Clustering ; Sınıflandırma = Classification ; Uzaklık = Distance ; Veri madenciliği = Data mining
Onaylandı
Yüksek Lisans
İngilizce
2011
104 s.
Sınıflandırma kavramı bilimsel çevrelerce yüzlerce yıldır kullanılmakta ve incelenmektedir. Bu tarihsel süreç içerisinde farklı yöntemler ve algoritmalar geliştirilmiş ve kullanılmıştır.Bugün literature geçmiş olan sınıflandırma algoritmaları, farklı yöntemler kullanmakta olsalar da benzer bir temel üzerinde hareket etmektedirler. Bu temel, tanımlı özellikleri kullanarak, istenen verileri belirlenmiş sınıflarda toplama, farklı bir söylemle, tanımlanmış nedenler ile sonuç arasında bir ilişki kurabilme çabasıdır. Bu çalışma, bugüne kadar kullanılmakta olan bu temele farklı bir bakış açısı getirmeyi amaçlamıştır.Bu çalışmada, verilerin sadece temel özellikleri değil, sınıfları da bir parametre olarak kullanılmıştır. Söz konusu yöntemdeki amaç, bilinen bir değerden gelecek olan bilgiyi de algoritmada kullanma çabasıdır. Diğer bir ifadeyle, verinin dahil olduğu sınıf, bir girdi olarak değerlendirilmiş ve veri kümesi üst bir uzaya transfer edilerek yeni bir çalışma ortamı yaratılmıştır. Aynı zamanda bu yeni ortamda artık problem bir sınıflandırma problemi değil, kümeleme problemidir. Her ne kadar bu mantık Kernel Yöntemini çağrıştırsa da, yöntemin kullanılış biçimi tamamen farklıdır. Oluşturulan yeni uzayda Mahalanobis Uzaklığı ile yapılan hesaplamalar ve oluşturulan kümeler, orijinal uzayda merkez temelli ve KNN temelli 2 farklı sınıflandırma algoritması ile değerlendirilmiştir. Bu yeni yöntem ile her iki algoritmada da ulaşılan başarı oranlarında artış yakalanmıştır. Yeni yönteme daha duyarlı olan merkez temelli algoritma ile başarı oranındaki artışın %8 seviyelerine kadar çıktığı gözlenmiştir.
The concept of classification is used and examined by the scientific community for hundreds of years. In this historical process, different methods and algorithms have been developed and used.Today, although the classification algorithms in literature use different methods, they are acting on a similar basis. This basis is setting the desired data into classes by using defined properties, with a different discourse; an effort to establish a relationship between known features with unknown result. This study was intended to bring a different perspective to this common basis.In this study, not only the basic features of data are used, the class of the data is also included as a parameter. The aim of this method is also using the information in the algorithm that come from a known value. In other words, the class, in which the data is included, is evaluated as an input and the data set is transferred to a higher dimensional space which is a new working environment. In this new environment it is not a classification problem anymore, but a clustering problem. Although this logic is similar with Kernel Methods, the methodologies are different from the way that how they transform the working space. In the projected new space, the clusters based on calculations performed with the Mahalanobis Distance are evaluated in original space with two different heuristics which are center-based and KNN-based algorithm. In both heuristics, increase in classification success rates achieved by this methodology. For center based algorithm, which is more sensitive to new input parameter, up to 8% of enhancement is observed.