Tez No İndirme Tez Künye Durumu
178051
Çok boyutlu uzayda görsel veri madenciliği için üç yeni çatı tasarımı ve uygulamaları / Three new frameworks for the design and application of visual data mining in high dimensional space
Yazar:TURGAY TUGAY BİLGİN
Danışman: PROF.DR. ALİ YILMAZ ÇAMURCU
Yer Bilgisi: Marmara Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Görselleştirme = Visualization ; Veri madenciliği = Data mining ; Veri tabanı sistemleri = Database systems
Onaylandı
Doktora
Türkçe
2007
161 s.
Veri madenciliği, veri ambarlarında veya diğer bilgi depolarında tutulmakta olan büyük miktardaki verinin islenerek içindeki değerli olabilecek bilginin ortaya çıkarılması sürecidir. Veri görsellestirme, algılanabilirliği arttırmak için verinin etkilesimli ve bilgisayar desteği ile görsel olarak temsil edilmesidir. Görsel veri madenciliği ise görsellestirmeyi insan ile bilgisayar arasında bir iletisim kanalı olarak kullanarak yeni ve yorumlanabilir örüntüler ortaya çıkarma sürecidir. Bu tez çalısmasında, veri madenciliği ve veri görsellestirme algoritmalarının çok boyutlu veri setlerinde kullanılması sırasında karsılasılan zorluklar irdelenerek bunlar için çözüm yöntemleri gelistirilmistir. Tez çalısması altı bölümden olusmaktadır. ?lk bölümde öncelikle veri madenciliği, görsellestirme, kümeleme analizi ve görsel veri madenciliği kavramları tanımlanarak veri madenciliğindeki güncel problemlerden bahsedilmistir. Daha sonra, tez kapsamında çözüm getirilen problemin tanımı yapılarak tezin amacı ve organizasyonu verilmistir. Problemin tanımının ardından ikinci bölümde literatürde mevcut bulunan görsellestirme teknikleri, çok boyutluluk sorunu ve çok boyutlu veri setlerinde kullanılan veri madenciliği yöntemleri incelenmistir. Ayrıca veri madenciliği sürecinin kalitesini ve performansını doğrudan etkileyen uzaklık ve benzerlik ölçüm yöntemleri ile küme kalitesi ölçüm yöntemleri verilmistir. Bu bölümde son olarak, iliski tabanlı kümeleme çatısı adı verilen sistemin yapısı incelenmistir. ?liski tabanlı kümeleme çatısı çok boyutlu uzayda hem veri görsellestirme hem kümeleme uygulamaları gelistirmek için uygun altyapı sağlamaktadır. Tez kapsamında iliski tabanlı kümeleme çatısı üzerinde sürdürülen çalısmalarda üç yenilik gerçeklestirildi. Bu yenilikler ve bilimsel katkıları üçüncü, dördüncü ve besinci bölümlerde deneysel sonuçlar ile birlikte verilmistir. Üçüncü bölümde iliski tabanlı kümeleme çatısına, normalde sahip olmadığı yoğunluk tabanlı kümeleme ve istisna filtreleme yetenekleri kazandırmak amacı ile mevcut çatı temel alınarak yeni bir çatı gelistirilmistir. Yeni çatı sisteminde kullanılan görsellestirme aracı istisna filtreleme isleminin insan gözü aracılığı ile görsel olarak da gerçeklestirilebilmesine olanak sağlamaktadır. Çatı, farklı veri setlerine uygulanmıs ve elde edilen sonuçlar bölüm sonunda değerlendirilmistir. Dördüncü bölümde, dengelenmemis kümelenmelerin tespit edilebilmesine olanak veren yeni bir çatı gelistirilmistir. ?liski tabanlı çatı sisteminin dengelenmemis kümelere sahip veri setlerine uygulanması durumunda, veri setindeki kümeleri dengeli olmaya zorladığı görülmüstür. Probleme çözüm olarak, mevcut çatı sisteminde kullanılan graf bölmeleme algoritması yerine Graclus olarak adlandırılan farklı bir kümeleme algoritmasının kullanılabileceği gösterilmis ve yardımcı bir ara uzay kullanılarak istisna filtreleme islemi gerçeklestirilmistir. Besinci bölümde, tez çalısması süresince kullanılan çatıların gerektirdiği yüksek hesaplama gücü ihtiyaçlarını azaltacak bir önisleme sistemi gelistirilmistir. Gelistirilen sistem ile elde edilen sonuçlar, önisleme asaması kullanılmadan elde edilmesi olası sonuçların tahminine de olanak sağlamaktadır. Üç farklı veri setleri ile gerçeklestirilen ölçümler ile önisleme sisteminin bellek ve islemci ihtiyacı konusunda önemli oranda tasarruf sağladığı, küme kalitesi konusunda ise hissedilir bir fark olusturmadığı deneysel sonuçlar ile gösterilmistir. Altıncı bölümde, tez çalısması ile elde edilen sistemlerin genel değerlendirmesi yapılarak, sağlanan bilimsel katkılar özetlenmis, konu ile ilgili çalısacak arastırmacılar için öneriler verilmistir.
Data mining is the process of searching through and extracting potentially useful knowledge from huge amounts of data stored in data warehouses or other kinds of information stores. Data visualization is an interactive way to improve perceptibility through computer aided visual representation of the data. Visual data mining is the process of using visualization as a communication channel between human and computer to extract new and interpretable patterns. In this dissertation, difficulties of using data mining and data visualization algorithms on high dimensional datasets are examined. New methods are developed to deal with them. This dissertation consists of six chapters. In the first chapter data mining, cluster analysis and visual data mining concepts are described and current challenges in data mining are discussed. In addition, problem description, objectives and organization of the dissertation are presented. In the second chapter, literature review of the visualization techniques, the curse of dimensionality and high dimensional data mining techniques are further investigated. Distance and similarity measures which impact the quality and performance of data mining are presented and clustering evaluation methods are discussed. Relationship based clustering framework which provides a convenient way of clustering and data visualization in high dimensional space is examined in the last section of this chapter. Three improvements on the relationship based clustering framework are introduced in the dissertation. These improvements and contributions are presented with the numerous experimental results in third, fourth and fifth chapters. The relationship based clustering framework is normally not capable of density based clustering and outlier filtering. In the third chapter, an improved framework based on the existing framework is introduced to bring in these capabilities. A visualization tool which is used in the new framework enables filtering outliers by the human eye. The framework is used for mining various real life datasets and the results are discussed at the end of the chapter. In the fourth chapter, a new framework is developed to deal with unbalanced clusters. It is realized that, relationship based clustering framework forces clusters to be balanced when applied to the datasets consisting of unbalanced clusters. The graph partitioning algorithm which is the main part of the existing framework is replaced by another type of clustering algorithm called Graclus to deal with this issue. Also, an intermediate space is introduced to filter outliers. All frameworks mentioned in the previous chapters consume much memory and cpu resources. In the fifth chapter, a new preprocessing system is introduced to reduce the computing power requirements. The results gathered from the framework which uses the new preprocessing system, is not the same as the ones gathered from the original framework. However, the new preprocessing system is capable of estimating the results of the original framework. Experimental results on three different real world datasets prove that, the proposed preprocessing system perceiveably reduces the computing power requirements. On the other hand, the difference between the quality of the clusters is not noticeable. The sixth chapter concludes the dissertation with a summary of the scientific contributions and presents some future directions of research and some recommendations for the researchers.