Tez No |
İndirme |
Tez Künye |
Durumu |
178051
|
|
Çok boyutlu uzayda görsel veri madenciliği için üç yeni çatı tasarımı ve uygulamaları / Three new frameworks for the design and application of visual data mining in high dimensional space
Yazar:TURGAY TUGAY BİLGİN
Danışman: PROF.DR. ALİ YILMAZ ÇAMURCU
Yer Bilgisi: Marmara Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Görselleştirme = Visualization ; Veri madenciliği = Data mining ; Veri tabanı sistemleri = Database systems
|
Onaylandı
Doktora
Türkçe
2007
161 s.
|
|
Veri madenciliği, veri ambarlarında veya diğer bilgi depolarında tutulmaktaolan büyük miktardaki verinin islenerek içindeki değerli olabilecek bilginin ortayaçıkarılması sürecidir. Veri görsellestirme, algılanabilirliği arttırmak için verininetkilesimli ve bilgisayar desteği ile görsel olarak temsil edilmesidir. Görsel verimadenciliği ise görsellestirmeyi insan ile bilgisayar arasında bir iletisim kanalı olarakkullanarak yeni ve yorumlanabilir örüntüler ortaya çıkarma sürecidir.Bu tez çalısmasında, veri madenciliği ve veri görsellestirme algoritmalarınınçok boyutlu veri setlerinde kullanılması sırasında karsılasılan zorluklar irdelenerekbunlar için çözüm yöntemleri gelistirilmistir.Tez çalısması altı bölümden olusmaktadır. ?lk bölümde öncelikle verimadenciliği, görsellestirme, kümeleme analizi ve görsel veri madenciliği kavramlarıtanımlanarak veri madenciliğindeki güncel problemlerden bahsedilmistir. Daha sonra,tez kapsamında çözüm getirilen problemin tanımı yapılarak tezin amacı veorganizasyonu verilmistir.Problemin tanımının ardından ikinci bölümde literatürde mevcut bulunangörsellestirme teknikleri, çok boyutluluk sorunu ve çok boyutlu veri setlerindekullanılan veri madenciliği yöntemleri incelenmistir. Ayrıca veri madenciliğisürecinin kalitesini ve performansını doğrudan etkileyen uzaklık ve benzerlik ölçümyöntemleri ile küme kalitesi ölçüm yöntemleri verilmistir. Bu bölümde son olarak,iliski tabanlı kümeleme çatısı adı verilen sistemin yapısı incelenmistir. ?liski tabanlıkümeleme çatısı çok boyutlu uzayda hem veri görsellestirme hem kümelemeuygulamaları gelistirmek için uygun altyapı sağlamaktadır.Tez kapsamında iliski tabanlı kümeleme çatısı üzerinde sürdürülençalısmalarda üç yenilik gerçeklestirildi. Bu yenilikler ve bilimsel katkıları üçüncü,dördüncü ve besinci bölümlerde deneysel sonuçlar ile birlikte verilmistir.Üçüncü bölümde iliski tabanlı kümeleme çatısına, normalde sahip olmadığıyoğunluk tabanlı kümeleme ve istisna filtreleme yetenekleri kazandırmak amacı ilemevcut çatı temel alınarak yeni bir çatı gelistirilmistir. Yeni çatı sistemindekullanılan görsellestirme aracı istisna filtreleme isleminin insan gözü aracılığı ilegörsel olarak da gerçeklestirilebilmesine olanak sağlamaktadır. Çatı, farklı verisetlerine uygulanmıs ve elde edilen sonuçlar bölüm sonunda değerlendirilmistir.Dördüncü bölümde, dengelenmemis kümelenmelerin tespit edilebilmesineolanak veren yeni bir çatı gelistirilmistir. ?liski tabanlı çatı sisteminin dengelenmemiskümelere sahip veri setlerine uygulanması durumunda, veri setindeki kümeleridengeli olmaya zorladığı görülmüstür. Probleme çözüm olarak, mevcut çatısisteminde kullanılan graf bölmeleme algoritması yerine Graclus olarak adlandırılanfarklı bir kümeleme algoritmasının kullanılabileceği gösterilmis ve yardımcı bir arauzay kullanılarak istisna filtreleme islemi gerçeklestirilmistir.Besinci bölümde, tez çalısması süresince kullanılan çatıların gerektirdiğiyüksek hesaplama gücü ihtiyaçlarını azaltacak bir önisleme sistemi gelistirilmistir.Gelistirilen sistem ile elde edilen sonuçlar, önisleme asaması kullanılmadan eldeedilmesi olası sonuçların tahminine de olanak sağlamaktadır. Üç farklı veri setleri ilegerçeklestirilen ölçümler ile önisleme sisteminin bellek ve islemci ihtiyacıkonusunda önemli oranda tasarruf sağladığı, küme kalitesi konusunda ise hissedilirbir fark olusturmadığı deneysel sonuçlar ile gösterilmistir.Altıncı bölümde, tez çalısması ile elde edilen sistemlerin genel değerlendirmesiyapılarak, sağlanan bilimsel katkılar özetlenmis, konu ile ilgili çalısacakarastırmacılar için öneriler verilmistir.
|
|
Data mining is the process of searching through and extracting potentiallyuseful knowledge from huge amounts of data stored in data warehouses or otherkinds of information stores. Data visualization is an interactive way to improveperceptibility through computer aided visual representation of the data. Visual datamining is the process of using visualization as a communication channel betweenhuman and computer to extract new and interpretable patterns.In this dissertation, difficulties of using data mining and data visualizationalgorithms on high dimensional datasets are examined. New methods are developedto deal with them.This dissertation consists of six chapters. In the first chapter data mining,cluster analysis and visual data mining concepts are described and current challengesin data mining are discussed. In addition, problem description, objectives andorganization of the dissertation are presented.In the second chapter, literature review of the visualization techniques, thecurse of dimensionality and high dimensional data mining techniques are furtherinvestigated. Distance and similarity measures which impact the quality andperformance of data mining are presented and clustering evaluation methods arediscussed. Relationship based clustering framework which provides a convenientway of clustering and data visualization in high dimensional space is examined in thelast section of this chapter.Three improvements on the relationship based clustering framework areintroduced in the dissertation. These improvements and contributions are presentedwith the numerous experimental results in third, fourth and fifth chapters.The relationship based clustering framework is normally not capable of densitybased clustering and outlier filtering. In the third chapter, an improved frameworkbased on the existing framework is introduced to bring in these capabilities. Avisualization tool which is used in the new framework enables filtering outliers bythe human eye. The framework is used for mining various real life datasets and theresults are discussed at the end of the chapter.In the fourth chapter, a new framework is developed to deal with unbalancedclusters. It is realized that, relationship based clustering framework forces clusters tobe balanced when applied to the datasets consisting of unbalanced clusters. Thegraph partitioning algorithm which is the main part of the existing framework isreplaced by another type of clustering algorithm called Graclus to deal with this issue.Also, an intermediate space is introduced to filter outliers.All frameworks mentioned in the previous chapters consume much memoryand cpu resources. In the fifth chapter, a new preprocessing system is introduced toreduce the computing power requirements. The results gathered from the frameworkwhich uses the new preprocessing system, is not the same as the ones gathered fromthe original framework. However, the new preprocessing system is capable ofestimating the results of the original framework. Experimental results on threedifferent real world datasets prove that, the proposed preprocessing systemperceiveably reduces the computing power requirements. On the other hand, thedifference between the quality of the clusters is not noticeable.The sixth chapter concludes the dissertation with a summary of the scientificcontributions and presents some future directions of research and somerecommendations for the researchers. |