Tez No İndirme Tez Künye Durumu
409820
Veri madenciliği uygulamaları için veri indirgeme algoritmalarının geliştirilmesi ve resim madenciliğine uygulanması / Development of data reduction algorithms for data mining applications and implementation of these algorithms to image mining
Yazar:ONUR İNAN
Danışman: DOÇ. DR. NİHAT YILMAZ
Yer Bilgisi: Selçuk Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Birliktelik analizi = Association analysis ; Görüntü analizi = Image analysis ; Kümeleme = Clustering ; Temel bileşenler analizi = Principal components analysis ; Veri madenciliği = Data mining ; Öznitelik çıkarma = Feature
Onaylandı
Doktora
Türkçe
2015
184 s.
Teknolojinin ilerlemesi ve yaygınlaşmasıyla birlikte çok sayıda veri üretilmekte ve depolanmaktadır. Genelde kendi başlarına değersiz olan bu verilerin hızlı bir şekilde analiz edilerek anlamlı bilgilere dönüştürülmesi gerekir. Veriler büyüdükçe, verilerin tutarlılığı bozulmaya başlamış, içinde gürültü diye tabir edilen tutarsız ve yanlış veri miktarı artmaya başlamıştır. Bu gürültülü veriler, anlamlı bilgiye ulaşılmasını güçleştirmekte, bazı durumlarda imkânsız hale getirmektedir. Bu tez çalışmasında, özellikle medikal ve endüstriyel alandaki görüntü verileri üzerinde veri madenciliği ve sınıflama işlemlerinde kullanılacak verilerin analizinde karşılaşılan gürültülü, yanlış elde edilmiş ve sınıflanmış verilerin elenmesi, daha az nitelikle bilgiyi daha hızlı bir şekilde elde etmeyi amaçlayan sistemler geliştirilmiştir. Gürültülü verilerin elenmesinde, kümeleme algoritmalarından olan k-ortalamalar algoritması kullanılmış ve geliştirilmiştir. Sınıflama işlemlerinde güvenirliliği artırmak için kullanılan k-kat çaprazlama doğrulama algoritması tüm eğitme süreçlerine entegre edilmiştir. Niteliklerin azaltılması işleminde ise birliktelik algoritmalarından Apriori algoritması ve verinin en önemli karakteristik niteliklerini tespit eden Temel Bileşen Analizi (TBA) birleştirilerek oluşturulan hibrid bir sistem ile daha az nitelikle yararlı bilginin elde edilmesi sağlanmıştır. Geliştirilen bu sistemler literatürde yaygın olarak kullanılan veri kümeleriyle test edilmiş ve elde edilen yüksek başarı değerleri literatürdeki sonuçlarla karşılaştırılmıştır. Ayrıca endüstride yüksek hızlı termal transfer yazıcılarda kullanılan yazıcı başlıklarının termal hücre arızalarının miktarını özel tasarlanmış bir mikroskop sistemi ile elde edilen görüntülerinden tespit eden bir sistem geliştirilmiştir. Bu sistemin başarısının artırılması amacıyla gürültülü verilerin elenmesinde geliştirdiğimiz algoritmalar uygulanmış ve sistemin başarısının yükseldiği gözlenmiştir.
By the advancement and spread of technology, lots of data are produced and stored. These data, usually worthless by themselves, must be quickly analyzed and transformed into meaningful information. As the data expands, its consistency started to be deteriorated, and the amount of inconsistent and incorrect data inside it, which is called as "noise", began to increase. The noise makes it difficult and in some cases impossible to reach meaningful information. In this thesis study, in order to eliminate the noisy data that is untruly gotten and classified, which is met in the analysis of data used in data mining and classification especially on image data in the medical and industrial fields, it is developed the systems that aim at getting less information more quickly. In the elimination of noisy data, it is used and developed K-means algorithm, which is one of the clustering algorithms. K-fold cross-validation algorithm, which is used to increase reliability in the classification operations, is integrated in all training processes. In the process of data reduction, it is ensured to achieve less information by a hybrid system formed by the union of Apriority Algorithm, which is one of the integration algorithms, and Principal Component Analysis (PCA), which determines the most important characteristics of data. The systems developed are tested by the data clusters that are commonly used in the literature, and the high values of success obtained are compared to the other conclusions in the literature. In addition, it is developed a system that determines the amount of thermal cell failures of print heads, which are used in the high-speed thermal transfer printers in the industry, by the images that get via a special-designed microscope system. The success of the system is boosted by the method that we develop to eliminate the noisy data by the aim of strengthening the success of this system.