Tez No İndirme Tez Künye Durumu
398747
Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları / Development and applications of a new method for rule extraction in classification problems
Yazar:MURAT KÖKLÜ
Danışman: PROF. DR. NOVRUZ ALLAHVERDİ
Yer Bilgisi: Selçuk Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Mühendislik Bilimleri = Engineering Sciences
Dizin:
Onaylandı
Doktora
Türkçe
2014
121 s.
Bilgisayar teknolojileri ve veri tabanı yazılımlarındaki gelişmeler sonucunda büyük miktarda veri birikmiş ve eldeki verilerden anlamlı bilgi çıkarma ihtiyacı ortaya çıkmıştır. Büyük miktarda depolanan bu veriler birçok gizli örüntü içermesine rağmen, toplanan veri miktarı büyüdükçe ve verilerdeki karmaşıklık arttıkça, geleneksel yöntemler ile veri bilgiye dönüştürülemez hale gelmektedir. Bu nedenle günümüzde büyük miktarda verileri çözümlemek amacıyla veri madenciliği yöntemleri yaygın bir şekilde kullanılmaktadır. Veri madenciliği yöntemlerinden sınıflandırma, kümeleme ve birliktelik kuralı keşfetme sıklıkla tercih edilmektedir. Sınıflandırma, önceden kategorisi belli olan veriler kullanılarak bir model oluşturulup, yeni karşılaşılan verinin hangi sınıfa ait olduğunu belirleme işlemidir. Yeni bir verinin, belirli sınıflar içinde hangi sınıfa ait olduğunu tespit edecek bir sınıflayıcı oluşturmak amacıyla veri madenciliği yöntemleri sıklıkla kullanılmaktadır. Bu sınıflandırma yöntemleri genellikle başarılı olmasına rağmen, ortaya konulan değişik sınıflandırma ve kural çıkarma algoritmaları özellikle çok sınıflı gerçek dünya problemleri için henüz arzu edilen seviyeye ulaşamamıştır. Bu tez çalışmasında çok sınıflı verilerden kural çıkarımı için yeni bir yöntem geliştirilmiştir. Geliştirilen bu yöntemde ayrık ve gerçel öznitelikler farklı şekilde kodlanmıştır. Ayrık öznitelikler ikili olarak, gerçek öznitelikler ise, iki gerçel değer kullanılarak kodlanmıştır. Gerçel değerler kuralları oluşturan özniteliklerin değer aralıklarının orta noktası ve genişlemesini ifade etmektedir. Kural çıkarım işlemi için sınıflandırma başarısı uygunluk fonksiyonu olarak kullanılmıştır. Uygunluk fonksiyonunun optimizasyonu amacıyla Yapay Bağışıklık Sistemi (YBS) yöntemlerinden olan CLONALG algoritması kullanılmıştır. Önerilen yöntem en uygun aralıkları keşfettiğinden dolayı bu yönteme isim olarak "Aralık Keşfi" anlamına gelen INDISC (INterval DISCovery) verilmiştir. INDISC yöntemi 8 farklı veri kümesi üzerinde test edilmiştir. INDISC yöntemini uygulamak için Pima yerlileri diyabet hastalığı, Orjinal wisconsin göğüs kanseri, Teşhis wisconsin göğüs kanseri, Deniz kabuğu, Süsen çiçeği, Cam kimliklendirme, Şarap ve Tiroid hastalığı veri kümeleri kullanılmıştır. Veriler Irvine California Üniversitesi (UCI) makine öğrenmesi veri deposundan temin edilmiştir. INDISC yöntemi, Pima yerlileri diyabet hastalığı %80.34, Wisconsin göğüs kanseri (orjinal) %99.12, Wisconsin göğüs kanseri (teşhis) %96.31, Deniz kabuğu %62.59, Süsen çiçeği %100, Cam kimliklendirme %77.10, Şarap %99.44 ve Tiroid hastalığı %93.95 doğrulukla sınıflandırmıştır. Diğer yöntemlerle elde edilen başarı yüzdeleri ile geliştirdiğimiz INDISC yöntemi başarı yüzdeleri karşılaştırılmıştır. Tüm veri kümelerinde INDISC yöntemi ile elde edilen sonuçların diğer yöntemlerle elde edilen sonuçlardan daha başarılı olduğu görülmüştür.
It has been aroused the necessity of extracting meaningful information from huge amount of available data that is accumulated as result of development in computer technology and database software. Traditional methods can't cope with turning the data to the knowledge due to amount and complexity of accumulated data that has so many hidden patterns in it. Thus, nowadays the data mining techniques are commonly used for analyzing huge amount of information. Classification, clustering and associated rule extraction of data mining techniques are preferred widely. Classification is the operation of determining class of the data by forming a model that makes use of data whose categories are previously determined. Data mining techniques are frequently used to form a classifier that determines belonging class of a new data among the predetermined classes. Although these classification methods including different classification and rule extraction algorithms are generally successful they don't reach the required success levels when it comes to multi-class real world problems. In this dissertation thesis a new method for rule extraction was developed. Real and discrete attributes were coded differently. Discrete and real attributes were coded as binary and two real values, respectively. Real values represent middle points and extensions of value intervals of attributes that forms of rules. Classification success was used as fitness function for rule extraction operation. One of the methods of Artificial Immune System (AIS) called CLONALG algorithm was used for optimization fitness function. Since the proposed method invents the most appropriate intervals it is called as INDISC (Interval DISCovery) meaning "Interval Invention". INDISC method was tested on 8 different data sets. In order to apply INDISC method the data sets of Pima Indian diabetic illness, Original wisconsin breast cancer, Diagnosis wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid were used. The data were obtained from Irvine California University (UCI) machine learning data bank. INDISC method has classified Pima indian diabetic illness, Original Wisconsin breast cancer, Diagnosis Wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid in the success ratios of %80.34, %99.12, %96.31, %62.59, %100, %77.10, %99.44 and %93.95, respectively. Other methods were compared with proposed INDISC method according to success rates of classification. It has been seen that the results obtained from proposed INDISC method are more successful than all other methods.