Tez No İndirme Tez Künye Durumu
441969
An effective approach for comparison of association rule mining algorithms based on controlled data, statistical inference and multiple criteria / Birliktelik kural madenciliği algoritmalarının karşılaştırılması için kontrollü veri, istatistiksel çıkarım ve çok kriter tabanlı etkili bir yaklaşım
Yazar:SANAM AZADİAMİN
Danışman: PROF. DR. GÜLSER KÖKSAL
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Endüstri Mühendisliği Ana Bilim Dalı
Konu:Endüstri ve Endüstri Mühendisliği = Industrial and Industrial Engineering
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2016
107 s.
Birliktelik kuralları, veri madenciliğinin önemli sonuçlarından biri olarak hacimli verilerin analizine ve onlardan faydalı bilgiler çıkarılmasına yardımcı olur. İlginç birliktelik kuralların bulunması ve bunların azaltılması için bir çok algoritma geliştirilmiştir. Tüm önerilen metotların güçlü ve zayıf noktaları vardır ve bu metotlar uygulanılan veriye göre faydalı olabilir. Literatürde birliktelik kural madenciliği algoritmalarını karşılaştıran bazı çalışmalar mevcuttur. Ancak bunlar en iyi algoritmayı belirlemede yeterince başarılı değildir. Her karşılaştırma yöntemi bu algoritmaları farklı ölçülere göre değerlendirmekte ve doğru kurallar bilinmediği için bu değerlendirme yeterince güvenilir sonuç veremeyebilmektedir. Jabarnejad (2010) lojistik regresyona dayalı bir mekanizmadan ilginç kurallar elde eden ve bunları bulmada en başarılı olan kural viii azaltma algoritmasını belirleyen bir yöntem geliştirmiştir. Bu çalışmada, bu yöntem genel olarak birliktelik kural madenciliği algoritmalarını karşılaştırmak üzere genişletilmiştir. Bu amaçla doğru kuralların nasıl türetileceği, algoritmaların hangi veriler üzerinde test edileceği, karşılaştırmada hangi ölçülerin nasıl kullanılacağı ile ilgili bir yaklaşım önerilmiştir. Test verilerinin oluşturulması için istatistiksel deney tasarımı ve analizi; karşılaştırma ölçülerinin ilişkilerinin ve önemlerinin değerlendirilmesi için faktör analizi, ANOVA ve parametrik olmayan hipotez testi gibi istatistiksel metotlar kullanılmıştır. Sonuçta, eğer karşılaştırılan birliktelik kural madenciliği algoritmaları arasında önemli istatistiksel farklar varsa, bunların karşılaştırması PROMETHEE ile yapılmıştır. Yöntem, örnek olarak seçilen üç algoritmanın karşılaştırılması için uygulanmıştır. Sonuçlar tartışılmış, ileri araştırma konuları sunulmuştur.
Association rules are an important set of data mining results, which are helpful in handling large amount of data and extracting useful association information from them. There are many algorithms developed for finding interesting association rules and also some other algorithms for rule reduction purposes. All of the proposed methods have some strong and weak points, which can be useful according to their application areas. In the literature, there exist several comparison studies trying to find the best algorithm according to the user's interests. But every comparison approach considers these algorithms using different measures, and it is hard to assess performance of an algorithm with respect to a measure since interesting association rules are unknown. A novel comparison method has been proposed by Jabarnejad (2010) based on interesting rules generated by logistic regression to compare rule reduction algorithms. In this study, this approach is extended to cover all association rule mining algorithms, on a broader set of test data developing and using relevant vi comparison measures. This approach utilizes design and analysis of experiments to generate test data. Furthermore, it defines several comparison measures, and the dependency and importance of these measures are analyzed using statistical methods such as factor analysis, ANOVA and nonparametric hypothesis tests. Finally, if statistical analyses show significant differences between applied association rule mining methods, it handles multiple comparisons using PROMETHEE. The approach is demonstrated by comparing three association rule mining algorithms. The results are discussed and future research directions are presented.