Tez No İndirme Tez Künye Durumu
663005
Nümerik verilerde otomatik kural madenciliği için çok amaçlı melez akıllı optimizasyon tabanlı model geliştirme / Multi-objective hybrid intelligent optimization based model development for automatic rule mining in numerical data
Yazar:ELİF VAROL ALTAY
Danışman: PROF. DR. BİLAL ALATAŞ
Yer Bilgisi: Fırat Üniversitesi / Fen Bilimleri Enstitüsü / Yazılım Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2021
137 s.
Büyük veri kümelerinde birliktelik kurallarının keşfi veri madenciliğinin önemli konularından biridir. Birliktelik kural madenciliği için kullanılan yöntemlerin neredeyse tamamı ayrık değerli veri setleri için önerilmiştir. Bu amaçla nümerik değerli niteliklere sahip birçok gerçek dünya verisinin, klasik kural madenciliği algoritmasında kullanılabilmesi için ikili veya ayrık değerli hale getirilmesi gerekmektedir. Fakat bu ayrıklaştırma işlemi; gerçek verileri değiştirmektedir ve gerçek yüksek kaliteli kurallar veri kaybı ve nitelik etkileşimleri nedeniyle değiştirilen veya değişikliğe uğrayan verilerden keşfedilemez hale gelmektedirler. Madencilik süreci sırasında nitelik aralıklarını ayrıklaştırma gibi bir ön işlem olmadan otomatik olarak ayarlamak daha anlamlıdır. Bu tez çalışmasında; yoğun nesne kümelerini üretmeden ilgili niteliklerin ilgili aralıklarını eş zamanlı olarak ayarlayarak indirgenmiş yüksek kaliteli nümerik birliktelik kurallarını hızlı ve doğrudan keşfetmek için diferansiyel evrim ve sinüs kosinüs algoritmasına dayalı yeni melez çok amaçlı evrimsel optimizasyon yöntemleri önerilmiştir. Bu algoritmalar genel bir arama işlemi uygulamaktadır ve kural madenciliği görevini, aynı anda birbiriyle çelişen farklı metrikleri karşılayan çok amaçlı bir problem olarak modelleyerek yüksek kalitede kurallar bularak gerçekleştirirler. Bu tez çalışmasında önerilen algoritmalar, keşfedilen kuralların yüksek destek ve güvene sahip olmasını ve aynı zamanda anlaşılabilir olmasını sağlamaktadır. Ayrıca kuraldaki niteliklerin uygun minimum aralıklarını, kural keşfi esnasında otomatik olarak bulmaktadırlar. Önerilen yöntemler, her veri seti için önceden belirlenen minimum destek ve güven metriklerine olan ihtiyacı ortadan kaldırarak kural madenciliği sorununu otomatik hale getirmektedirler. Bu tez çalışmasında önerilen yeni yöntemlerin performansı, gerçek veri setleri üzerinde literatürde var olan diğer yöntemlerle test edilmiştir. Sonuçlar, önerilen yöntemlerin nitelik sayısının az ve kayıt sayısının fazla olduğu veri setleri üzerinde diğer yöntemlere kıyasla daha başarılı olduğunu göstermektedir.
Discovery of association rules in large data sets is one of the most important tasks of data mining. Almost all of the methods used for mining association rules are proposed for discrete-valued data sets. For this purpose, in many real-world data that have numeric-valued attributes should be transformed into binary or discrete-valued in order to be used by the classical rule mining algorithms. However, this a priori discretization process changes the real data and real high-quality rules cannot be discovered from the changed or modified data due to data loss and attribute interactions. Automatically adjusting the attribute intervals at the time of the mining process using the same unique rule mining algorithm without a preprocess such as discretization is more meaningful. In this thesis, differential evolution and sine-cosine algorithm based novel hybrid multi-objective evolutionary optimization methods are proposed for rapidly and directly mining the reduced high-quality numerical association rules by simultaneously adjusting the relevant intervals of related attributes without finding the frequent itemsets. These algorithms perform a global search and find the high-quality rules set in only one execution by modeling the rule mining task as a multi-objective problem that simultaneously meets different conflicting metrics. The algorithms proposed in this thesis study ensures the discovered rules to have high confidence and support and to be comprehensible. They also automatically find the related minimum intervals for the attributes of the mined rules. Further, the proposed methods automate the rule mining problem by eliminating the need for metrics such as minimum confidence and minimum support determined beforehand for each data set. The performance of new algorithms proposed in this thesis were tested with the state-of-the-art methods on real data sets. The results show the superiority of the proposed methods on the data sets containing fewer attributes and higher number of instances.