Zaman kısıtlamaları ve verideki hızlı artış akıllı karar verme sistemlerine olan ihtiyacı arttırmaktadır. Bu tez, makine öğrenme algoritmalarını kullanarak, yerel yönetimler için yeni bir akıllı karar verme sistemi önermektedir. Önerilen karar verme sisteminin temel amacı, yerel yönetimlerdeki geçmiş verilerden akıllı çözümler keşfetmek ve geleceğe yönelik tahminleme yapmaktır. Önerilen sistem sosyo-kültürel analizlerini, gelir-gider analizlerini, altyapı analizlerini, aykırı durum tespit analizlerini ve kolaylaştırma - doğrulama - benzerlik analizlerini içermektedir.
Yerel yönetim verileri analiz edilirken, karar ağacı yaklaşımı bir veri madenciliği tekniği olarak kullanılmıştır. Farklı ağaç veya veri setlerinden yansıyan bilgiyi karşılaştırmak için karar ağaçlarının benzerliğini değerlendirmeye ihtiyaç duyulmuştur. Geçmişte, karar ağaçlarının benzerliğini ölçmek için, basit bir formül veya entropi ölçümü gibi farklı perspektifler ve hesaplama teknikleri kullanılmıştır. Önceki çalışmalardan farklı olarak, bu tezde, karar ağaçları arasındaki benzerliği belirlemek için birden fazla veri madenciliği tekniğini (sınıflandırma, sıralı örüntü madenciliği ve k-en yakın komşu) uygulayan yeni bir yaklaşım, DTreeSim, önerilmektedir. Öncelikle, bir sınıflandırma algoritması kullanılarak farklı veri ambarı alt kümelerinden karar ağaçları oluşturulmakta, ardından kuralları çıkarmak için sıralı örüntü madenciliği karar ağaçları üzerine uygulanmakta, sonrasında da benzerliği hesaplamak amacıyla bu kurallar üzerine Genel Benzerlik ve Parçalı Benzerlik adı verilen iki yeni ölçme tekniği ile birlikte k-en yakın komşu algoritması uygulanmaktadır.
Deneysel çalışmalarda, tezde önerilen yeni benzerlik hesaplama teknikleri, hem birbirleri ile karşılaştırılmış, hem de mevcut yaklaşımlarla karşılaştırılmıştır. Karşılaştırma sonuçları, tezde önerilen yaklaşımın mevcut yaklaşımlardan daha iyi sonuçlar ürettiğini göstermektedir, çünkü sıralı örüntü madenciliği ile karar ağaçlarındaki dalların değerleri de dikkate alınmaktadır.
|
Time constraints and growing datasets increase the need for intelligent decision-maker systems. This thesis proposes a novel intelligent decision-maker system for local municipalities using machine learning algorithms. The main purpose of this decision-maker system is to discover intelligent solutions from past data of local municipality services and to estimate future activities. Proposed system includes socio-cultural analyses, income-expense analyses, infrastructure analyses, fraud detection analyses and simplification - verification - similarity analyses.
When analyzing local municipality data, decision tree approach has been used as a data mining technique. We needed to evaluate the similarity of decision trees to compare the knowledge reflected in different trees or datasets. There have been multiple perspectives and multiple calculation techniques to measure the similarity of two decision trees, such as using a simple formula or an entropy measure. Differently from the previous studies, this thesis proposes DTreeSim, a new approach that applies multiple data mining techniques (classification, sequential pattern mining, and k-nearest neighbors) sequentially to identify similarities among decision trees. After the construction of decision trees from different data marts using a classification algorithm, sequential pattern mining was applied to the decision trees to obtain rules, and then k-nearest neighbor algorithm was performed on these rules to compute similarities using two novel measures: General Similarity and Pieced Similarity.
In the experimental studies, novel decision tree similarity measures proposed in this thesis were compared to each other, and also compared with existing approaches. The comparisons indicate that our proposed approach performs better than existing approaches, because it takes into account the values of the branches in the trees through sequential pattern mining. |