Tez No İndirme Tez Künye Durumu
416392
Utility based and user defined scoring based mining of sequential patterns / Faydaya bağlı ve kullanıcı tanımlı skorlamaya bağlı sıralı desen madenciliği
Yazar:ÖZNUR ALKAN
Danışman: DOÇ. DR. PINAR KARAGÖZ
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2015
121 s.
Sıralı desen çıkarımı, geniş uygulamaları olan bir veri madenciliği problemidir. Klasik, sıklığa dayalı çözümler, çoğunlukla son kullanıcı için bilgi verici olmayan çok fazla sayıda desen bulunmasına yol açmaktadır. Bu problemi çözmek için, ikili olmayan, fayda denilen değerleri nesnelere atayan, faydaya dayalı çıkarım teknikleri ortaya çıkmıştır. Bu tez çalışmasında, faydaya dayalı sıralı desen çıkarımı için önerilen çözümlerin varolan eksikliklerine ve zorluklarına cevaben iki yeni çatı geliştirilmiştir. İlk çözüm, yüksek faydaya dayalı sıralı desen çıkarımı için, verimli veri yapıları, ve büyük arama alanını budamak için, CRoM (Birikmiş Kalan Uyum)'a bağlı üst limiti kullanarak yeni bir budama tekniği sunan bir çatıdır. CRoM, aday desenlerin faydaları üzerinde daha sıkı bir üst limit tanımlayarak, varolan tekniklere kıyasla daha ölçülü bir budama sağlamaktadır. Buna ek olarak, HuspExt (Yüksek Faydaya Dayalı Sıralı Desen Çıkarımı) adlı çocuk desenlerin faydasını ana desenden hesaplayan verimli bir algoritma geliştirilmiştir. Farklı alanlara ait, hem sentetik hem de gerçek veri kümeleri üzerinde yapılan deneyler göstermektedir ki, önerilen yaklaşım yüksek faydaya dayalı sıralı desenleri, farklı özelliklerdeki büyük veri kümelerinden, düşük fayda limitlerinde dahi etkili bir şekilde çıkarmaktadır. İkinci çözüm, fayda tanımının, desenlerin değerlerini tanımlamada yeterli olmadığı durumlar için yeni bir yaklaşım sunmaktadır. Bu çözüm, kullanıcı tanımlı skorlama mekanizmasına bağlıdır ve şu anki versiyonu web kullanımı alanında değerlendirilmiştir. Gerçek veriler üzerinde yapılan deneyler göstermektedir ki, ikinci çözüm, kullanıcı tanımlı skorlama mekanizması altında desenleri etkin bir şekilde çıkarmaktadır.
Sequential pattern mining is an important data mining problem with broad applications. The classical frequency-based solutions often lead to many patterns being identified, most of which are not informative for the end-users. To handle this problem, utility based mining technique emerged, which assign non-binary values, called utilities, to items and calculate pattern utilities accordingly. In the thesis work, two new frameworks are proposed in response to the challenges and limitations of the existing solutions in utility based sequence mining. The first solution is a new framework for high utility sequential pattern mining, which presents efficient data structures and a new pruning technique that is based on Cumulated Rest of Match (CRoM) based upper bound so as to efficiently prune the huge combinatorial search space. CRoM, by defining a tighter upper bound on the utility of the candidates, allows more conservative pruning before candidate pattern generation in comparison to the existing techniques. In addition, an efficient algorithm, HuspExt (High Utility Sequential Pattern Extraction), have been developed, which calculates the utilities of the child patterns based on that of the parents'. Substantial experiments on both synthetic and real datasets from different domains show that, the proposed solution efficiently discovers high utility sequential patterns from large scale datasets with different data characteristics, under low utility thresholds. The second solution presents a new approach for sequential pattern extraction for the cases where utility definition is not adequate to define the value of the patterns. This solution is based on user-defined scoring mechanism, and the proposed solution is evaluated under the web usage domain. Evaluation of this solution on real datasets from web domain prove that, the solution effectively discovers patterns under user defined scoring mechanism.