Tez No İndirme Tez Künye Durumu
368835
Multiobjective relational data warehouse design for the cloud / Bulut için çok amaçlı ilişkisel veri ambarı tasarımı
Yazar:TANSEL DÖKEROĞLU
Danışman: PROF. DR. AHMET COŞAR
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2014
157 s.
Günümüz dağıtık veri ambarları tasarım teknikleri veri tablolarını daha önceden belirlenmiş bilgisayar donanımlarına en iyi şekilde atayan yöntemler kullanmaktadır. Bulut bilişimin kullanılmaya başlanması ile birlikte ilişkisel dağıtık veri ambarlarını alternatif sanal donanımlar ile daha maliyet etkin tasarlayabilmek mümkün olmaktadır. Bu tasarımı en iyi şekilde yapabilmek NP-Zor bir problem olduğu için tecrübeye dayalı ve güvenilir algoritmaların kullanılması kaçınılmazdır. Bu algoritmalar çok amaçlı olarak sorguların cevap zamanlarını ve bulut bilişim üzerinde en uygun maliyetli olmasını sağlamalıdır. Sanal makine tipleri, veri saklama, iletişim ağı ve I/O genişliği, maliyetleri dikkate alınması gereken noktalardır. Bu tez ile birlikte, iki değişik algoritma önerilmektedir. Problemin çözümü için önerdiğimiz bu algoritmalar, çok amaçlı dallanma-sınırlandırma algoritması ve genetik algoritmadır. Bu algoritmalar yeni geliştirilen çok amaçlı bir sorgu eniyileme yazılımı, DPACO, kullanır ve bunun ile en iyi tasarımı elde etmeye çalışır. DPACO eniyileme yazılımı ile sanal kaynakları belli olan dağıtık veri ambarı tasarımlarının sorgu yüklerinin cevap verme süreleri yaklaşık olarak hesaplanmaktadır. Algoritmalardan tasarımı en iyi gerçekleştiren olarak genetik algoritma tespit edildi. Bu algoritma için yeni bir kromozon yapısı ile birlikte, çaprazlama ve mutasyon operatörleri geliştirildi. Genetik algoritmanın etkinliği en iyi sonuçları bulan çok amaçlı dallanma-sınırlandırma algoritması ile karşılaştırıldı. Sonuçların birbirlerine çok yakın olduğu gözlendi. Bunun yanında, genetik algoritma çözümleri saniyeler içerisinde bulmayı başarırken, dallanma-sınırlandırma algoritması saatlerce çalışarak eniyilemeyi gerçekleştirebildi. Ayrıca maliyet etkin maddeleştirilmiş görünümler kullanılarak tasarımların kalitesi arttırıldı. Özel bir bulut bilişim sunumcusu üzerinde yapılan deneyler sonucunda, tasarlanan dağıtık bulut veri ambarlarının ve geliştirilen algoritmaların etkinliği doğrulandı. Harcanan bütçe ve sorgu sürelerinin iyileştirilmesinde belirgin ilerlemeler rapor edildi.
Conventional distributed Data Warehouse (DW) design techniques seek to assign data tables/fragments to a given static database hardware setting optimally. However; it is now possible to use elastic virtual resources provided by the Cloud environment, thus achieve reductions in both the execution time and the monetary cost of a DW system within predefined budget and response time constraints. Finding an optimal assignment plan for database tables to machines for this design problem is NP-Hard. Therefore, robust multiobjective heuristic algorithms are needed for cost-efficient Cloud DWs in terms of query workload response time and the total ownership price of virtual resources (CPU and/or cores, RAM, hard disk storage, network bandwidth, and disk I/O bandwidth). In this thesis we propose two algorithms for the solution of the relational Cloud DW design problem; (1) Multiobjective Design with Branch and Bound (MOD-B&B) and (2) Multiobjective Evolutionary Genetic Algorithm (MOD-GA). These algorithms make use of a novel Cloud DW single query optimizer, DPACO, that can find the best distributed query execution plan and accurately calculate its response time. By using DPACO on an input query workload we find the best query execution plans for given query workloads using the given virtual resource allocations. The best allocation of virtual resources for a DW design is achieved by using MOD-GA. We developed a special chromosome structure, along with crossover and mutation operators, to achieve the best results from MOD-GA. We experimentally verified the accuracy of the algorithm by comparing its output designs against the optimal designs obtained by using an exhaustive MOD-B&B algorithm. Our evaluations show that the obtained designs are very close to the optimal solution set and while MOD-B\&B algorithm requires hours to complete its execution, the MOD-GA is able to return almost the same results within seconds. In order to achieve further improvement in total response time of a query workload with monetary savings from Cloud resources, we improved the Cloud DW designs by using (near-) optimal and cost-efficient materialized views. Through our experiments performed on a private Cloud server, remarkable improvements in both response times of query workloads and monetary costs of consumed Cloud resources have been achieved. The reason for these savings is that, by materializing join results on hard disk, we obtain large CPU resource savings reducing Cloud cost, offsetting the cost of extra hard disk storage by a wide margin.