Tez No İndirme Tez Künye Durumu
353637
Bulut bilişim sistemlerinde eşle/indirge yöntemi uygulanarak veri madenciliği yazılım çatısının geliştirilmesi / Development of data mining software framework by using map/reduce method in cloud computing systems
Yazar:FERHAT ÖZGÜR ÇATAK
Danışman: PROF. DR. MEHMET ERDAL BALABAN
Yer Bilgisi: İstanbul Üniversitesi / Fen Bilimleri Enstitüsü / Enformatik Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Dağıtık bilgisayar sistemi = Distributed computer system ; Paralel bilgisayarlar = Parallel computers
Onaylandı
Doktora
Türkçe
2014
173 s.
Makine öğrenmesi, özellikle sınıflandırma ve regresyon problemlerinin çözümüne olanak sağlamaktadır. Makine öğrenmesi yöntemleri arasında destek vektör makinesi (DVM) algoritması yüksek genelleme özelliğinden dolayı en çok kullanılan sınıflandırma yöntemidir. Bununla beraber, DVM sınıflandırma algoritması yüksek boyutlu veri setleri için ihtiyaç duyduğu hesaplama gereksinimleri oldukça yüksektir.Bu çalışmada, çok sınıflı destek vektör makinesi algoritmasının bulut bilişim sistemleri üzerinde Eşle/İndirge tekniği ile eğitilmesi incelenmiştir. Bu çalışmayı dört bölüme ayırmak mümkündür. Birinci bölümde bulut bilişim sistemleri ile ilgili bilgi verilmektedir. Bulut sistemlerde yer alan servis modelleri, dağıtım modelleri, bilimsel araştırmalar için bulut bilişim sistemleri, fonksiyonel programlama ve Eşle/İndirge konuları incelenmiştir.İkinci bölümde, DVM algoritması incelenmektedir. DVM algoritmasının sınıflandırma ve regresyon problemlerinde kullanımı araştırılmıştır. Üçüncü bölümde DVM sınıflandırma algoritmasının Eşleİndirge (MapReduce) tekniği ile dağıtık mimari bulut bilişim sunucuları üzerinde yüksek boyutlu veri setlerinin eğitilmesi anlatılmaktadır. Bulut bilişim sistemlerinde oldukça sık kullanılan Eşleİndirge tekniğinin ve fonksiyonel programlamanın tarihsel gelişimi anlatılmaktadır.Dördüncü bölüm tezin uygulama kısmını oluşturmaktadır. İki kısımdan oluşmaktadır. Birinci kısımda California Irvine Üniversitesi (UCI) tarafından makine öğrenmesi için yayınlanan veri setlerinden yazı ve rakam tanımaya yönelik veri setleri kullanılarak, sadece ikili sınıflandırmaya izin veren DVM sınıflandırma algoritmasının, çok sınıflı sınıflandırma teknikleri ile uygulaması gösterilmektedir. İkinci aşamada Türkiye'de bulunan vakıf ve devlet üniversitelerinin sosyal medya mesaj veri seti ile sınıflandırılması yapılmıştır. Eşleİndirge tekniği ile ortaya çıkan modellerin testi için 10 parçalı çapraz doğrulama yöntemi uygulanarak, her yinelemedeki model iyileşmesi grafiklerle gösterilmiştir. Anahtar kelimeler: Büyük Veri, Destek Vektör Makinesi, Eşle/İndirge, Makine Öğrenmesi, Sosyal Medya
Machine learning allows specially solution of classification and regression problems. Support vector machine algorithm (SVM) is the most commonly used classification method among machine learning techniques due to its high generalization property. However, SVM needs high computational requirements for high-dimensional datasets.In this study, multi-class support vector machine algorithm over cloud computing systems with MapReduce technique is studied. This work can be divided into four parts.In the first section, general information on cloud computing systems is provided. Service models, distribution models, cloud computing systems for scientific research, functional programming and MapReduce in cloud computing were examined.In the second part, SVM algorithm is analyzed. The use of SVM algorithm in classification and regression is studied. In the third part, SVM classification algorithm with MapReduce technique of training high-dimensional datasets on a distributed cloud computing system servers are described. The historical development of MapReduce technique and functional programming that commonly used in cloud computing systems is described.The fourth chapter of this thesis is the application part. It consists of two sections. In the first section, using text and digit classification datasets that is provided by University of Caroline Irvine (UCI) for machine learning, SVM classification algorithm that allows only binary classification is used for multi-class classification with some techniques. In the second section, social media posts data set of foundations and state universities in Turkey is classified. The models that are created with MapReduce are tested with 10-fold cross-validation technique and accuracy improvement of each iteration is shown with graphics. Keywords: Big Data, Machine Learning, MapReduce, Social Media, Support Vector Machines