Tez No İndirme Tez Künye Durumu
649417
İnsan aktivitesi tanımaya yönelik büyük veri setlerinde kümeleme yöntemlerinin bulut üzerinde paralelleştirilmesi / Parallelization of clustering methods for human activity recognition big datasets on cloud
Yazar:AHMED ABDULRAHMAN M.JAMEL
Danışman: PROF. DR. BAHRİYE AKAY
Yer Bilgisi: Erciyes Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
110 s.
Mobil ve giyilebilir cihazların günlük insan aktivitesine ait verileri toplaması sayesinde, büyük ölçekli veriler ortaya çıkmıştır. Toplanan veriler heterojen ve doğrusal olarak ayrılamaz veriler olduğu için insan aktivitesini tahmin etmeye başlamadan önce verideki heterojenliğin azaltması gerekir. Doğrusal olmayan, heterojen veya büyük hacimli veriler üzerinde aktivite gruplamaya yönelik klasik kümeleme yöntemleri yetersiz kalmaktadır. Bu nedenle, verileri yeni bir özellik vektörü temsiline dönüştüren çekirdekleştirme (ing: kernelization) uygulanır. Bu çalışma, daha az kaynak kullanımı ile verideki heterojenliği azaltarak İnsan Aktivitesi Tanımaya (ing: Human Activity Recognition, HAR) yönelik veri kümelemesi için çekirdekleştirmeye dayalı gürbüz bir yöntem sunmayı amaçlamaktadır. Büyük verinin hesaplama maliyetini azaltmak için paralel yaklaşık (ing: approximate) kümeleme yöntemi önerilmiştir. HAR verilerinin paralel ortamda uygulanması ile veri boyutu azaltma, filtreleme, örnekleme ve yaklaşık kümeleme yöntemleri kullanılmış ve verilerdeki gürültü, heterojenlik ve doğrusal olmama gibi sorunlar çözülmüştür. Geliştirilen yöntemde örnekleme yapılarak, bu örneklem üzerinde çekirdek (kernel) K-means uygulanarak küme merkezleri alınmıştır. Örnek üzerindeki kümeleme işlemi ile oluşan merkezler baz alınarak verinin büyük parçasında en yakın komşu (ing: K Nearest Neighbour, KNN) algoritması uygulanmış ve yaklaşık değerler elde edilmiştir. Kümeleme algoritmasının kalitesini değerlendirmek için doğrulama ölçütü olarak Normalized Mutual Information (NMI) kullanılmıştır. Geliştirilen yöntem, Random Forest, KNN, Support Vector Machines (SVM) ve C4.5 sınıflandırma teknikleri ile kesinlik (precision), duyarlılık (recall), f-skoru metrikleri üzerinden kıyaslanmıştır. Geliştirilen yöntemin sınıflandırma başarısı ve hesaplama zamanı kıyaslanan yöntemlere nazaran daha iyi bulunmuştur. Ayrıca, insanın fiziksel aktivitelerini etkili bir şekilde tespit edip veri kümelerinin heterojenliğini azalttığı görülmüştür. Bu tez çalışması ile geliştirilen paralelleştirilmiş yarı denetimli yaklaşık yöntem, HAR kümeleme ile paralel hesaplama alanları arasındaki boşluğu doldurmaktır. Anahtar Kelimeler: Aktivite tanıma, yaklaşık metodu, kümeleme, paralel hesaplama, örnekleme
Recently, owing to the capability of mobile and wearable devices to sense daily human activity, human activity recognition (HAR) datasets have become a large-scale data resource. Due to the heterogeneity and nonlinearly separable nature of the data recorded by these sensors, the datasets generated require special techniques to accurately predict human activity and mitigate the considerable heterogeneity. Consequently, classic clustering algorithms do not work well with these data. Hence, kernelization, which converts the data into a new feature vector representation, is performed on nonlinearly separable data. This study aims to present a robust method to perform HAR data clustering to mitigate heterogeneity in data with minimal resource consumption. Therefore, we propose a parallel approximated clustering approach to handle the computational cost of big data by addressing noise, heterogeneity, and nonlinearity in data using data reduction, filtering, and approximated clustering methods on parallel computing environments that have not been previously addressed. Our key contribution is to treat HAR as big data implemented by approximation kernel K-means approaches and fill the gap between the HAR clustering cost and parallel computing fields. We implemented our approach on Google cloud on a parallel spark cluster, which helped us to process large-scale HAR data across multiple machines of clusters. The normalized mutual information (NMI) is used as validation metric to assess the quality of the clustering algorithm. Additionally, the precision, recall, f-score metrics values are obtained somehow to compare the results with a classification technique. The experimental results of our clustering approach prove its effectiveness compared with a classification technique and can efficiently detect physical activity and mitigate the heterogeneity of the datasets. Keywords: Activity recognition, approximation approach, clustering, parallel computing, sampling.