Tez No İndirme Tez Künye Durumu
506363
Uzay-zaman poz çantası ile 3B insan hareketlerinden eylem tanıma / Action recognition from 3D human movements with spatio-temporal bag-of-poses
Yazar:SAEID AGAHIAN
Danışman: PROF. DR. CEMAL KÖSE
Yer Bilgisi: Karadeniz Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2018
117 s.
Video işleme çalışmaları 1980'li yıllardan beri çalışılmaktadır. O zamandan beri bilgisayar görü alanında, insan aktivite tanıma en zorlu işlemlerden biri haline gelmiştir. Konuyla ilgili gerçekleştirilmiş çalışmalara rağmen, eylem tanıma ile ilgili birçok sorun halen daha çözümlenememiştir. Son yıllarda Kinect sensörün ortaya çıkması ve derin öğrenme tekniklerindeki gelişmeler güvenilebilir ve maliyeti ucuz olarak 3B insan iskeleti çıkarılabilmektedir. Yapılan tez çalışmasında insan eylem tanınması için 3B iskelet verilerini kullanan bir poz çantası yöntemi önerilmiştir. Çalışmada her bir eylem, önceden tanımlanmış uzay-zamansal anahtar pozlarla temsil edilmektedir. 3B pozları temsil eden uzay-zamansal tanımlayıcıların tanımlanması, alana en çok katkıda yapılan kısımdır. Poz tanımlayıcılar üç parçanın birleştirmesinden oluşturulmuştur. Birincisi 3B iskelet dizisinde ele alınan pozun normalleştirilmiş eklem konumları, ikincisi önceden belirlenmiş bir zaman ofset üzerinden aynı eklemlerden elde edilen yer değişim ve üçüncüsü ele alınan iskeletle bir önceki iskeletin eklemlerinden elde edilen yer değişim vektörleridir. Eğitim pozları üzerinde k-means kümeleme yöntemi uygulayarak anahtar pozlar elde edilmiştir. Daha sonra her eylem anahtar pozlar dizisine dönüştürülmüş ve anahtar poz histogramların elde edilmiştir. Son aşamada ELM sınıflandırıcı olarak kullanılmıştır. Önerilen yöntemin testi için 3B iskelet verilerine sahip ve yaygın kullanılan 5'tane eylem veri tabanı kullanılmıştır. Bunların üçünde, bilinen en başarılı sonuçlar elde edilmiş ve diğerlerinde en iyilerle karşılaştırılabilen sonuçlar elde edilmiştir.
Video processing work has been worked since 1980's. Since that time, human activity recognition has become one of the most challenging tasks in the field of computer vision. Despite the studies that belong to the subject, many problems related to action recognition have not been solved yet. In recent years, with the emergence of the Microsoft Kinect sensor and the resurgence of deep learning methods, is provided cost-efficient and reliable 3D human skeleton. In this thesis, a bag-of-pose method which uses 3D skeletal data for the human action recognition have been proposed. In this study each action is represented by a set of predefined Spatio-temporal key poses. The definition of temporal-spatial descriptors to represent 3D poses is the main contribute of the study. The pose descriptors are consist of three parts concatenation. The first part is the normalized positions of 3D skeleton joints. The second is the displacement of the same joints of the poses over a predetermined time offset and the third part is the displacement vectors that obtained from the joints of the current and the previous skeleton. The Key poses has obtained by applying k-means clustering method on all of training poses. Later every action has been converted to a sequence of key poses and key poses histograms has obtained. In the last stage ELM was used as classifier. For the evaluation of the proposed method, have been used five popular action data sets that have 3D skeleton. Achieved state-of-the-art results on three of the datasets and competitive results on the other two datasets compared to the other methods.