Tez No İndirme Tez Künye Durumu
610032
Derin öğrenme ile insan edimlerinin tanınması / Human action recognition using deep learning
Yazar:TAYYİP ÖZCAN
Danışman: DOÇ. DR. ALPER BAŞTÜRK
Yer Bilgisi: Erciyes Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Derin öğrenme = Deep learning ; Global optimizasyon yöntemi = Global optimization method ; Parametre optimizasyonu = Parameter optimization ; Parçacık sürü optimizasyonu = Particle swarm optimization ; Sayısal görüntü işleme = Digital image processing
Onaylandı
Doktora
Türkçe
2020
204 s.
Edim; hareket, eylem kelimelerinin eş anlamlısı olarak kullanılabilirken bir diğer anlam olarak ise insan bilincinin bir amaca yönelik davranışlarını ve eylemlerini ifade eden terimdir. İnsan edimlerinin yorumlanması, veri anlamlandırma çalışmalarının önemli bir aşamasını oluşturmaktadır. İnsan edimlerini tanıma, sadece insanların günlük hareketlerinin tanınmasını kapsamaz. El hareketlerinden işaret dili tanıma, yüz mimik hareketlerinden duygu tanıma ve dudak hareketlerinden dudak okuma insan edimlerini tanıma uygulamaları olarak kabul edilebilir. Gelişen teknoloji ile derin öğrenme yöntemleri literatürdeki kullanımını yoğunlaştırmıştır. Genellikle başarılı sonuçların elde edilmesini sağlayan derin öğrenme metotlarından evrişimli sinir ağı (convolutional neural network, CNN) ve yığınlanmış özdevinimli kodlayıcılar (stacked autoencoders, SAE) insan hareketlerini tanımak için sıklıkla kullanılmaktadır. CNN ve SAE metotlarının başarılarını etkileyen önemli faktörlerden birisi bu metotlara ait hiperparametrelerin belirlenmesidir. Bu parametrelerin değer seçiminin kullanıcı deneyimine bırakılması zamansal kayba sebebiyet vermekle beraber optimum parametre seçiminin yapılabilmesi oldukça güçtür. Bu nedenlerden dolayı, bu tez çalışmasında CNN ve SAE metotlarının hiperparametlerini belirlemede global ve sezgisel optimizasyon algoritmaları kullanılmıştır. Grid arama (grid search, GS) ve rastgele arama (random search, RS) yöntemleri global arama yöntemleri olarak kullanılırken, yapay arı koloni algoritması (artificial bee colony, ABC), genetik algoritma (genetic algorithm, GA), diferansiyel gelişim algoritması (diferantial evaluation algorithm, DGA), parçacık sürü optimizasyon (particle swarm optimization, PSO) algoritması ve bu tez çalışmasında geliştirilen hibrit bir algoritma (hAbcPso) sezgisel arama yöntemleri olarak kullanılmıştır. CNN metodunun kullanıldığı çalışmalarda yeni bir CNN mimarisinin kurulmasının yanında transfer öğrenme destekli CNN metotları sunulmuştur. Böylelikle, ön eğitimli CNN modelleri kullanılarak daha etkili ve kolay bir CNN mimarisi kurulumu sağlanmıştır. Bu tez çalışmasının amacı, derin öğrenme yöntemlerinin işaret dili tanıma, insan günlük hareketi tanıma, duygu tanıma ve dudak okuma çalışmaları üzerindeki performanslarını araştırmak ve geliştirmektir. Performansların iyileştirilmesi için veri hazırlama (data preparation), imge ön işleme (image preprocessing), transfer öğrenme (transfer learning), hiperparametre optimizasyonu (hyperparameter optimization) gibi yöntemlerin bir veya bir kaçı ilgili çalışmalarda uygulanmış ve birleşik yöntemler önerilmiştir. Tez çalışmasının birinci kısmında derin öğrenme ile işaret dili tanıma gerçekleştirilmiştir. Bu amaçla rakam ve harf düzeyinde işaret dili tanıma ve hastane acil servisleri için kelime düzeyinde işaret dili tanıma uygulamaları geliştirilmiştir. Yapılan deneysel çalışmalarda harf ve rakam düzeyinde işaret dili tanıma amacıyla kullanılan veri setleri için literatürde bilinen en iyi sonuçlar elde edilmiştir. Hastane ortamında işaret dili tanıma için kelime düzeyinde yeni bir veri seti geliştirilmiş ve derin öğrenme metodu tabanlı önerilen yöntemle deneysel çalışmaları gerçekleştirilmiştir. Tez çalışmasının ikinci kısmında derin öğrenme ile günlük hareket tanıma uygulamaları geliştirilmiştir. Birinci uygulamada, hiperparametre optimizasyonu destekli SAE tabanlı geliştiren yöntemle sensör tabanlı veriler üzerinden insan hareketlerinin sınıflandırılması sağlanmıştır. Birini dışarıda bırak çapraz doğrulama (leave one out cross validation, LOOCV) test tipi kullanılarak yapılan çalışmalarda UCI Har veri seti için literatürde bilinen en iyi başarı oranı elde edilirken WISDM veri seti için literatürde bilinen en iyi sonuca yakın bir doğruluk oranı değeri elde edilmiştir. Bu uygulama için geliştirilen hAbcPso hibrit algoritması destekli SAE'nin diğer optimizasyon algoritması destekli SAE yapılarına göre daha başarılı sonuçlar verdiği istatistiksel analizlerle desteklenmiştir. Tezin bu kısmında yapılan diğer uygulamada statik imge tabanlı veriler üzerinden hareket tanıma çalışması gerçekleştirilmiştir. ABC ve transfer öğrenme destekli CNN mimarisi tabanlı önerilen yöntemle Stanford 40 veri seti üzerinde literatürde bilinen en iyi başarı oranı elde edilmiştir. Tez çalışmasının üçüncü kısmında derin öğrenme ile duygu tanıma uygulamaları gerçekleştirilmiştir. Yapılan ilk çalışmada öncelikle yeni bir veri seti oluşturulmuştur. Bu veri seti için veri toplama işlemi internet arama motorları yardımı ile gerçekleştirilmiştir. Bu uygulamada, veri ön işleme adımlarının ve veri çoğullama (data augmentation, DA) işlemlerinin sınıflandırma başarımı üzerindeki etkisi analiz edilmiştir. Diğer çalışmada genel kullanıma açmak üzere ERUFER adında yeni bir veri seti oluşturulmuştur. Bu veri seti 10 sınıf içermekte ve katılımcılar gönüllülerden oluşmaktadır. Veri ön işleme, ResNet 18, ve hiperparametre optimizasyonu destekli CNN tabanlı önerilen yöntemle ERUFER ve JAFFE veri setleri üzerinde deneysel çalışmalar gerçekleştirilmiştir. ERUFER veri seti için başarılı sonuçlar elde edilmiştir. Diğer taraftan JAFFE veri seti için literatürde bilinen en iyi başarı oranı elde edilmiştir. Tezin son kısmında derin öğrenme ile dudak okuma uygulaması geliştirilmiştir. Bu çalışmada, AvLetters veri setinde yer alan zaman serisi veriler bir araya getirilerek tekil imge haline getirilmiştir. Veri çoğullama adımları uygulanarak veri seti genişletilmiş ve başarı oranı artırılmıştır. Yapılan deneysel çalışmalarla başarılı sonuçlar elde edilip literatürde yer alan en başarılı yöntemlerle kıyaslanabilir duruma getirilmiştir.
Action can be used as a synonym for movement and activity words. As another meaning, it is the term that expresses the behavior and actions of human consciousness for a purpose. Interpretation of human actions constitutes an important stage of data interpretation studies. Recognition of human actions does not only include recognition of the daily movements of people. Sign language recognition from hand movements, emotion recognition from facial gesture movements and lip reading applications from lip movements can be considered as recognition of human actions. Deep learning methods have intensified its use in the literature by using developing technology . Convolutional neural networks (CNN) and stacked autoencoders (SAE) are used often to recognize human actions. One of the important factors affecting the success of CNN and SAE methods is the determination of hyperparameters of these methods. Leaving the selection of these parameters to the user experience causes time loss and also it is very difficult to make the optimum parameter selection. For this reason, global and intelligent heuristic optimization algorithms were used to determine the hyperparameters of CNN and SAE methods in this thesis. Grid search (GS) and random search (RS) methods are used as global search methods. On the other hand, artificial bee colony algorithm (ABC), genetic algorithm (GA), differential evaluation algorithm (DE), particle swarm optimization algorithm (PSO) and a novel developed hybrid algorithm (hAbcPso) were used as heuristic search methods. Despite a new CNN architecture was developed for one of the studies in this thesis, transfer learning supported CNN methods are preferred for other CNN based experiments. In this way, a more effective and easier development of CNN architecture is provided by using pre-trained CNN models. The aim of this thesis is to investigate and improve the performance of deep learning methods on sign language recognition, human daily action recognition, emotion recognition and lip reading studies. In order to improve performance, one or more of the methods such as data preparation, image preprocessing, transfer learning, hyperparameter optimization have been applied in related studies and combined methods have been proposed. In the first part of the thesis, sign language recognition were realized by uisng deep learning. For this purpose, digit and letter level sign language recognition was developed first. Then word level sign language recognition for using hospital emergency services was developed. To the best of our knowledge, the best known results are obtained for the data sets used for letter and digit level sign language recognition. A new word level sign language recognition data set was collected for hospital environment. The experimental studies for the data set were conducted with the proposed method based on the deep learning method. In the second part of the thesis, daily action recognition applications by using deep learning were developed. In the first application, the SAE-based proposed method supported by hyperparameter optimization provides the classification of human actions on sensor-based data. The best success rate in the literature for UCI Har data set was obtained for leave one out cross validation test type, while the accuracy of the WISDM data set was close to the best result. The hAbcPso hybrid algorithm supported SAE, which is developed for this application, gave more successful results than the other optimization algorithm supported SAE structures. The results are supported by statistical analyzes. In the other application of this part of the thesis, action recognition study has been performed for static image based data. To the best of our knowledge, the best success rate in the literature was obtained for the Stanford 40 data set by using the proposed method which includes both ABC and transfer learning supported CNN. In the third part of the thesis, emotion recognition applications based on deep learning were carried out. In the first study, a new data set was created for the first step. Data collection for this data set was performed with the help of internet search engines. In this application, the classification performances of data preprocessing steps and data augmentation operations are analyzed. A new data set named ERUFER was created for public use for the other study. This data set consists of 10 classes and the subjects are volunteers. Experimental studies were carried out on ERUFER and JAFFE data sets by using the proposed method based on data preprocessing, ResNet 18, and hyperparameter optimization supported CNN. Successful results were obtained for the ERUFER data set. On the other hand, the best success rate in the literature for the JAFFE data set was obtained. In the last part of the thesis, lip reading application was developed by using deep learning. In this study, the time series data in the AvLetters data set were combined into single images. The data set was expanded by applying data augmentation steps and the success rate was increased. Successful results have been obtained with the experimental studies and made comparable with the most successful studies in the literature.