Tez No İndirme Tez Künye Durumu
729816
Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma / Isolated sign language recognition using deep learning architectures
Yazar:CEMİL GÜNDÜZ
Danışman: DOÇ. DR. HÜSEYİN POLAT
Yer Bilgisi: Gazi Üniversitesi / Bilişim Enstitüsü / Bilişim Sistemleri Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Görüntü işleme-bilgisayarlı = Image processing-computer assisted ; Sayısal görüntü işleme = Digital image processing ; İnsan-bilgisayar etkileşimi = Human-computer interaction
Onaylandı
Doktora
Türkçe
2021
100 s.
İşaret dilleri, işitme ve konuşma engelli bireylerin günlük yaşamda kullandıkları ana iletişim ortamları olan görsel dillerdir. Çok sayıda kanal üzerinden aktarılan işaretlerin bilgisayarlı tanınması sayesinde, işitme ve konuşma engelli bireyler hem diğer bireylerle hem de makineler ile iletişimlerini doğal şekilde yapabileceklerdir. Bu tez çalışmasında, derin öğrenme kullanılarak ayrık işaret dili videoları üzerinden işaret dili tanıma gerçekleştirilmiştir. BosphorusSign veri kümesinin "genel" isimli alt kümesi kullanılarak yapılan çalışmada, öncelikle veri artırma ve önişleme parametrelerinin belirlenmesi için çalışmalar yürütülmüştür. Ardından çeşitli derin öğrenme modelleri kullanılarak yapılan deneyler sonucunda işaret dili tanıma için kullanılabilecek uygun bir model belirlenmiştir. Daha sonra işaret dilindeki çeşitli kanalları ifade etmek üzere çıkarılan farklı veri kiplerinin tek başlarına ve çeşitli birleşimlerle başarımları değerlendirilmiştir. Bu sayede çok kipli bir işaret dili tanıma için kullanılacak en uygun veri kipi kombinasyonu elde edilmiştir. Son olarak, deneyler sonucunda elde edilen parametreler ve veri kiplerini kullanan çok kipli bir işaret dili tanıma modeli önerilmiştir. Önerilen model, RGB, eklem ve optik akış kiplerinde toplamda 6 farklı veri akışını bir arada girdi olarak almaktadır. Model bünyesindeki birleştirme mekanizması ile veri akışlarından çıkarılan öznitelikler birleştirilmiş ve derin öğrenme tabanlı sınıflandırıcı katmanlara aktarılmıştır. Uçtan uca bir yöntemle eğitilen bütünsel işaret dili tanıma modeli, kullanılan veri setinde görülen en yüksek başarım olan %89,3 doğruluk sunmuştur. Önerilen çok kipli işaret dili tanıma modelinin işaret dili tanıma başarımını iyileştirme konusunda geliştirilebilir bir potansiyeli vardır.
Sign languages are visual languages, which are the main communication medium used by hearing and speech impaired individuals in their daily life. Thanks to the computer recognition of the signs transmitted over many channels, individuals with hearing and speech disabilities will be able to communicate naturally with both other individuals and machines. In this thesis, sign language recognition was carried out through isolated sign language videos using deep learning. In the study, first experiments were carried out to determine the data augmentation and preprocessing parameters using the "general" subset of the BosphorusSign dataset. Then, as a result of experiments using various deep learning models, a suitable model for sign language recognition was determined. After that, a set of studies were conducted using different data modalities. The performances of data modalities that extracted to express various channels in sign language were evaluated by themselves and with various combinations. In this way, the most suitable data modality combination to be used for a multimodal sign language recognition has been obtained. Lastly, a multimodal sign language recognition model is proposed which uses the parameters and data modalities obtained by the experiments. The proposed model takes a total of 6 different data streams as input in RGB, joint and optical flow modalities. The features extracted from the data streams are combined and transferred to the deep learning-based classifier layers with the help of a fusion mechanism in the model. The holistic sign language recognition model, trained with an end-to-end method, provided 89.3% accuracy which is the highest performance seen in the data set used. The proposed multimodal sign language recognition model has strong potential to improve sign language recognition performance.