Tez No İndirme Tez Künye Durumu
695812
Görsel dikkat modeli ve derin öğrenme yöntemleri kullanılarak geniş dağarcıklı ayrık işaret dili tanıma sisteminin modellenmesi / Modeling a large vocabulary isolated sign language recognition system using visual attention model and deep learning methods
Yazar:ÖZGE MERCANOĞLU SİNCAN
Danışman: DOÇ. DR. HACER YALIM KELEŞ
Yer Bilgisi: Ankara Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:CNN = CNN ; Derin öğrenme = Deep learning ; İşaret dili = Sign language
Onaylandı
Doktora
Türkçe
2021
117 s.
Otomatik işaret dili tanıma problemi bilgisayarla görü alanında aktif bir çalışma alanı olup videolardan işaretlerin otomatik tanınmasına odaklanan karmaşık ve zorlu bir problemdir. Son yıllardaki donanımsal ve yazılımsal alandaki gelişmeler gerçek zamanlı otomatik işaret dili tanıma sistemlerinin geliştirebilmesi için zemin hazırlamaktadır. Ancak, günlük hayatla uyumlu sistemlerin geliştirilebilmesi için daha gerçekçi ortamlarda hazırlanmış işaret dili veri setlerine ihtiyaç duyulmaktadır. Tez kapsamında, kişiden bağımsız tanımaya odaklanan, geniş dağarcıklı ve ayrık Ankara Üniversitesi Türkçe İşaret Dili (AUTSL) veri seti oluşturulmuş ve erişime açık hale getirilmiştir. Literatürde diğer dillere ait büyük ölçekli ayrık işaret dili veri setleri genellikle laboratuvar ortamında ve düz bir arka plan önünde kaydedilmişken, AUTSL veri seti hem statik hem dinamik olmak üzere geniş bir arka plan çeşitliliğine sahiptir. Ayrık işaret dili tanıma problemi için ilk olarak, dikkat mekanizmalı 2D-CNN ve LSTM tabanlı çeşitli mimariler önerilmiştir. İkinci olarak, her bir video için hareket geçmişlerinin özetlendiği ve yalnızca tek bir imgeye karşılık gelen renkli RGB-Hareket Geçmişi Görüntüleri (RGB-MHI) oluşturularak RGB-MHI modeli geliştirilmiştir. Son olarak ise RGB-MHI modeli ve 3D-CNN'ler ile iki özgün mimari önerilmiştir. Bu mimarilerin ilkinde, RGB-MHI modeli kullanılarak açıkça bir bölütlemeye ihtiyaç duymayan, hareket geçmişi tabanlı, uzamsal bir dikkat mekanizması oluşturulmuş ve 3D-CNN mimarisine entegre edilmiştir. İkincisinde, 3D-CNN ve RGB-MHI modellerinin ürettiği öznitelikler geç füzyon tekniği ile birleştirilmiştir. Yalnızca-RGB verilerini kullanarak önerilen bu mimariler, literatürde pek çok modaliteyi bir arada kullanan modeller ile karşılaştırıldığında rekabetçi sonuçlar elde etmektedir.
Automatic Sign Language Recognition (SLR) problem is an active field of study in computer vision and is a complex and challenging problem that focuses on automatic recognition of signs from videos. Recent developments in hardware and software enable the possibility of developing real-time automatic SLR systems. However, in order to develop systems that are convenient to use in dailiy life activities, sign language datasets that are prepared in more realistic environments are needed. Within the scope of the thesis, a large-scale isolated Ankara University Turkish Sign Language (AUTSL) dataset, which focuses on user-independent recognition, has been created and made publicly available. In the literature, while large-scale isolated sign language datasets of other languages are usually recorded in laboratory environments and in front of a plain background, the AUTSL dataset has a wide variety of backgrounds, both static and dynamic. For the isolated SLR problem, firstly, various architectures based on 2D-CNN and LSTM with attention mechanisms have been proposed. Secondly, only one RGB-Motion History Image (RGB-MHI) was created, in which the motion histories were summarized for each video, and RGB-MHI model has been proposed. Finally, two novel approaches are proposed with RGB-MHI model and 3D-CNNs. In the first, a motion history-based spatial attention mechanism that does not need explicit segmentation has been proposed using the RGB-MHI model, and integrated into the 3D-CNN. Secondly, 3D-CNN and RGB-MHI features are combined with a late fusion technique. These architectures, which are proposed using RGB-only data, achieve competitive results with multi-modal models in the literature.