Tez No İndirme Tez Künye Durumu
759000
Sınırlı denetim ve anlamsal temsiller ile işaret dili öğrenimi / Learning sign languages with limited supervision and semantic representations
Yazar:YUNUS CAN BİLGE
Danışman: DOÇ. DR. NAZLI İKİZLER CİNBİŞ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2022
130 s.
İşaret dilleri, konuşma dillerine benzer şekilde zaman içinde gelişmekte ve değişmektedir. Zamanla değişen ve gelişen bir dil için gözetimli öğrenme yöntemleri ile her bir işaret için etiketli veri bulmak ve bu veri ile bir model eğitmek oldukça güçtür ve pratik görünmemektedir. Özellikle az veya hiç etiketli verisi bulunmayan işaret dili sınıflarını tanıyan, ölçeklenebilir modellere ihtiyaç vardır.Bu tezde, üç yeni problemi ele almaktayız; sıfır örnek ile işaret dili tanıma (SÖİDT), genelleştirilmiş sıfır örnek ile işaret dili tanıma (GSÖİDT) ve birkaç örnek ile işaret dili tanıma. SÖİDT'deki fikir, görünmeyen işaret sınıflarının örneklerini tanımak için görülen işaret sınıfları üzerinden öğrenilen modelleri kullanmaktır. GSÖİDT'de iseöğrenilen model'in performansı sadece görünmeyen işaret sınıflarında değil, aynı zamanda görülen işaret sınıflarında da değerlendirilmektedir. Bu bağlamda, kolay olarak erişilebilen metin ve nitelik tabanlı işaret açıklamaları bilgi aktarımı için anlamsal sınıf temsili olarak kullanılmaktadır. Metin ve nitelik verileri toplanmıştır, işlenmiştir ve görünmeyen işaret dili sınıflarını tanımak için yardımcı bilgi olarak kullanılmaktadır. Bu tezde, bu iki yenilikçi problem senaryosunu çözmek için yardımcı metin ve nitelik tabanlı açıklamaları da içeren üç kıyaslama veri seti sağlanmıştır. SÖİDT ve GSÖİDT problemleri için, vücut ve el bölgelerinin uzamsal-zamansal modellerini oluşturan iki metodoloji önerilmekte ve ilgili öznitelik oluşturma süreci iki adımdan oluşmaktadır: (i) bir işaret videosunun kısa video parçacıklarını kullanarak kısa vadeli uzamsal-zamansal dinamikleri yakalamak, bunun için önceden eğitilmiş bir 3 boyutlu evrişimli sinir ağı kullanılmıştır, (ii) uzun vadeli dinamikleri ise kısa vadeli çıkarılan bilgiler üzerinden tekrarlayan sinir ağları (LSTM) kullanılarak modellenmektedir. Metin ve öznitelik tabanlı sınıf tanımlarının, beden ve elin uzamsal-zamansal modelleri ile birlikte, sıfır örnekli bir öğrenme çerçevesi içinde daha önce görülmemiş işaret sınıflarının tanınması için etkili bir yöntem olduğunu göstermekteyiz. Ek olarak, sınıf temsili olarak kullanılan ikili niteliklerin doğru ve yanlış sıfır örnek tahminleri üzerindeki etkisini incelemek üzere iki farklı teknik önermekteyiz. Her niteliğin sınıflandırma üzerindeki etkisinin tahmini için bir çevirme farkı operatörü tanımlanmaktadır, kısacası nitelikteki değişimin sınıf önermedeki etkisini araştırmaktayız. Bu tezde, sunulan yöntemlerin ve veri kümelerinin, işaret dili tanımada sıfır örnek ile öğrenmeye yönelik devam eden araştırmalar için bir temel oluşturacağını ummaktayız. Ayrıca, işaret dili tanımanın bir problemi olan etiketli veri eksikliğini çözmek üzere başka bir perspektiften daha yaklaşmaktayız; amacımız her biri yalnızca birkaç etiketli sınıf örneğine sahip yeni işaret sınıflarını tanımak olduğu birkaç adımlı meta öğrenme tekniğinidir. Günlük hayatta daha yaygın olarak kullanılan işaret sınıflarının diğerlerine göre daha fazla etiketli veri içerdiğini gözlemlemekteyiz. Yaklaşımımız, yeni işaret sınıflarını tanımak için denetimli bir öğrenme tarzı ile az veri üzerinden birden çok ilişkili işaret dili sınıfını tanımak için bir modeli eğitmek üzerinedir ve amaç modeli yeni işaret dili sınıflarını tanıması için olabildiğince genelleştirmeye odaklıdır. Deneysel sonuçlarımız ve ayrıntılı analizlerimiz, önerilen yöntemlerin hem görülen hem de yeni işaret sınıfı örneklerini tanımada etkili olduğunu göstermektedir. Sunulan yöntemlerin ve veri kümelerinin, ölçeklenebilir işaret dili tanıma konusunda devam eden araştırmalar için bir temel oluşturmasını beklemekteyiz.
Sign languages evolve and change over time, much like spoken languages. It is impractical to annotate the signs of a sign language for supervised learning. Scalable recognition modalities are needed for SLR especially for those signs that have very few or even none annotated examples. In this thesis, we tackle three novel problems that involve limited supervision for sign language recognition. These are zero-shot sign language recognition (ZSSLR), generalized zero-shot sign language recognition (GZSSLR), and few-shot sign language recognition. The idea in ZSSLR is to use models learned over the seen sign classes to recognize instances of unseen sign classes. In GZSSLR, the learned model is evaluated not only on unseen sign classes but also on seen sign classes. In this context, freely available textual and attribute sign descriptions from sign language descriptions are used as semantic class representations for knowledge transfer. We have processed textual and attribute data and we have collected those auxiliary information for sign language signs. In this thesis, we have provided three benchmark datasets with their supporting text and attribute descriptions to address the challenge for these two innovative problem scenarios in depth. In order to address (G)ZSSLR task, we propose two methods that construct spatio-temporal models of body and hand regions. The feature construction process consists of two steps: (i) a pre-trained three-dimensional convolutional neural network is used for extraction to capture short-term dynamics with short video snippets of a sign video, (ii) longer-term dynamics are captured using these features with recurrent neural networks. We show that text and attribute-based class definitions, together with the spatio-temporal models of body and hand, provide effective information for recognizing of previously unseen sign classes inside a zero-shot learning framework. We additionally propose two techniques to investigate the impact of binary attributes on correct and incorrect zero-shot predictions. A flip difference operator is defined to estimate the impact of each attribute on classification. We hope that the methods and datasets presented in this thesis will serve as a foundation for ongoing research on zero-shot learning in sign language recognition. In addition, we approach the problem of data scarcity of sign language recognition from different perspective: few-shot meta learning, where the goal is to recognize novel sign classes, each of which has only a few labeled class samples. This is the case when some sign classes have more annotated samples than others due to their widespread use in daily life. Our approach is to generalize a model from sub-tasks by training a model with the task specific data in a supervised learning manner to recognize novel sign classes, which in turn contain few related ground-truth annotated examples. Our experimental results over all these three tasks and detailed analysis show that the proposed methods are effective in recognizing both seen and also unseen sign class examples. We anticipate that the presented methods and datasets will serve as a foundation for further research in scalable sign language recognition.