Tez No |
İndirme |
Tez Künye |
Durumu |
792717
|
|
Transfer learning for sign language recognition / İşaret dili tanıma ı̇çin öğrenme transferi
Yazar:AHMET ALP KINDIROĞLU
Danışman: PROF. DR. LALE AKARUN ERSOY
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Evrişimli sinir ağları = Convolutional neural networks ; Görüntü işleme-bilgisayarlı = Image processing-computer assisted
|
Onaylandı
Doktora
İngilizce
2023
157 s.
|
|
İşaret dili, kavramları iletmek için elleri, kolları ve yüzleri kullanan görsel bir dildir. Son on yılda, işaret dili tanıma (SLR) araştırmaları önemli ilerleme kaydetmiştir, ancak işaretleri tanımak için hala büyük miktarda veri gerekmektedir. İşaret dilleri için işaretlenmiş büyük işaret dili veri kümeleri oluşturulması için harcanan kaynaklara rağmen, günlük kullanıcılar için çeviri yapabilen uygulamalar henüz üretilebilmiş değildir. Buna ek olarak, işaret dili tanıma araştırmalarının çoğu birkaç popüler işaret diline odaklanmakta ve Türk İşaret Dili (TİD) de dahil olmak üzere işaret dillerinin çoğu gelişen işaret dili teknolojileri için yetersiz kaynaklara sahip diller olarak kalmaktadır.
Bu tez, TİD için işaret dili tanıma teknolojilerinin geliştirilmesiyle ilgili bir dizi açık araştırma sorusunu ele almaktadır. Bu kapsamda, 22 bin video içeren izole bir TİD SLR veri seti olan BosphorusSign22k oluşturulmuş ve bu veri setinde literatürdeki en başarılı yöntemleri kullanarak tanıma sonuçları kıyaslanmıştır. İkinci olarak, işaretleri dinamik ve statik alt birimler olarak modellemek için hizalanmış zamansal birikimli öznitelikler (ATAF) yöntemi önerilmiştir. Geliştirilen yöntem, diğer kipleri kullanan yöntemlerle birleştirildiğinde literatürde BosphorusSign22k veri kümesinde elde edilen en yüksek sonucu elde etmektedir. Ardından, düzenlileştirilmiş regresyona dayalı çoklu görev öğrenme ile SLR yapmak için kanonik zaman hizalama adı verilen, farklı kaynaklar arasındaki tutarsızlıkları en aza indiren ve sınıf farklılıklarını vurgulayan bir işaret hizalama ve guruplama yöntemi önerdik. Son olarak, mevcut iki TİD tanıma veri kümesi kullanarak çapraz veri-kümesi öğrenme transferi için bir kıyaslama veri kümesi oluşturulmuştur. Bu veri kümeleri üzerinde, zamansal çizge sinir ağları tabanlı SLR yöntemleri kullanarak beş denetimli transfer öğrenme algoritması değerlendirilmiş ve dayanak teknikler üzerinde önemli bir gelişme sağladığı ortaya koyulmuştur.
|
|
Sign languages are visual languages that use hands, arms, and faces to communicate concepts. In the last decade, sign language recognition (SLR) research has made significant progress but still requires massive amounts of data to recognize signs. Despite efforts to create large annotated sign language datasets, applications that can translate for ordinary users in daily settings are yet to be produced. Most SLR research focuses on a few popular sign languages, leaving most sign languages, especially Turkish Sign Language (TID), under-resourced for sign language technology development.
This dissertation addresses several open research questions about the development of SLR technology for TID from several perspectives. We generated BosphorusSign22k, an isolated SLR dataset for TID with 22k videos, and benchmarked state-of-the-art techniques on it. We proposed aligned temporal accumulative features (ATAF) to efficiently model sign language movements as dynamic and static subunits. Combined with methods using other modalities, the method achieves state-of-the-art performance on BosphorusSign22k. We then used regularized regression-based multi-task learning and presented task-aware canonical time warping for isolated SLR. The technique aligned and grouped signs to minimize discrepancies across different sources and emphasize class differences. Finally, we established a benchmark for cross-dataset transfer learning in isolated SLR. We evaluated supervised transfer learning algorithms using a temporal graph convolution-based SLR method. Experiments with closed and partial-set cross-dataset transfer learning reveal a substantial improvement over combined training and fine-tuning-based baseline techniques. |