Tez No İndirme Tez Künye Durumu
705253
Makine öğrenmesi algoritmalarıyla Türk işaret dilinde harf ve dinamik sözcük tanıma / Alphabet and dynamic word recognition in Turkish sign language with machine learning algorithms
Yazar:ZEKERİYA KATILMIŞ
Danışman: PROF. DR. CİHAN KARAKUZU
Yer Bilgisi: Bilecik Şeyh Edebali Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2021
124 s.
Toplumsal hayatın bir parçası haline gelen bilgisayarlar ve akıllı arabirimler, ses ve görüntü dışında, özellikle işaretlerin ve hareketlerin tanınmasında etkin bir şekilde kullanılarak hayatı kolaylaştırmaktadır. Sunulan bu çalışmada işaret dilini kullanan işitme ve konuşma engelliler ile diğer bireylerin kolay iletişime geçmesi ve işaret dilini bilmeyen bir kişinin bu dili anlayabilmesi çerçevesinde çalışılmıştır. Günümüzde teknolojik eğilimin taşınabilir sistemlere doğru olması sebebiyle işaret tanıma çalışmalarında LMC ve Kinect cihazı kullanılmıştır. LMC cihazı bilgisayar, mobil cihazlar başta olmak üzere diğer akıllı arabirimlere gömülü yada doğrudan entegre edilebilir olması, el ve parmak hareketlerini anlık tarama hızı ve hassasiyetinin yüksek olması ve gelişime açık olması sebebiyle özellikle tercih edilmiştir. Kinect ise LMC'nin yetersiz kaldığı durumlarda destek olması amacıyla kullanılmıştır. Bu çalışmada, LMC ve Kinect cihazı kullanılarak Türk işaret dili (TİD)'ne ait çift elli statik parmak alfabesi ve dinamik sözcük tanıma sistemleri üzerine çalışılmıştır. Çalışma önişlem, izleme, görüntü karelerinin toplanması, özellik çıkarımı, özellik seçimi ve çıkarımı, boyut indirgeme, eğitim ve test olmak üzere 8 aşamadan oluşmaktadır. Çalışma dört uygulamadan oluşmaktadır. Birinci uygulama LMC kullanılarak statik parmak alfabesi tanıma üzerine gerçekleştirilmiştir. İkinci uygulamada LMC ile dinamik sözcük tanıma sistemi tasarlanmıştır. Bu uygulama için kendi arasında benzerlik ve farklılıkları dikkate alınarak hazırlanan 50 dinamik sözcük için 4 denek kullanılarak veri kümesi oluşturulmuştur. Üçüncü uygulamada Kinect cihazı kullanılarak dinamik sözcük tanıma sistemi üzerinde çalışılmıştır. Dördüncü uygulama ise LMC+Kinect cihazları kullanılarak gerçekleştirilen farklı uzunluk ve sürelere sahip dinamik sözcük tanıma sistemidir. Bu uygulamada kullanılan histogram ve zamansal özellik çıkarımı veri kümelerinin boyutlarını eşitleyerek sınıflandırıcıya girişi kolaylaştırır ve aynı zamanda verilerin boyutunun küçültülmesini sağlar. Bu uygulamalardan elde edilen veri kümelerinden özellik seçim algoritması, özelik çıkarım yöntemleri ve PCA, LDA ve PCA+LDA boyut indirgeme yöntemleri kullanılarak yeni veri kümeleri elde edilmiştir. Bu veri kümeleri kullanılarak makine öğrenme yöntemlerinden geleneksel, sinir ağı ve ELM tabanlı sınıflandırıcılar ile işaret tanıma başarımı analiz edilmiştir. ELM mimarileri ilk kez bir işaret dili tanıma sisteminde sınıflandırıcı olarak bu çalışmada kullanılmıştır. Tanıma başarımı açısında gürbüz ve kararlı genelleme yeteneği sunan ELM'in 5 farklı mimarisi ve bunların kendine özgün öğrenme yöntemleri test edilerek sonuçlar karşılaştırılmıştır. Bu çalışma ile önerilen TİD tanıma sisteminin başarım testi 10 katlamalı çapraz doğrulama yöntemi kullanılarak yapılmıştır. Elde edilen başarım metriklerine dayalı olarak, ELM tabanlı mimari ve makine öğrenmesi yöntemlerinden ML-KELM'in tüm veri kümelerinde başarım oranını koruduğunu ve en yüksek başarım oranını verdiği ve başarım açısından kararlı bir yapıya sahip olduğu gözlemlenmiştir.
Computers and smart interfaces, which have become a part of social life, make life easier by using them effectively, especially in recognizing signs and movements, apart from sound and image. In this study, it has been studied within the framework of easy communication between hearing and speech impaired people who use sign language and other individuals and a person who does not know sign language can understand this language. Due to the technological trend towards portable systems today, LMC and Kinect devices have been used in sign recognition studies. The LMC device has been especially preferred because it can be embedded or directly integrated into other smart interfaces, especially computers and mobile devices, its instantaneous scanning speed and sensitivity of hand and finger movements, and its openness to development. On the other hand, Kinect was used as a support in cases where the LMC was insufficient. In this study, two-handed static finger alphabet and dynamic word recognition systems of Turkish sign language (TSL) were studied by using LMC and Kinect device. The study consists of 8 stages: preprocessing, monitoring, collection of image frames, feature extraction, feature selection and extraction, size reduction, training and testing. The study consists of four applications. The first application was carried out on static finger alphabet recognition using LMC. In the second application, a dynamic word recognition system was designed with LMC. For this application, a dataset was created by using 4 signers for 50 dynamic words prepared by considering their similarities and differences. In the third application, the dynamic word recognition system was studied using the Kinect device. The fourth application is a dynamic word recognition system with different lengths and durations using LMC+Kinect devices. The histogram and temporal feature extraction used in this application make it easier to enter the classifier by equalizing the size of the datasets, and also reduce the size of the data. From the datasets obtained from these applications, new datasets were obtained by using feature selection algorithm, feature extraction methods and PCA, LDA and PCA+LDA dimension reduction methods. Using these datasets, signal recognition performance was analyzed with traditional machine learning methods, neural network and ELM based classifiers. ELM architectures were used for the first time as a classifier in a sign language recognition system in this study. 5 different architectures of ELM, which offers robust and stable generalization ability in terms of recognition performance, and their unique learning methods were tested and the results were compared. The performance test of the TSL recognition system proposed in this study was carried out using the 10-fold cross-validation method. Based on the performance metrics obtained, it has been observed that ML-KELM, one of the ELM-based architecture and machine learning methods, maintains the performance rate in all datasets, gives the highest performance rate and has a stable structure in terms of performance.