Günlük hayatımızda insanlar dış gerçekliği gözleri aracılığıyla algılarlar. Gözler, ruhun başkalarıyla etkileşime açılan pencereleridir. Bu bakımdan gözler aslında insan ile dış gerçeklik arasında bir etkileşim köprüsüdür. Bu nedenle gözler her zaman günlük hayatta kullanılabilecek çeşitli bilgileri taşıyabilen gizemli bir organ olarak düşünülmüştür. Gözlerin önemli bir yönü de, bakış bilgisinin bir form olarak kullanılabileceği, insan ve bilgisayar (HCI) arasında bir etkileşim girdisi olarak kullanıcıların dikkatini veya niyetini ele almak için bir vekil olarak kullanılabilmesidir. Bir girdi biçimi olarak gözle bakma, öncelikle klavye ve fare gibi olağan etkileşim cihazlarını kullanamayan kullanıcılar için geliştirilmiştir; ancak, geliştirme maliyetinin düşmesiyle birlikte gözle bakış algılamada artan doğrulukla, yakın gelecekte güçlü kullanıcılar için de pratik bir etkileşim yöntemi olma eğilimindedir. Bu tez, bakış açısından geliştirilmiş kullanıcı arayüzleri için düşük maliyetli, sağlam, döndürme ve aydınlatmadan bağımsız bir gözle bakma sistemini araştırıyor.
Gözler son derece hızlıdır. Bu nedenle, göz hareketleri diğer mevcut girdi ortamlarından daha hızlıdır. Ancak, sinyaller gürültülüdür. Bakış girdileri olan bakışla güçlendirilmiş bir medya geliştirmek için öncelikle sinyallerin normalize edilmesi ve kırılmalı değil sürekli olması gerekir. Ancak insanlar sadece gözlerini hareket ettirerek cihazları çalıştırmaya alışkın değillerdir. Aslında bu gerçek Midas Dokunma Problemini de beraberinde getiriyor. Ayrıca, bekleme süresi tıklamaları, göz kırpmaları, fare tıklamaları veya klavye girişleri gibi mevcut teknikler aracılığıyla hedef seçimi zordur. Bu nedenle, her bir göze bakış izleme sistemi, seçim hedeflerinin boyutu için önemli olan farklı bir görüş açısı doğruluğuna sahiptir: düğmeler, simgeler, resimler, metinler vb. Görsel açı doğruluğu daha düşük olan sistemler, daha hassas ve sağlamdır. Hedef seçimi ve bu göz bakış sistemlerini sınıflandırmak için en önemli faktördür. Bu tez, düşük çözünürlüklü görüntülere sahip Kızılötesi filtresiz düşük maliyetli web kamerası kullanarak göz takibi, göz bebeği tespiti, göz hareketleri tespiti ve tatmin edici görsel açı doğruluğu ile bakış takibi açısından birkaç yeni algoritma önermektedir. Sağlam göz algılaması için mevcut algoritmalar, günlük yaşamda uygulanamayan kalibrasyon ve eğitim süreci gerektirir. Ve çoğu, pahalı ve günlük kullanım için ergonomik olmayan, Kızılötesi teknolojisine sahip başa takılan kameralar kullanıyor. Bunun yanı sıra, mevcut algoritmaların tümü, kornea yansıması veya göz küresinde parlama nedeniyle çeşitli aydınlatma koşullarında sağlam olmayan, göz bebeği merkezi tabanlı algoritmalardır. Bu nedenle ideal sistem ucuz, ergonomik ve kullanılabilirlik ve iş yükü açısından tam otomatik olmalıdır.
Bu araştırmanın amacı, Kızılötesi teknolojisi ile kalibrasyonsuz, eğitimsiz ve başa takılan kamerasız, düşük maliyetli bir gözle bakış takip sistemi gerçekleştirmektir. Kızılötesi filtresiz düşük maliyetli web kamerası kullanarak kornea yansımasından kurtulmak için, gözbebeği merkezini PoR (Point of Regard) olarak kullanmayan, deforme olabilir şablon eşleştirme tabanlı göz küresi izleme algoritması öneriyoruz. Ek olarak, göz yuvası tespiti, göz kırpma tespiti ve göz bebeği merkezi tespiti için çeşitli algoritmalar öneriyoruz.
Bu tez, göz hareketleri gürültülü ve göz bebeği merkezi tam olarak bilinmese bile, bakış bilgilerinin ve kullanıcıların ekrana baktığı noktanın deforme olabilen şablon eşleştirme tabanlı göz takip sistemi ile yakalanabileceğini iddia etmektedir. Bunun yanı sıra, otomatik eşikleme ile blob çıkarma ile göz çukuru tespit ve takibinin mevcut sistemlere göre daha hızlı ve kolay olduğunu ve modelleme yoluyla bir göz yuvasında en karanlık piksel araması ile göz bebeği merkezi tespitinin mevcut sistemlere göre daha sağlam olduğunu iddia ediyoruz. Bu çalışmayla, gözbebeği merkezi tespiti için kızıl ötesi başa takılan kameraya gerek kalmayacaktır. Önerilen algoritma, kullanıcının ilgisinin atomik olarak nereye odaklandığını belirleyebilir. Son olarak, önerilen sistemin doğruluğunu ölçmek için örnek bir bekleme süresi tabanlı sanal klavye kullanılacak ve sonunda birkaç ana akış algoritmasının algoritmamızla kıyaslaması yapılacaktır.
|
In our everyday lives, people perceive the outer reality by means of their eyes. The eyes are the windows of the soul opening to the interaction with others. In this regard, the eyes are actually an interaction bridge between human and the outer reality. Therefore, the eyes have been always considered as a mysterious organ which can carry various kinds of information to be used in daily life. One important aspect of the eyes is also PoR (Point of Regard) which can be used a proxy for handling the users' attention or intention as an interaction input between human and the computer (HCI) where gaze information can be used as a form of input instead of keyboard and the mouse. Eye gaze as a form of input was primarily developed for users who are unable to use usual interaction devices such as keyboard and the mouse; however, with the increasing accuracy in eye gaze detection with decreasing cost of development, it tends to be a practical interaction method for able-bodied users in soon future as well. This dissertation explores a low-cost, robust, rotation and illumination independent eye gaze system for gaze enhanced user interfaces.
Eyes are extremely rapid. For this reason, eye movements are faster than other current input media. However, the signals are noisy. In order to develop a gaze enhanced media with gaze inputs, first of all, signals have to be normalized and they have to be continuous, not broken. However, people are not accustomed to operating devices by simply moving their eyes. Actually, this fact brings the Midas Touch Problem within itself. In addition, selection of target is difficult by means of current techniques such as: dwell-time clicks, eye blinks, mouse clicks or keyboard inputs. Therefore, every single eye gaze tracking system has a different visual angle accuracy which is important for the size of selection targets such as: buttons, icons, pictures, texts etc. The systems with lower visual angle accuracy are more precise and robust in terms of selection of targets and this is the most important factor to classify the eye gaze systems. This dissertation proposes several brand-new algorithms in terms of eye tracking, pupil detection, eye movements detection and the gaze tracking with satisfactory visual angle accuracy by using low-cost web camera without Infra-Red filter with low-resolution images. Current algorithms for robust eye gaze detection require calibration and training process which is not applicable in everyday life. And most of them use head-mounted cameras with Infra-Red technology which are expensive and not ergonomic for everyday use. Besides this, current algorithms are all pupil center based algorithms which is not robust in various lightining conditions because of corneal reflection or glint on the eyeball. Therefore, the ideal system must be cheap, ergonomic and fully-automated in terms of usability and workload.
The goal of this research is to realize a low-cost eye gaze tracking system without calibration, training and head-mounted camera with Infra-Red technology. In order to get rid of corneal reflection by using low-cost web-cam without Infra-Red filter, we propose a deformable template matching based eyeball tracking algorithm which does not use pupil center as a PoR (Point of Regard). Additionally, we propose several algorithms for eye socket detection, blink detection and pupil center detection.
This dissertation claims that gaze information and the point where users look at the screen can be captured by means of deformable template matching based eye tracking system even the eye movements are noisy and pupil center is not known exactly. Besides this, we claim that eye socket detection and tracking is speedier and easier than current systems by means of blob extraction with auto-thresholding and eye pupil center detection is more robust than current systems by means of darkest pixel searching in an eye socket by modelling an arbitrary gray-scale eyeball with center of mass and deformable template windows. For robust pupil center detection, there will be no necessity for infra-red head-mounted camera. Proposed algorithm can determine where the user's interest is focused atomatically. Finally, a sample dwell-time based virtual keyboard will be used in order to measure the accuracy of the proposed system and a benchmarking of several main-stream algorithms with our algorithm will be performed at the end. |