Tez No İndirme Tez Künye Durumu
177163
Understanding human motion: Recognition and retrieval of human activities / İnsan hareketini anlama: İnsan aktivitelerinin tanınması ve erişimi
Yazar:NAZLI İKİZLER
Danışman: YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2008
141 s.
Sürekli olarak büyüyen video arşivlerinde insan hareketleri ve aktiviteleriyle ilgili çok geniş miktarda ilginç bilgi bulunmaktadır. Bu tezde, bu bilgileri elde etme ve insan hareketini anlama konusuna bilgisayarlı görü açısından yaklaşıyoruz. Bu amaçla, kolaydan zora doğru sıralanan iki ayrı senaryo için çözümler öneriyoruz. İlk senaryoda, nispeten kolay sayılabilecek durumlardaki teksel aksiyon tanıma problemini ele almaktayız. Bu senaryo için, insan duruşunun varolan aktiviteyi tanımlamak için pekçokfaydalı ipucu içerdigine inanıyoruz ve iki boyutlu aksiyonlar için karmaşık modellemeye gitmeden, bu şekil bilgisini çok kompakt biçimlerde gösterebiliriz. Bu kapsamda, yüksek doğruluk oranlı insan aksiyonu tanımanının mümkün olduğunu 1) videolardansiluet bilgisi çıkarmanın mümkün olduğu durumlarda dikdörtgensel alanların uzamsal yönelimli histogramlarını kullanarak, 2) siluet bilgisi bulunmadığı durumlarda sınırlardan çıkarılmış çizgilerin dağılımlarını kullanarak gösteriyoruz. Buna ekolarak, videolarda, tanıma doğruluğunu yerel ve genel hareket bilgisi eklemek suretiyle geliştirebileceğimizi kanıtlıyoruz. Şekil bilgisinin ayrıştırıcı bir çerçeve dahilinde, durağan resimlerdeki insan hareketlerini tanıma probleminde bile oldukça faydalıolduğunu gösteriyoruz.İkinci senaryo karmaşık insan aktivitelerinin, değişen arka plan ve görüş açıları gibi komplike durumlarda tanınması ve erişimi konularını içermektedir. Böyle durumlarda üç boyutlu insan aktiviteleri betimlemek ve bir hareket derlemesini görselörneğe ihtiyaç olmaksızın sorgulamak için bir yöntem tanımlıyoruz. Yaklaşımımız, vücut bölümleri üzerinde oluşturulan ve zamansal ve uzamsal olarak düzenlenebilecek aktivite birimlerine dayanmaktadır. Arama birimlerinin varlığı, önce insan vücudununtakibi, bu takip izlerinin üçüncü boyuta taşınması ve hareket algılama verisi üzerinde öğrenilmiş modellerle karşılaştırmak yolu ile otomatik olarak sağlanmaktadır. Kısa zamanlı uzuv davranış modellerimiz etiketlenmiş hareket algılama veri kümesi kullanılarak oluşturulmaktadır. Video sorgu dilimiz sonlu durumlu özdevinirlerden faydalanmaktadır ve sadece basit metin kodlamasıyla tanımlanabilir olup görsel örneğe ihtiyaç duymamaktadır. Çalışmamızda karmaşık hareket ve aktivite derlemesineuyguladığımız geniş aralıktaki sorguların sonuçlarını sunuyoruz. Kendi yöntemimizi izleme verisi üzerine uygulanmış ayrıştırıcı yöntemlerle karşılaştırıyoruz; ve yöntemimizin belirgin derecede gelişmiş performans sergilediğini gösteriyoruz. Deneysel kanıtlarımız, yöntemimizin görüş yönü farklılıklarına dayanıklı olduğunu ve kıyafetlerdeki önemli değişikliklerinden etkilenmediğini ispatlamaktadır.
Within the ever-growing video archives is a vast amount of interesting informationregarding human action/activities. In this thesis, we approach the problem of extractingthis information and understanding human motion from a computer vision perspective.We propose solutions for two distinct scenarios, ordered from simple to complex. Inthe first scenario, we deal with the problem of single action recognition in relativelysimple settings. We believe that human pose encapsulates many useful clues for recognizingthe ongoing action, and we can represent this shape information for 2D singleactions in very compact forms, before going into details of complex modeling. Weshow that high-accuracy single human action recognition is possible 1) using spatialoriented histograms of rectangular regions when the silhouette is extractable, 2) usingthe distribution of boundary-fitted lines when the silhouette information is missing.We demonstrate that, inside videos, we can further improve recognition accuracy bymeans of adding local and global motion information. We also show that within a discriminativeframework, shape information is quite useful even in the case of humanaction recognition in still images.Our second scenario involves recognition and retrieval of complex human activitieswithin more complicated settings, like the presence of changing background andviewpoints. We describe a method of representing human activities in 3D that allowsa collection of motions to be queried without examples, using a simple and effectivequery language. Our approach is based on units of activity at segments of the body,that can be composed across time and across the body to produce complex queries.The presence of search units is inferred automatically by tracking the body, lifting thetracks to 3D and comparing to models trained using motion capture data. Our modelsof short time scale limb behaviour are built using labelled motion capture set. Our query language makes use of finite state automata and requires simple text encodingand no visual examples. We show results for a large range of queries applied to acollection of complex motion and activity. We compare with discriminative methodsapplied to tracker data; our method offers significantly improved performance. Weshow experimental evidence that our method is robust to view direction and is unaffectedby some important changes of clothing.