Tez No İndirme Tez Künye Durumu
312874
Multiple view human activity recognition / Çoklu görüntü kullanarak insan hareketi tanıma
Yazar:SELEN PEHLİVAN
Danışman: YRD. DOÇ. DR. PINAR DUYGULU ; PROF. DR. DAVİD FORSYTH
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2012
119 s.
Bu tez insan hareketlerinin birden çok kamera görüntüsü ile tanınması üzerine yapılan çalışmaları içermektedir. Bu çalışmalarda iki farklı yöntem önerilmiştir. Birinci yöntemde kalibre edilmiş kameralardan elde edilen hacimleri eşleştiren bir sistem, ikinci yöntemde ise görüntü karelerini eşleştiren esnek bir sistem önerilmiştir. Kullandığımız iki farklı yöntemde elde ettiğimiz sonuçlar, tek kamera görüntüleri ile yapılan çalışmalarda elde edilen sonuçlarla karşılaştırılarak, farklılıkları ve performansları incelenmiştir.Tezin ilk bölümü geri çatılım yöntemi ile elde edilen hacimsel veriler için yoğun betimleyiciler önerir. Kameralar tarafından kaydedilen görüntü kareleri geri çatılım yöntemi ile birleştirilir ve elde edilen hacimler hareket pozlarının eşleniği olarak kabul edilir. Bu çalışmalarda üç boyutlu verilerin üzerinden hızlı ve ayırt edici özelliklere sahip yeni poz betimleyicileri önerilmiştir. Bu betimleyicilerden ilki farklı doğrultuda ve boyuttaki silindirlerin histogramıdır. Önerilen bir diğer poz tanımlayıcısı ise bakış açısından bağımsızdır yani poz hizalamasına ihtiyaç duymamaktadır. Poz tanımlayıcılarının önemi hareket tanımlama kısımları sade tutulan düzeneklerde gösterilmiştir. Sunulan hacim eşlenmesine dayalı hareket tanımlama literatüre göre başarılı sonuçlar ortaya çıkarmıştır.Birden çok kamera verisinin işlenmesi ve ayıklanmasında hacim geri çatılım metodu seçilen en doğal yöntem olmuştur. Ancak birbiriyle örtüşen mevcut görüntüler yeterli sayıda olmayabilir. Tezin ikinci bölümünde farklı sayıda kamera ve öznitelikle çalışabilen bir hareket tanıma sistemi önerilmektedir. Bu sistem kamera görüntülerindeki hareket bulgularını oylama tekniği ile bulmaktadır ve kameraların kalibre edilmesine gerek duyulmamaktadır. Sistemin performansı kamera ve öznitelik sayısıyla orantılı olarak artmaktadır. Eğitim ve sınama için kullanılan kamera görüntülerinin örtüşmesine gerek yoktur. Sisteme herhangi bir anda bir kameranın girişi ve çıkışı kolayca çözümlenmektedir. İnsan hareketi tanımlanmasında birden çok kameranın kullanılmasının, tek kamera kullanılmasına oranla avantajları deneylerle desteklenmiştir.
This thesis explores the human activity recognition problem when multiple views are available. We follow two main directions: we first present a system that performs volume matching using constructed 3D volumes from calibrated cameras, then we present a flexible system based on frame matching directly using multiple views. We examine the multiple view systems compared to single view systems, and measure the performance improvements in recognition using more views by various experiments.Initial part of the thesis introduces compact representations for volumetric data gained through reconstruction. The video frames recorded by many cameras with significant overlap are fused by reconstruction, and the reconstructed volumes are used as substitutes of action poses. We propose new pose descriptors over these three dimensional volumes. Our first descriptor is based on the histogram of oriented cylinders in various sizes and orientations. We then propose another descriptor which is view-independent, and which does not require pose alignment. We show the importance of discriminative pose representations within simpler activity classification schemes. Activity recognition framework based on volume matching presents promising results compared to the state-of-the-art.Volume reconstruction is one natural approach for multi camera data fusion, but there can be few cameras with overlapping views. In the second part of the thesis, we introduce an architecture that is adaptable to various number of cameras and features. The system collects and fuses activity judgments from cameras using a voting scheme. The architecture requires no camera calibration. Performance generally improves when there are more cameras and more features; training and test cameras do not need to overlap; camera drop in or drop out is handled easily with little penalty. Experiments support the performance penalties, and advantages for using multiple views versus single view.