Tez No İndirme Tez Künye Durumu
650883
Recognizing human interactions in still images / Resimler üzerinde insan etkileşimleri tanıma
Yazar:GÖKHAN TANIŞIK
Danışman: DOÇ. NAZLI İKİZLER CİNBİŞ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Bilgisayarla görme = Computer vision
Onaylandı
Doktora
İngilizce
2020
120 s.
Resimler üzerinde insan etkileşimlerini tanımak oldukça zordur. Özellikle resimler ve videolar kıyaslandığında, resimde etkileşime dair sadece küçük bir an bulunur. Bu tez kapsamında, resimler üzerinden insan etkileşimlerinin tanınması için iki bileşenin rolü incelenmiştir: yüzler ve pozlar. Yüzlerin rolünü incelemek adına, resimlerde yüzlerin bulunduğu bölgelerin ve bu yüzlerin uzamsal yerleşimlerinin etkileşimleri tanımlamada ne kadar katkı sunduğunu inceledik. Bu doğrultuda, geliştirdiğimiz yöntem yüzlerden elde edilen bir çok niteliği, çeşitli sahne nitelikleri ve derin öğrenme niteliklerini bir araya getirir. Elde edilen bu nitelikler bir öğrenme sistemi içerisinde, birlikte işlenerek insan etkileşimlerinin ayırt edilmesini sağlar. Tanımladığımız yüz nitelikleri; yüzlerin birbirine göreceli uzaklıkları, boyutları ve konumları gibi etkileşimleri birbirinden farklı kılabilecek nitelikleri kapsar. Bu çalışma kapsamında kullanabileceğimiz önceden tanımlı bir veri kümesi bulunmadığından, çeşitli insan etkileşimlerini barındıran yeni ve zorlu bir veri kümesi oluşturulmuştur. Yapılan deneyler, yüzlerin ve sahne niteliklerinin insan etkileşimlerini tanımlamada önemli bir paya sahip olduğunu göstermektedir. Etkileşimleri tanımlamada pozların rolünü araştırmak için de, çoklu-akışlı bir evrişimsel sinir ağları mimarisi tanımladık. Bu mimari her bir akıştan elde edilen farklı seviyelerdeki poz bilgilerini bir araya getirir. Bu bağlamda, çeşitli poz tabanlı gösterimler incelenmiştir. Genişletilmiş bir veri kümesi üzerinde yapılan deneyler, önerilen yöntemin insan etkileşimlerini sınıflandırabilmek için oldukça başarılı olduğunu göstermiştir. Bu poz tabanlı gösterimler ve orjinal resimler bir arada kullanıldığında başarımın daha da arttığı gözlenmiştir.
Recognizing human interactions in still images is quite a challenging problem since compared to videos, there is only a glimpse of interaction in a single image. In this thesis, we explore the role of two components that provide descriptive features upon recognizing interactions in still images: the role of human faces and poses. As for the role of human faces, we explore whether the facial regions and their spatial configurations contribute to the recognition of interactions. In this respect, our method involves the extraction of several visual features from the facial regions, incorporating scene characteristics and deep features to the recognition. Extracted multiple features are utilized within a discriminative learning framework for recognizing interactions between people. Our designed facial descriptors are based on the observation that relative positions, size, and locations of the faces are likely to be essential for characterizing human interactions. Since there is no available dataset in this relatively new domain, a comprehensive new dataset that includes several images of human interactions is collected. Our experimental results show that faces and scene characteristics contain vital information to recognize interactions between people. On behalf of exploring the role of human poses upon recognizing interactions, we propose a multi-stream convolutional neural network architecture, which fuses different levels of human pose information to recognize human interactions better. In this context, several pose-based representations are explored. Experimental evaluations in an extended benchmark dataset show that the proposed multi-stream pose Convolutional Neural Network successfully discriminates a wide range of human-human interactions. Moreover, when used in conjunction with the overall context, human poses provide discriminative cues about human-human interactions.