Tez No İndirme Tez Künye Durumu
732915
Video görüntülerinde kalabalık analizi / Crowd analysis in video images
Yazar:MERVE AYYÜCE KIZRAK
Danışman: DOÇ. DR. BÜLENT BOLAT
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı / Haberleşme Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
Onaylandı
Doktora
Türkçe
2021
101 s.
Dünya; aşırı nüfus artışının yanı sıra terör, savaş ve salgın gibi sınavlardan geçerken, kamuya açık alanların güvenliğinin sağlanması giderek zorlaşan bir konu haline gelmektedir. Video kayıtlarından elde edilen görüntüler kullanılarak kamuya açık alanların denetlenmesi, düzenlenmesi gibi pratik konularda kalabalık yoğunluk analizinin en uygun şekilde gerçekleştirilmesi amaçlanmaktadır. Kalabalık analizi, akademik ve pratik hayatta yaygın etkiye sahip, önemli ve güncel bir araştırma konusudur. Bu çalışma dâhilinde yapay zekâ alt konularından olan derin öğrenme yaklaşımları kullanılarak özgün ve etkin bir yöntem önerilmektedir. Çalışmanın ilk sonuçları CNN (Evrişimli Sinir Ağları) temelli paralel mimari, Gauss-YOLOv3 (You Only Look Once) ve iyi bilinen KNN (K-En Yakın Komşuluk) gibi yöntemlerin kombinasyonları ile alındı. Kalabalık analizi için literatürde yer alan UCF-QNRF, UCF_CC_50, UCSD, ShanghaiTech Part A, WorldExpo'10 ve PETS2009 veri kümeleri hakkında detaylı bilgi verildi. Çalışmanın başarısının genelleştirilebilir olduğunu göstermek için bu veri kümeleri ile testler yapıldı. Çalışmanın kalabalık davranış değişiminin kestirilmesi aşaması için PET2009 veri kümesindeki altı farklı video dizisi kullanıldı. Doğruluk başarım %83,2 ile %96,4 aralığında elde edildi. Bu sonuçların literatürdeki benzerleriyle karşılaştırılabilir düzeyde olduğu gösterildi. Çalışmanın nihayetinde, dikkat temelli evrişim ve kapsül ağı modülüne sahip ve anlaşmalı yönlendirme algoritması kullanan iki sütunlu bir derin öğrenme mimarisi önerildi. Önerilen yöntemin başarımını kapsamlı bir şekilde göstermek için MAE (Ortalama Mutlak Hata) ve MSE (Ortalama Karesel Hata) değerlendirme metrikleri güncel çalışmalarla karşılaştırıldı ve kendilerine en yakın başarıma göre gerçekleştirilen iyileştirilme oranları hesaplandı. İyileştirme ile önerilen yöntem literatürdeki son teknoloji yaklaşımlarla karşılaştırıldığında bu problem için etkili ve genelleştirilebilir olduğunu göstermektedir. Elde edilen sonuçlar şöyledir: UCF-QNRF'de %2,18 MSE; UCF_CC_50'de %2,33 MAE ve %1,68 MSE; UCSD'de %8,46 MAE ve %7,03 MSE; ShanghaiTech Part A'de %4,69 MAE ve %3,94 MSE; WorldExpo'10'de %6,94 MAE. Önerilen kapsül ağı temelli derin öğrenme mimarisi; davranış analizi için gelecekteki çalışmalarda optik akış gibi hareket bilgileri kullanılmaksızın, konum ve yönelim bilgilerinin kalabalık analizlerinde kullanılabileceğini göstermektedir.
World; In addition to excessive population growth, while passing through tests such as terrorism, war, and epidemics, ensuring the security of public spaces is becoming an increasingly difficult issue. By using images obtained from video imaging, it is aimed to perform crowd density analysis most appropriately in practical matters such as controlling and arranging public spaces. Crowd analysis is an important and recent research subject that has a widespread impact on academic and practical life. In this study, an original and effective method is proposed by using deep learning approaches, which is one of the sub-topics of artificial intelligence. The first results of the study were obtained with a combination of CNN-based parallel architecture, Gauss-YOLOv3, and well-known KNN methods. Detailed information was given about the datasets of UCF-QNRF, UCF_CC_50, UCSD, ShanghaiTech Part A, WorldExpo'10, and PETS2009 in the literature for crowd analysis. Tests were performed with these datasets to demonstrate that the success of the study was generalizable. Six different video sequences in the PET2009 dataset were used to predict crowd behavior change in the study. Accuracy performance was between 83.2% and 96.4%. These results were shown to be comparable to their counterparts in the literature. At the end of the study, a two-column deep learning architecture with attention-based convolution and capsule network module and using negotiated routing algorithm is proposed. To show the performance of the proposed method comprehensively, MAE and MSE evaluation metrics were compared with current studies and the improvement rates according to their closest performance were calculated. The proposed method with improvement shows that it is effective and generalizable for this problem when compared with the state-of-the-art approaches in the literature. The results obtained are as follows: 2.18% MSE in UCF-QNRF; 2.33% MAE and 1.68% MSE at UCF_CC_50; 8.46% MAE and 7.03% MSE in UCSD; 4.69% MAE and 3.94% MSE in ShanghaiTech Part A; 6.94% MAE at WorldExpo'10. The proposed capsule network-based deep learning architecture; shows that position and orientation information can be used in crowd analysis without using motion information such as optical flow in future studies for behavioral analysis.