Tez No İndirme Tez Künye Durumu
780596
Videolarda derin öğrenme yaklaşımları ile anormal durum tespiti ve boyut indirgeme sistemi / Anomaly detection and size reduction system with deep learning approaches in videos
Yazar:MEHMET TEVFİK AĞDAŞ
Danışman: PROF. DR. SEVİNÇ GÜLSEÇEN
Yer Bilgisi: İstanbul Üniversitesi / Fen Bilimleri Enstitüsü / Enformatik Ana Bilim Dalı / Enformatik Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Yapay zeka = Artificial intelligence
Onaylandı
Doktora
Türkçe
2022
145 s.
Kurum ve kuruluşlarda, videolarda anormal durumların tespit edilmesi için genellikle güvenlik kamera sistemleri kullanılmaktadır. Güvenlik kamera sistemlerinin yönetilmesinde ise güvenlik personeli kaynağı kullanılmaktadır. Güvenlik personellerinin dikkati ve takibatları sayesinde, güvenlik kamerası sistemlerindeki video görüntülerinde anormal bir durum tespit edilip gerekli müdahaleler yapılmaktadır. Güvenlik personeli kaynağının insan olması sebebiyle sahip olmaları gereken dikkat ve takibatlarını, fizyolojik, biyolojik ve ruhsal gibi birçok insani yapı etkilemektedir. Güvenlik kamerası videolarının anlık takip edilmesinin yanı sıra depolanması da oldukça önemlidir. Videolarda detaylı analiz işlemleri ve hukuki takibatının yapılabilmesi için videoların kayıt edilmesi ve depolanması gerekmektedir. Güvenlik kamera sistemlerindeki video kayıtlarının depolanmasında geçmişe dönük zamansal artış doğrudan sistemin kullanışlığını, güvenirliğini ve beraberinde dezavantajlı bir durum olan sistemin maliyetini artırmaktadır. Bu tez çalışması iki aşamalı olarak planlanmıştır. Birinci aşamada, videolardaki anormal durumların, derin öğrenme tabanlı ve insani yapılardan etkilenmeyen bilgisayarlı görüntüleme teknikleri ile tespit edilmesi amaçlanmıştır. Bu aşamadaki çalışma neticesinde, anlık video görüntülerinde anormal durumlardan otomatik silah, bıçak ve şiddet tespiti sistemi yapılmıştır. Bu çalışma Covid-19 pandemisi dönemlerinde yapıldığından, videolarda anormal durum tespit işlemlerinin yapılabilmesi için gerçekleştirilen model eğitimlerinde veri kümeleri anonim ve telif hakkı içermeyen internet ortamlarından, YouTube görüntülerinden ve açık kaynak erişimli olan akademik çalışma veri kümelerinden derlenmiştir. Deneysel çalışmalarda derin öğrenme tabanlı, görüntü işleme tekniklerinden YOLOv4, YOLOv5, YOLOX ve YOLOR modelleri kullanılmıştır. En yüksek başarım değeri, YOLOR modeli ile % 97,6 olarak elde edilmiştir. Şiddet tespiti için ise, EfficientDet D0-D7, YOLOv5 ve Faster R-CNN modeli uygulanmış ve en iyi başarı değeri EfficientDET D0-D7 modeli ile %94,1 elde edilmiştir. Bu tez çalışmasının ikinci aşamasında, güvenlik kamerası video kayıt görüntülerinde anormal durumların sınıflandırılması ve görüntülerin depolamasında boyut indirgenmesi çalışması yapılmıştır. Görüntü sınıflandırması için veri kümeleri, tezin birinci aşamasındaki anormal durum algılanması ve tespitinde olduğu gibi anonim telif hakkı içermeyen veri kümelerinin derlemesinden oluşturulmuştur. Bu sınıflandırma işlemleri için derin öğrenme temelli önceden eğitilmiş derin ESA mimarilerinden AlexNet, GoogleNet, VGG16, VGG19, SqueezeNet, Inception, ResNet18 ve ResNet50 ile TSA mimarilerinden LSTM ve GRU kullanılmıştır. Anormal durumlardan silah ve bıçak sınıflandırılması işleminde en iyi başarım değeri ince ayar yaklaşımına dayalı eğitilmiş VGG16 modeli ile elde edilmiştir. Şiddet sınıflandırılması çalışmasında en iyi başarım değeri ise AlexNet modeli ile %100 doğruluk skoru elde edilmiştir. Boyut indirgeme çalışması için, tezin ikinci aşamasında yapılmış olan sınıflandırma verileri ve temel görüntü işleme teknikleri ile video resim çerçeveleri farkları hesaplanarak özgün boyut indirgeme modeli üretilmiştir. Bu model, kullanıcıların rahatlıkla kullanabilmesi, kurum ve kuruluşların gereksinimlerine göre hassasiyetinin kontrol edilmesi ve sistem sorumlusunun teknik destek verebilmesi gibi ayrıntılar dikkate alınarak geliştirilmiştir. Bu sistem, insan bilgisayar etkileşimine uygun olarak Matlab AppDesigner platformu aracılığıyla tasarlanmıştır Bu tez çalışmasında, şiddet, silah ve bıçak tespitine ve sınıflandırılmasına dayalı deneysel çalışmalar yapılmıştır. Ayrıca, bu deneysel çalışmaların uygulanabilir bir hale getirilmesi ve görüntülerin depolamasında kazanç elde edilebilecek özgün bir boyut indirgeme sistemi geliştirilmiştir. Bu çalışmalar neticesinde video sistemlerinde anlık ve görüntü arşiv kayıtlarında analiz işlemlerinde kullanılmak üzere şiddet, silah ve bıçak tespiti ve sınıflandırma çalışmaları başarı ile gerçekleştirilmiştir. Görüntülerde anlık tespit çalışmaları, güvenlik kamera sistemlerine direk olarak bağlanıp kullanılabilmektedir. Gerçekleştirilen arşiv görüntü analizi çalışmaları ise, bu çalışmaya özgü insan bilgisayar etkileşimleri kuralları gözetilerek hazırlanan görüntü analizi ve boyut indirgeme sistemine bağlanmıştır. Bu çalışmada, gerçekleştirilen özgün boyut indirgeme sistemi sayesinde hareketsiz ortamlarda % 10 ile %40 arasında kazanç sağladığı gözlemlenmiştir. Sonuç olarak, bu tez çalışmasında bütün amaç ve hedefler başarılı bir şekilde yerine getirilmiştir.
In institutions and organizations, security camera systems are usually used to detect abnormal situations in videos. Security personnel resources are used in the management of security camera systems. Thanks to the attention and follow-up of the security personnel, an abnormal situation is detected in the video images on the security camera systems and the necessary interventions are made. Due to the fact that the source of security personnel is human, many human structures such as physiological, biological and spiritual affect the attention and monitoring they should have. In addition to instant monitoring of security camera videos, it is also very important to store them. The videos must be recorded and stored in order for detailed analysis operations and legal proceedings to be carried out on the videos. The retrospective temporal increase in the storage of video recordings in security camera systems directly increases the usefulness, reliability of the system and the cost of the system, which is a disadvantageous situation. This thesis study is planned in two stages. In the first stage, it is aimed to detect abnormal situations in videos with computerized imaging techniques based on deep learning and not affected by human structures. As a result of the work at this stage, an automatic weapon, knife and violence detection system was made from abnormal situations in instant video images. Since this study was conducted during the Covid-19 pandemic, the data sets were compiled from anonymous and copyright-free internet environments, YouTube images and academic study data sets with open source access in the model trainings conducted to enable abnormal situation detection operations in videos. YOLOv4, YOLOv5, YOLOX and YOLOR models based on deep learning based image processing techniques were used in experimental studies. The highest performance value was achieved as 97.6% with the YOLOR model. For the detection of violence, EfficientDet D0-D7, YOLOv5 and Faster R-CNN models were applied and the best success rate was achieved with the EfficientDET D0-D7 model at 94.1%. In the second phase of this thesis study, abnormal situation classification in security camera video recording images and size reduction in the storage of images were studied. The data sets for image classification were created from the compilation of anonymous copyright-free data sets, as in the detection and detection of abnormal situations in the first stage of the thesis. For these classification operations, AlexNet, GoogLeNet, VGG16, VGG19, SqueezeNet, Inception, ResNet18 and ResNet50, which are pre-trained deep CNN architectures based on deep learning, and LSTM and GRU from RNN architectures were used. The best performance value in the classification of weapons and knives from abnormal situations was obtained with the VGG16 model, which was trained based on a fine-tuning approach. The best performance value in the violence classification study was obtained with a 100% accuracy score using the AlexNet model. For the size reduction study, an original size reduction model was produced by calculating the classification data and basic image processing techniques and video picture frame differences made in the second stage of the thesis. This model has been developed taking into account details such as the ability of users to use it easily, checking its sensitivity according to the requirements of institutions and organizations, and the ability of the system supervisor to provide technical support. This system is designed through the Matlab AppDesigner platform in accordance with human-computer interaction. In this thesis study, experimental studies based on the detection and classification of violence, weapons and knives were carried out. In addition, an original size reduction system has been developed to make these experimental studies feasible and to make gains in the storage of images. As a result of these studies, violence detection, weapon and knife detection and classification studies have been successfully carried out for use in analysis operations in instant and image archive recordings in video systems. Instant detection studies in images can be connected directly to security camera systems and used. The archival image analysis studies carried out were connected to the image analysis and size reduction system prepared by observing the rules of human computer interactions specific to this study. In this study, it has been observed that it provides a gain between 10% and 40% in stationary environments thanks to the original Decimation system. As a result, all the goals and objectives have been successfully fulfilled in this thesis study.