Tez No İndirme Tez Künye Durumu
771556
Doğal dille sorgulanabilir video özetleme sisteminin tasarlanması ve uygulanması / Design and implementation of a natural language queryable video summarization system
Yazar:MUHAMMED ABDULHAMİD KARABIYIK
Danışman: DOÇ. DR. ASIM SİNAN YÜKSEL
Yer Bilgisi: Süleyman Demirel Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning ; SQL = Structured query language ; Sorgulama işlemcisi = Query processor ; Video analizi = Video analytics
Onaylandı
Doktora
Türkçe
2022
93 s.
Bu tez çalışmasında, videolar üzerinde doğal dil ile sorgulama yapabilecek bir uygulama geliştirilmiştir. Uygulama 3 ana modül olarak tasarlanmıştır. Bu modüller; nesne tespit, video özetleme ve metinden SQL dönüşümüdür. Modüllerin geliştirilmesinde derin öğrenme yöntemleri kullanılmıştır. Nesne tespit modülünde, videonun sorgulanabilmesi için gerekli özelliklerin çıkarımı yapılmıştır. Özellik çıkarımı için YOLOv5 ön eğitimli modeli kullanılmıştır. Video özetleme modülünde, nesne tanıma modülünden gelen sonuçlar ve ek özellikler kullanılarak gerçek zamanlı sorgulanabilir metinsel bir özet çıkarılmıştır. Video özetleme modülü anlam tabanlı olarak geliştirdiğimiz özgün bir yöntemle gerçekleştirilmiştir. Metinden SQL dönüşümünü sağlayan modülde ise LSTM tabanlı SmBoP dönüştürücüsü kullanılmıştır. Gerçekleştirilen uygulamada sorgulama için arabalar hedef nesnelerdir. Uygulamada sorgulama yapılabilmesi için kullanılan koşullar araba rengi, araba markası, araç tipi, tarih, saat ve kamera lokasyonlarıdır. Araç tespiti için renk, marka ve araç tipi modelleri geliştirilmiştir. Renk, marka ve araç tipi modellerinin sırasıyla ortalama kesinlik değerlerinin ortalaması %98,714, %91,742 ve %96,713'tür. Metinden SQL dönüşümü için oluşturulan modelimizin doğruluk oranı %80'dir. Uygulamanın genel başarı oranı ise %70,06 olarak tespit edilmiştir.
In this thesis, an application has been developed that can query videos in natural language. The application is designed as 3 main modules. These modules are object detection, video summarization, and text-to-SQL conversion. Deep learning methods were applied in the development of the modules. In the object detection module, the necessary features have been extracted for the video to be queried. The YOLOv5 pre-trained model was used for feature extraction. In the video summarization module, a real-time queryable textual summary is extracted using the results from the object recognition module and additional features. The implementation of the video summarization module was carried out with a semantic based novel method. In the text-to-SQL conversion module, an LSTM-based SmBoP converter was used. Cars are target objects for querying in our application. The features used for querying in the application are color, brand, body type, date, time and camera locations. Color, brand and vehicle body type models have been developed for car detection. Mean average precision of color, brand and vehicle body type models are 98,714%, 91,742% and 96,713%, respectively. The accuracy of our model for text-to-SQL conversion is 80%. The overall accuracy of the application was determined as 70,06%.