Tez No İndirme Tez Künye Durumu
565495
Aircraft detection from large scale remote sensing images with deep learning techniques / Büyük ölçekli uzaktan algılama görüntülerinden derin öğrenme teknikleriyle uçak tespiti
Yazar:MEHMET SOYDAŞ
Danışman: PROF. DR. ELİF SERTEL
Yer Bilgisi: İstanbul Teknik Üniversitesi / Bilişim Enstitüsü / İletişim Sistemleri Ana Bilim Dalı / Uydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2019
109 s.
Bilgisayarlı görü ve yapay zeka konuları insan hayatında yeni bir alan değil. Yıllardır hayatlarımızdaki problemleri insan kaynağı gerektirmeyecek şekilde otomatize edebilmek adına probleme özel morfolojik yöntemler araştırılmakta ve denenmektedir. Son zamanlarda donanımlardaki yüksek hesaplama gücü, veri miktarı ve algoritmaların hızlı gelişimiyle birlikte birçok alanda bu morfolojik yaklaşımlar yerini derin öğrenme yöntemlerine bırakmaya başladı. Her alanda olduğu gibi uydu görüntülerinin analizlerinde de bu yöntemler ilgi görmekte ve kullanımı yaygınlaşmaktadır. Uydu görüntülerinin analizi orman alanlarının ve yangınlarının belirlenmesi, tarım arazilerindeki ekili alanların takibi, şehir ve yol planlaması, güvenlik ve askeri gözetlemeler, afet ve kriz yönetimi gibi birçok konuda çok önemli roller oynamaktadır. Kilometrelerce karelik alanları içerebilen uydu görüntüleri düşünüldüğünde, bu analizlerin insan tarafından yapılabilmesi çok maliyetli ve zaman gerektiren işlemlerdir. Ayrıca doğru sonuçları elde edebilmek için analiz görevinde kullanılacak insanların, alanında uzman kişiler olması da gerekmektedir. Tüm bunlar düşünüldüğünde probleme özgü oluşturulacak bilgisayarlı görü sisteminin hem hızlı sonuç verebilmesi, hem de en az insanlar kadar yüksek doğruluk oranında çalışması beklenmektedir. Uydu görüntülerinin analizinde bilgisayarlı görü çözümleri sınıflandırma, bölütleme ve nesne tespiti olarak üç başlık altında toplanır. Sınıflandırma ve bölütleme ise kendi içinde pixel tabanlı sınıflandırma, alan sınıflandırması, anlamsal bölütleme ve örnek bölütleme şeklinde alt başlıklarda incelenir. Tüm bu analizlerde görüntü üzerindeki konumsal ve spektral korelasyonlardan faydalanan derin öğrenme mimarisi olan evrişimli sinir ağları(CNN) kullanılabilmekte ve yüksek başarımlar elde edilmektedir. Bu çalışmada uydu görüntülerinden uçak tespiti konusu ele alınmış, geleneksel yöntemler ile derin öğrenme tekniğine dayalı farklı sinir ağı mimarileri eğitilmiş ve test edilmiştir. Test için havalimanı bölgelerini içeren görüntülerde elle etikeletme yapılmıştır. Büyük ölçekli görüntülerde hızlı tespit ve yüksek başarım için bir algoritma geliştirilmiş, farklı mimarilerin kullanımı ve eğitim yöntemlerinin başarıma etkileri incelenmiştir. Çalışmada öncelikle literatür taranmış ve farklı yaklaşımlar incelenmiş, daha sonra makine öğrenmesi temelleri hakkında bilgi paylaşılmıştır. Makine öğrenmesinin alt başlığı olan derin öğrenme konusuna da değinilmiştir. Çalışmanın bel kemiğini oluşturan evrişimsel sinir ağları tanıtılmıştır ve temel kavramları üzerinde durulmuştur. Derin öğrenme teknikleriyle çalışan nesne tespit modelleri evrişimsel sinir ağlarını öznitelik çıkarıcı olarak kullanmaktadırlar. Dolayısıyla çalışmanın metodoloji kısmında CNN ile nesne tespit mimarilerinin kesiştiği kısımlara değinilmiş, son teknoloji tespit mimarileri incelenmiştir. Büyük ölçekli uydu görüntülerinde hızlı ve yüksek başarımla tespit gerçekleştirebilmek için kayan pencere yöntemi ve azami baskılama algoritmalarından yararlanılmıştır. Veri seti olarak "A Large-scale Dataset for Object Detection in Aerial Images (DOTA)" veriseti ve ayrıca test için hazırlanan 5 büyük havalimanı görüntüsünü içeren bir veriseti kullanılmıştır. Mimarilerin eğitimleri için farklı parametreler ve optimizasyon yöntemleri denenmiş ve sonuçlar COCO Metrik API kullanılarak 12 farklı metrik için çıkarılmıştır. Buna ek olarak modellerin F1 skorları da incelenmiş çalışmanın tespit sonuçları havalimanı bölgelerini içeren büyük ölçekli uydu görüntülerinden elde edilerek paylaşılmıştır. Tespit mimarilerinde sınıflandırma işlemine ek olarak konumlandırma problemine de çözüm aranır. Sınıflandırma problemlerinde derin öğrenme mimarilerinin başarılarının artmasıyla birlikte nesne tespiti için de "Single Shot Multibox Detector (SSD), Faster Region-based Convolotional Neural Network (Faster R-CNN), Yolo Look Only Once (YOLO-v3)" gibi farklı mimariler ortaya çıkmıştır. Bu mimariler, nesne tespiti yapılabilmesi için gerekli olan sınıflandırma ve konumlandırma problemlerini tek bir sinir ağı ve yüksek başarımlar ile çözebilmektedirler. Bu son teknoloji mimariler günlük hayattaki nesnelerin video görüntüleri üzerinden tespitinin yapıldığı "Common Objects in Context (COCO) ve Pattern Analysis, Statistical Modeling and Computational Learning (Pascal VOC)" gibi yarışmalarda yüksek başarımlar elde ettiler ve hızlı sonuç sağlayabildikleri için de çokca kullanılmaktadırlar. Aynı şekilde son yıllarda uydu görüntülerinden nesne tespiti için de kullanılmaya başlanmış ve tatmin edici sonuçlar elde edilmiştir. Derin öğrenme algoritmalarının eğitiminde mimarilerin yapısının yanında, uygun veriseti hazırlanması, parametre seçimi, optimizasyon yöntemleri ve eğitim sonuçlarını anlamlandırabilmek çok önemlidir. Bu amaçla uçak tespitini gerçekleştirebilmek için gayet kapsamlı ve çeşitliliği bol olan DOTA verisetinde bulunan uçak örnekleri kullanılmıştır. Veri sayısının fazla olması eğitilen modellerin her koşula uygun ve daha başarılı olmalarını sağlamaktadır. Dolayısıyla eğitimlerin her adımında tüm örneklere rastgele olacak şekilde kesme, döndürme uygulanıp, renk ve doygunluk değerleri değiştirilerek, veri çoklama işlemi uygulanmıştır. Parametreler eğitim aşamasında modellerin kayıp değerleri incelenerek öğrenme eğilimlerine göre belirlenmiştir. Yolo-v3 modelinin eğitiminde kullanılmak üzere bazı parametrelerin belirlenmesinde gözetimsiz bölütleme algoritması olan K-means algoritmasından yararlanılmıştır. Üç farklı nesne tespit mimarisi için de "Stochastic Gradient Descent (SGD), Root Mean Square Propagation (Rms-prop) ve Adaptive Moment Optimization (Adam)" optimizasyon yöntemlerinden yararlanılmıştır. Eğitilmiş modellerle büyük ölçekli uzaktan algılama görüntülerinde uçak tespiti yapabilmek için kayan pencere yöntemi ile büyük görüntüler taranmaktadır. Derin öğrenme algoritmaları maliyetli çözümler oldukları için olabildiğince hızlı olabilmek adına ve tespit edilemeyen nesne kalmaması için pencere sayısı optimum olacak şekilde ve pencerelerin kesişim bölgelerinin alanı verisetlerinde bulunan ortalama uçak boyutlarında tutulmuştur. Tespit işlemi bu şekilde gerçekleştirildikten sonra kesişim olan bölgelerde aynı nesne için oluşacak birden fazla tespiti eleyebilmek adına azami baskılama algoritması uygulanmıştır. Çalışmanın sonunda eğitilen modellerin ayrı ayrı hem DOTA verisetinden ayrılan test örnekleri, hem de bu tez çalışması için hazırlanmış 5 adet büyük ölçekli uydu görüntüsü üzerinde değerlendirilmesi yapılmıştır. Performans ölçümü için COCO değerlendirme formatı esas alınarak nesne boyutlarına ve görüntü başına yapılan tespit miktarına göre ortalama hassasiyet (AP) ve ortalama duyarlılık (AR) metrikleri hesaplanmıştır. Ayrıca yine nesne boyutlarına göre hassasiyet ve duyarlılık eğrileri çizdirilerek grafikler üzerinden konumlandırma hatası, arka plan karışıklığı, kaçan tespit oranı, farklı iou (intersection over union) değerleri için başarımları yorumlanmıştır. Ayrıca DOTA verisetinin eğitim ve test kısmı ile yine büyük ölçekli uydu görüntüleri için toplam hassasiyet, duyarlılık ve ikisinin harmonik ortalaması olan F1 metriği hesaplanarak modellerin eğitim verisetine ne kadar yakınsadığı ve öğrenme işleminin başarısı gözlenmiştir.
Computer vision and artificial intelligence are not new fields in people's lives. In order to automate the problems in our lives in a way that does not require human resources, problem-specific morphological methods were investigated and tried over the years. Recently, these morphological approaches have been replacing by deep learning methods in many fields thanks to the hardware which came up with high computational power, a vast amount of data in the digital world and rapid development of machine learning and deep learning algorithms. As in every field, these methods are also used in the analysis of remotely sensed images and their usage is becoming more widespread. The analysis of satellite images plays a very important role in many areas such as defining forest areas and fires, monitoring of cultivated areas in agricultural lands, city and road planning, security and military surveillance, disaster and crisis management. Considering the satellite images, which can cover many square kilometers of areas, it is very costly and time-consuming to perform these analyzes by people. In addition, in order to obtain accurate results, it is also necessary, that the people to be used for these tasks, must be experts in their field. Regard all, it is expected that the obtained computer vision system should give both fast results and at least as much accurate as of the people. In the analysis of satellite images, computer vision solutions are categorized into three main topics as classification, segmentation and object detection. Classification and segmentation are examined in the sub-topics as pixel-based classification, scene classification, semantic segmentation, and instance segmentation. In all these analyses, convolutional neural network(CNN), a deep learning architecture which utilizes the spatial and spectral correlations on the image can be used and high performances can be achieved. In this study, aircraft detection from satellite imageries with deep architectures and traditional methods was discussed. Different object detection algorithms based on deep learning approaches were trained and tested. For the evaluation, the images containing airport areas were manually labeled. A detection flow algorithm was developed for large scale satellite images for rapid detection and high accuracy. The effects of using different architectures and the effects of training methods on the performance were investigated.