Tez No İndirme Tez Künye Durumu
798383
Model robustness in data-scarce regimes and the effect of frequency perturbations / Veri azlığında model gürbüzlüğü ve frekans karıştırmanın etkileri
Yazar:MEHMET KERİM YÜCEL
Danışman: PROF. DR. PINAR DUYGULU ŞAHİN ; DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2022
141 s.
Geçtiğimiz on yıl, veri bazlı metodların çeşitli disiplinlerde yükselişine tanık olmuştur. Etkileyici yükselişlerine rağmen, derin öğrenme metodlarının gürbüzlük problemlerine yatkın oldukları gözlemlenmiştir; bu modellerin, insanların farkedemeyeceği şekilde değiştirilen resimlerde hatalı tahmin yaptıkları, hatta günlük senaryolarda olağan olarak gerçekleşen ve girdileri etkileyebilen olaylar karşısında çalışamadıkları gözlemlenmiştir. Bu tez, derin öğrenme modellerinin, gürbüz bir şekilde genellenmelerine odaklanmaktadır ve bu konuda özellikle iki tane amaca yoğunlaşmıştır. Veri azlığının olduğu senaryolarda eğitilmiş modellerin gürbüzlüğüne dair literatürde çalışma olmamasından esinlenerek, bu tezde ilk olarak sıfır-atış senaryolarda eğitilen modellerin gürbüzlük karakteristikleri incelenmiştir. İlk olarak, ayrımcı sıfır-atış modellerin, düşmancıl resimlere karşı farklı gürbüzlük özelliklerine sahip oldukları saptanmıştır; görülmüş ve görülmemiş sınıfların farklı etkilenmesi, asıl model başarımının etkisi, sıfır-atış ve genelleştirilmiş sıfır-atış senaryolarının çok farklı etkilenmesi, bu davranışlara bazı örneklerdendir. Bundan sonra, sadece düşmancıl resimlere karşı görülen sözde gürbüzlük etkisi saptanmıştır ve analiz edilmiştir; bu etki, aslında gürbüz olmayan modellerin gürbüz olarak algılanmasına yol açabilmektedir. Bundan sonra, analizlerimiz daha pratik bir senaryo olan olağan resim bozulmalarına odaklanmıştır. Öncelikle, bu senaryolarda analiz yapabilmek için, sıfır-atış modellerinde olağan resim bozulmalarını analiz etmeye yarayacak, literatürde önceden örneği olmayan, üç veri seti hazırlanmıştır. Bu veri setleri kullanılarak, ve kullanılan sıfır-atış modelleri çeşitlendirilerek, olağan resim bozulmalarına karşı analizler yapılmıştır. Çeşitli veri büyütme tekniklerinin, var olan sıfır-atış modellerinin sonuçlarını iyileştirdiği görülmüştür. Son olarak, düşmancıl ve olağan bozulma analizlerin sonuçları karşılaştırılmış ve sonuçlar verilmiştir. Temel görüntü işleme tekniklerinden olan resim frekans analizi metodlarından ilham alınarak, resimlerin frekans bilgilerinin model gürbüzlüğünü geliştirme ihtimalleri araştırılmıştır. Resimlerin asıl önemli olan özelliklerinin düşük frekanslarda olduğunu baz alarak, yeni bir veri büyütme tekniği geliştirilmiştir. HybridAugment adını verdiğimiz teknik, resimlerin yüksek ve düşük frekans bileşenlerinin rastgele bir şekilde değiştirilmesiyle yapılmaktadır. Başka veri büyütme teknikleriyle de çalışabilen bu metod, modellerin öğrenme sürecinde düşük frekans bileşenlerine yoğunlaşmasını sağlamakta, ve gürbüzlük problemlerinin sebebi olarak gösterilen yüksek frekans bileşenlerine yoğunlaşmalarını azaltmaktadır. HybridAugment metodunun iki versiyonu sunulmuştur; tek ve çoklu resimlerlerle çalışan bu versiyonlar, birlikte de çalışabilmekte ve sonuçları daha da iyileştirmektedir. Son olarak, resimlerin faz bileşenenin daha ziyade uzaysal bilgiye sahip olduklarını baz alarak, HybridAugment++ metodu geliştirilmiştir. Bu metod, resimlerin faz ve büyüklük bileşenlerin rastgele değiştirilmesi ile HybridAugment tekniğini hiyerarşik olarak uygulamaktadır. HybridAugment++, tekli ve çoklu versiyonları aynı anda çalıştırıldığı zaman, birden fazla veri setinde literatürdeki en iyi sonuçları elde etmektedir.
The last decade has witnessed the meteoric rise of data-driven methods, which has been elevated to new heights thanks to the availability of powerful hardware and abundant data. Despite their swift ascension, deep learning methods are repeatedly shown to have robustness problems; they can be tricked into making errors with minor changes in the input that are invisible to us humans, or they can not withstand certain failure modes common in real-life scenarios. This thesis focuses on the robust generalization problem, where two primary aims drive our research effort. First, inspired from the surprising lack of thorough discussions on robust generalization in data-scarce regimes, we perform an exhaustive analyses on the robustness behaviour of models trained in zero-shot learning settings. We first show that discriminative zero-shot models have distinct robustness characteristics against adversaries, such as unseen and seen classes being affected disproportionately, the effect of original model accuracy and the stark differences between how zero-shot and generalized zero-shot accuracies degrade. We also identify the unique pseudo-robustness effect caused by adversaries, where models might be falsely declared as robust. We then extend our analyses to a more practical scenario, where images are corrupted with common image corruptions. We curate and present the first three datasets for corruption robustness analyses in the zero-shot literature. Using these datasets, we provide a set of rigorous analyses with a wider range of zero-shot models to assess their robustness against corruptions. Our results show that with key augmentation choices, we can improve the performance profiles of various models. Finally, we aggregate the results of adversarial and corruption robustness behaviours of zero-shot models and conclude with a thorough comparison. Second, inspired by the fundamental techniques in image processing, we focus on using frequency-spectra information to improve model robustness. Assuming that the true label information of an image resides in its low-frequency components, we propose HybridAugment where images are augmented by randomly swapping their high-frequency component with other images. This augmentation is implemented in tandem with existing augmentations, and enforces the network to be less reliant on high-frequency information, which is a prime reason for model robustness issues. We then propose two variants of HybridAugment, where single or multiple image settings are used to perform the augmentation. With single and multi image augmentations being used at the same time, the results are further improved. Finally, inspired by the two orthogonal frequency-centric analyses (i.e. frequency bands and phase/amplitude decomposition) and the need to unify them, we propose HybridAugment++ that performs a hierarchical augmentation in the frequency-spectra. In addition to swapping low and high-frequency components of images, HybridAugment++ also swaps phase and amplitude of random images, but does so only on the low-frequency components. HybridAugment++, with its single and paired variants working in tandem, achieves state-of-the-art results in multiple benchmark datasets, showing its effectiveness.