Tez No İndirme Tez Künye Durumu
662027
Küçük veri setleri için derin öğrenme / Deep learning for small datasets
Yazar:TUNÇ GÜLTEKİN
Danışman: PROF. DR. AYBARS UĞUR
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
114 s.
Büyük miktarda veri ihtiyacı, derin öğrenme yöntemlerinin en zorlu gereksinimlerinden biridir ve yeterli miktarda verinin bulunmadığı durumlarda eğitim sırasında 'ezberleme' ve 'öğrenememe' gibi sorunlar ile karşılaşılmaktadır. Bu sorunlar sebebiyle derin öğrenme algoritmalarının, veri kaynaklarının sınırlı olduğu alanlara uygulanması, geleneksel yöntemlere göre daha güç olmaktadır. Derin öğrenme tekniklerinin, küçük veri kümeleri üzerindeki performansları; veri çoklama, sınıflandırıcı toplulukları ve transfer öğrenme gibi yaklaşımlar ile 'ezberleme' ve 'öğrenememe' etkilerinin azaltılmasıyla iyileştirilebilmektedir. Bu tezde, öncelikle görüntü veri setleri üzerinde bahsedilen yöntemler incelenmekte ve ardından bu yöntemler için 4 yeni yaklaşım önerilmektedir. Sunulan yeni yöntemlerin sınanmasında Cifar10, Animal10, Caltech101 gibi veri setlerinin örneklenerek ezberleme etkilerinin görünür hale geldiği küçük alt kümelerinden faydalanılmıştır. Sınıflandırıcı toplulukları kapsamında önerilen yaklaşımda derin sinir ağlarından oluşan bir sınıflandırıcı topluluğu için topluluğu oluşturan ağların nihai karara etki miktarları, iteratif olarak ayarlanmaktadır. Örneklenerek küçültülmüş Cifar10 veri seti üzerinde gerçekleştirilen deneylerde geleneksel topluluk yöntemlerine göre daha başarılı sonuçlar elde edilmiştir. Önerilen ikinci yöntemde ise sınıflandırıcı toplulukları ve transfer öğrenme tekniklerinden faydalanılarak, farklı sayıda katmanın transfer edilmesiyle oluşturulan bir topluluk çatısı ve skorlama yöntemleri önerilmektedir. Farklı boyutlarda örneklenerek küçültülmüş Cifar10 veri seti ile gerçekleştirilen deneylerde, sunulan yaklaşımın standart topluluk ve transfer öğrenme tekniklerine göre daha başarılı sonuçlar ürettiği gözlenmiştir. Önerilen sonraki yöntemde veri çoklama bağlamında, Üretici Çekişmeci Ağlar ve Stil Transferi yöntemleriyle küçük setler için sentetik veri üretimi üzerine bir prosedür geliştirilmiş ve sınanmıştır. Son yaklaşımda ise desen odaklı görüntü bölütlemeden faydalanan yeni bir teknik de önerilmiş ve bu teknik, örneklenmiş Animal10 ve Caltech101 veri setleri üzerinde literatürdeki benzer bir veri çoklama yöntemi ile karşılaştırılmıştır. Elde edilen sonuçlar önerilen yaklaşımın, benzerlerine göre küçük veri setleri üzerinde daha yüksek doğruluk oranları ürettiğini göstermiştir.
The need for large amounts of data is one of the most challenging requirements of deep learning methods, and problems such as 'overfitting', 'underfitting' are encountered during training in cases where there is not enough data. Due to these problems, the applicability of deep learning algorithms, to the domains where the data sources are limited, is more difficult than traditional methods. Performances of the deep learning techniques on small data sets can be improved by employing ensemble learning, transfer learning and data augmentation approaches. These techniques reduce overfit and underfit effects. In this thesis; firstly, data augmentation, ensemble learning, and transfer learning techniques were investigated on image data sets then 4 new approaches were proposed for them. The new methods were tested on, sub-sampled versions of Cifar10, Animal10 and Caltech101 image data sets. Sampling rates were determined with respect to the set sizes in which overfit effects were seen on. The first method, which is proposed under the scope of ensemble learning, iteratively adjusts the ensemble contribution weights of a deep neural network classifier ensemble. The experiments which were conducted on sub-sampled Cifar10 data set revealed better results compared to traditional ensemble approaches. The second approach makes use of both ensemble learning and transfer learning principles and it introduces a novel ensemble framework with new ensemble scoring mechanisms. According to the experiments which were conducted on sub-sampled Cifar10 data set, it was observed that the suggested approach produces more successful results on small data sets than the traditional ensemble and transfer learning methods. In the next approach, as a part of data augmentation; a new synthetic data generation procedure has been developed by employing Generative Adversarial Networks and Style Transfer methods and tested. In the last suggested approach, a novel synthetic image generation approach, which utilizes texture-oriented segmentation, has been proposed. The experiment results for sub-sampled Animal10 and Caltech101 data sets revealed that the proposed image generation approach increases classification accuracy on a small set better than a counterpart in literature.