Bir nesnenin görünümü, nesnenin yüzeyine düşen ışığın, rengi ve kalitesi ile aydınlatma kaynağının konumundan etkilenir. Yapay görme uygulamalarında bu durumlar nesnenin sınıflandırılması ve tanınmasını zorlaştırabilir. Çünkü görüntü elde etme aşamasında farklı aydınlatma stratejileri kullanılarak toplanan görüntülerin kalitesi birbirinden farklıdır. Dolayısıyla aydınlatma koşullarının değişimi görüntülerden görüntü işleme teknikleriyle elde edilen bilgilerin farklılaşmasıyla beraberinde anlamlandırılması için kullanılan algoritmaların performansının da sınırlandırılmasına sebep olmaktadır. Bu problemin çözümü için son yıllarda derin öğrenme mimarilerinden biri olan Evrişimsel Sinir Ağları (ESA), görüntü analizi işlemlerinde kullanılmaktadır.
Tez kapsamında aydınlatma farklılıklarından etkilenen görüntülerin sınıflandırılması ile aydınlatma ve parıltı tahminine yönelik ESA tabanlı çalışmalar önerilmiştir. Bu tez çalışması elma sektöründeki fizyolojik bozukluklara uygulanmıştır. Çalışmada ışık renklerine bağlı olarak iki aydınlatma senaryosu denenmiştir. Birinci senaryoda elma görüntüleri farklı aydınlatma koşulları (ışık renkleri ve lamba parlaklık değerleri), pozisyon açıları ve mesafelerde elde edilmiştir. Bu görüntüler hem fizyolojik bozukluk türlerine hem de ışık renklerine göre etiketlenmiştir. Fizyolojik bozukluk türlerine göre orijinal veri seti 1080 adet ve zenginleştirilmiş veri seti 4320 adet görüntüden oluşmaktadır. Bu veri setlerinin adları sırasıyla elmada fizyolojik bozukluklar-1 (EFB-1) ve elmada fizyolojik bozukluklar-32 (EFB-32) olacak şekilde adlandırılmış ve bu veri setleri 3 sınıfa ayrılmıştır. Ayrıca ışık renklerine göre ayrılan veri seti üç sınıflı (sıcak beyaz, soğuk beyaz ve yeşil ışık) bir yapıya sahiptir. Diğer bir senaryosunda ise elma görüntüleri beyaz ışığın farklı renk sıcaklıkları (sıcak, ılık ve soğuk beyaz), aydınlatma konum açıları, pozisyon açıları ve mesafelerde elde edilmiştir. Bu görüntüler elmadaki kusur durumuna göre etiketlenmiştir. Bu veri seti 1296 adet görüntüden oluşmaktadır. Çalışmada bu senaryolar kullanılarak beş yaklaşım önerilmiştir.
İlk yaklaşımda EFB-1 veri seti görüntüleri ESA modellerinin uçtan uca eğitilmesiyle sınıflandırılmıştır. Bu yaklaşımda en iyi sınıflandırma performansı Xception modelinde elde edilmiştir. Xception modelinin ortalama doğruluk, kesinlik, geri çağırma, F1-skor ve AUC değerleri sırasıyla; 0.996, 0.994, 0.998, 0.996 ve 1.000'dır.
İkinci yaklaşımda, önceden eğitilmiş ESA modelleri kullanarak fizyolojik bozuklukları makine öğrenmesi metotlarıyla sınıflandıran hibrit yöntemler değerlendirilmiştir. Bu yaklaşım EFB-1 ve EFB-32 veri setlerinde uygulanmıştır. Her iki veri setinde de en yüksek ortalama sınıflandırma doğruluğu 0.961 oranıyla VGG19(fc6) ve destek vektör makineleri (DVM) modelinde bulunmuştur. Burada 4096 boyutlu derin özellik kullanılmıştır. Ayrıca bu yaklaşımda özellik seçimi uygulanarak hibrit bir çalışma da uygulanmıştır. Özellik seçimine göre en yüksek sınıflandırma doğruluğu 0.948 ile VGG19(fc6) ve DVM modelinde 512 boyutlu derin özellik kullanılarak elde edilmiştir.
Diğer bir yaklaşımda ışık değişiminden kaynaklı sorunların çözülebilmesi için renk dengeleme modelleriyle (keskinlik, gama düzeltmesi ve Kontrast Sınırlı Uyarlamalı Histogram Eşitleme) üretilen görüntülerin sınıflandırma performanslarının etkisi değerlendirilmiştir. Bu yaklaşımda ışık renklerine göre ayrılan veri seti ve aktarım öğrenme yaklaşımı kullanılmıştır. En yüksek sınıflandırma doğruluğu soğuk beyaz ışık rengi ve gama düzeltmesi veri seti tipinde 0.934 oranıyla Xception modelinde elde edilmiştir. Ayrıca renk dengelemeyle oluşturulan veri setlerinin Tepe Sinyal-Gürültü Oranı (Peak Signal-To-Noise Ratio, PSNR) ölçütlerinde iyileşme olduğu belirlenmiştir.
Başka bir yaklaşımda farklı ışık renklerinde elde edilen görüntülerin ESA modelleriyle aydınlatması tahmin edilmiştir. Çalışmada aktarım öğrenme yaklaşımı benimsenmiştir. Ayrıca istatistiksel ve öğrenme tabanlı bazı yaklaşımlarla önerilen ESA modelleri karşılaştırılmıştır. En iyi açısal hata (AH) değerleri, önerilen GoogLeNet modelinde elde edilmiştir. Bu modelin AH değerleri; ortalama 2.220, ortanca 2.126, budanmış ortalama 2.006 ve maksimum 6.596 derecedir. Önerilen GoogLeNet modelinin ortalama mutlak yüzde hatası (MAPE) %14.732 olarak bulunmuş ve bu modelin aydınlatma tahminin iyi olduğu söylenebilir. Ayrıca 3˚ altındaki AH'lere sahip görüntü sayısı tüm görüntülerin %77.13'ünü oluşturmaktadır. Buna ek olarak bu modelle örnek görüntülerin PSNR ve Kör/Referanssız Görüntü Mekansal Kalite Değerlendiricisi ölçütlerine göre iyileştiği belirlenmiştir.
Son olarak farklı renk sıcaklığı ve aydınlatma kaynağı konum açılarını içeren görüntüler kullanılarak ESA modelleri yardımıyla görüntü tabanlı parıltı tahmini yapılmıştır. Bu yaklaşımda en iyi parıltı tahmini GoogLeNet modelinde elde edilmiştir. Renk sıcaklıklarına göre en düşük Kök Ortalama Kare Hatası (Root Mean Squared Error, RMSE) değeri soğuk beyaz ışık tipinde 5.023 cd/m2 olarak bulunmuştur. MAPE değerine göre bu ışık tipinde GoogLeNet modelinin tahminin iyi olduğu belirlenmiştir. Aydınlatma kaynağı konum açısına göre en düşük RMSE değeri 60 derecede 5.106 cd/m2 olarak hesaplanmıştır. Burada MAPE değeri en düşük yüzdeye sahiptir.
Ortaya çıkan veri setlerindeki görüntüler, ışık renklerine ve aydınlatma şekline göre değiştiğinden elmalardan elde edilen kusur bilgileri de oldukça birbirinden farklıdır. Deneysel sonuçlara göre görüntülere gürültü ve parlaklık değerlerinin eklenmesiyle sınıflandırma uygulamasının performansının düştüğü belirlenmiştir.
|
The appearance of an object is affected by the color and quality of the light falling on the object's surface and the location of the illumination source. These situations can make object classification and recognition difficult in machine vision applications. For the quality of the images collected using different lighting strategies during the image acquisition stage differs from each other. Therefore, the change in lighting conditions causes the differentiation of the information obtained from the images by image processing techniques and limits the performance of the algorithms used to make sense of it. Convolutional neural network (CNN), one of the deep learning architectures in recent years, has been used in image classification processes to solve this problem.
Within the scope of the thesis, CNN-based studies have been proposed for the classification of images affected by lighting differences and the estimation of illumination and luminance. This thesis study has been applied to physiological disorders in the apple sector. This study tried two lighting scenarios depending on the light colors. According to the first lighting scenario, apple images were obtained at different lighting conditions (different light colors and lamp brightness values), position angles, and distances. These images were labeled according to both physiological disorders types and light colors. According to the types of physiological disorders, the original data set consists of 1080 images, and the augmentation data set consists of 4320 images. These data sets were named physiological disorders in apple-1 (PDA-1) and physiological disorders in apple-32 (PDA-32), respectively, and these data sets are in three classes. Also, the data set, separated according to light colors (warm white, cold white, and green light), has a three-class structure. In another scenario, apple images were obtained at different color temperatures of white light (warm, medium, and cool white), illumination position angles, position angles, and distances. These images are labeled according to the defect condition in the apple. This data set consists of 1296 images. Five approaches were proposed using these scenarios in this study.
In the first approach, PDA-1 data set physiological disorders images were classified by end-to-end training of CNN models. This approach obtained in the best classification performance in the Xception model. Average accuracy, precision, recall, F1-score, and AUC values of the Xception model were 0.996, 0.994, 0.998, 0.996, and 1.000, respectively.
The second approach evaluated hybrid methods that classify physiological disorders with machine learning methods using pre-trained CNN models. This approach has been applied to the PDA-1 and PDA-32 data sets. In both data sets, the highest average classification accuracy was found in VGG19(fc6) and support vector machines (SVM) models with a rate of 0.961. Here, 4096-dimensional deep features were used. In addition, a hybrid study was applied by feature selection in this approach. According to feature selection, the highest classification accuracy of 0.948 was obtained using VGG19(fc6) and SVM model in the 512-dimensional deep features.
Another approach focused on the effect of classification performance of images produced by color balancing models (sharpness, gamma correction, and Contrast Limited Adaptive Histogram Equalization) to solve the problems caused by light variation. These data sets were separated according to the light colors in this approach, and the transfer learning approach was used. The highest classification accuracy was obtained in the Xception model with a ratio of 0.934 in the cold white light color, and gamma correction data set type. In addition, it was determined that the data sets created with color balancing improved in Peak Signal-to-Noise Ratio (PSNR) metric.
Another approach estimated the illumination of images obtained in different light colors with CNN models. The transfer learning approach was adopted in the study. In addition, statistical and learning-based methods and proposed CNN models were compared. The best angular error (AE) values were obtained in the proposed GoogLeNet model. This model's AE values: the mean was 2.220, the median was 2.126, the trimean was 2.006, and the maximum was 6.596 degrees. The mean absolute percent error (MAPE) of the proposed GoogLeNet model was found to be 14.732%, and it can be said that the illumination estimation of this model is good. In addition, the number of images with AEs below 3˚ constituted 77.13% of all images. In addition, this model determined that the sample images were improved according to PSNR and Blind/No Reference Image Spatial Quality Evaluator metrics.
Finally, image-based luminance estimation was made with the help of CNN models using images containing different color temperatures and lighting source position angles. This approach obtained the best luminance estimation in the GoogLeNet model. According to color temperatures, the lowest Root Mean Square Error (RMSE) value was 5.023 cd/m2 in cold white light type. According to the MAPE value, it was determined that the prediction of the GoogLeNet model was good in this light type. The lowest RMSE value was calculated as 5.106 cd/m2 at 60 degrees, according to the lighting source position angle. Here the MAPE value was the lowest percentage.
Since the images in the resulting data sets vary according to the light colors and lighting locations, the defect information obtained from the apples are also quite different. According to the experimental results, the classification application's performance decreased with the addition of noise and brightness values to the images. |