Tez No İndirme Tez Künye Durumu
603098
Yapay bağışıklık sistemleri kullanılarak kararlı öznitelik gruplarının seçimi / Stable feature groups selection using artificial immune systems
Yazar:CANAN BATUR ŞAHİN
Danışman: PROF. DR. BANU DİRİ
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
101 s.
Yüksek boyutlu veri uzayında sıklıkla rastlanan problemlerden biri "curse of dimensionality" denilen çok boyutluluk karmaşasıdır. Veri uzayındaki boyutluluğun artarak çok büyük rakamlara ulaşması yalnızca veri seti karmaşıklığına değil aynı zamanda hedef sınıf ile ilişkilendirilen özniteliklerden bilgi taşımayanların da sayısının artmasına yol açmaktadır. Bu durum, öğrenme aşamasında ilgisiz ve/veya gereksiz birçok özelliğinde söz konusu olduğu anlamına gelmektedir. Bu noktada, öznitelik seçiminin önemi ortaya çıkmaktadır. Öznitelik seçimi, en iyi doğruluk tahmini için orjinal öznitelik setinden minimum alt küme seçimi problemidir. Öznitelik seçim algoritmalarının çok büyük bir bölümü, birçok farklı alan uygulamaları için elde edilen sınıflandırıcı doğruluğunun iyileştirilmesi için geliştirilip etkileyiciliğini kanıtlama yoluna gitmişlerdir. Öznitelik seçim algoritmaları tarafından gereksiz özniteliklerin minimize edilmesi ve sınıflandırıcı için seçilen öznitelikler arasındaki ilişkililiğinin maksimize edilmesi sağlanmaya çalışılmaktadır. Öznitelik altküme seçimi, ilgisiz ve/veya gereksiz bilgilerin tanımlanmasını ve ardından kaldırılmasını olabildiğince etkin bir şekilde yerine getirmelidir. "Nitelikli öznitelik altküme" seçimi, sınıflandırıcı ile yüksek ilişkili öznitelikleri ve sınıflandırıcının olmadığı durumda ise birbiri ile gereksiz olmayan öznitelikleri içermelidir. Öznitelik seçimi içerisinde ihmal edilen konu, seçilen öznitelik alt gruplarının kararsızlık probleminin çözüme kavuşmasının sağlanmasıdır. Bu problem bilgi keşfinin yüksek boyutlu veri uzayından elde edilmesi sürecinde önem kazanmaktadır. Bilgi keşfinin amacı, binlerce öznitelik uzayına sahip örneklem alt kümeleri ile sınıfları arasındaki en iyi farkı ifade edebilecek özniteliklerin tanımının yapılabilmesini sağlamaktır. Örneğin, biyoloji alanındaki uygulamalarda (Mikrodizi, kütle spektrometresi), alan uzmanlarının temel amacı, özgün örneklerden hastalık teşhisi veya fenotiplerin tahmini için model yaratmak yerine yüksek çıktılı deneylerden işaretçi genlerin veya proteinlerin saptanmasını sağlamaktır. Birçok öznitelik seçim algoritması, öznitelik alt küme seçiminde elverişli olmasına rağmen, yüksek maliyetli biyolojik deneylerin doğrulanması için güvenilir aday öznitelik tanımlamalarını gerçekleştirme konusunda yetersizdir. Güvenilir aday öznitelik tanımlamaları için, rağbet gören seçeneklerden biri, en iyi sınıflandırıcı doğruluğunu elde ederek biyolojik deneylerin doğrulanmasını sağlamaktır. Bu duruma karşın, aynı verinin farklı öznitelik alt kümeleri sınıflandırıcı doğruluğu sonuçlarında oldukça benzer hatta aynı olabilmektedir. Öznitelik alt kümelerinin çok yüksek rakamlarda olması ve söz konusu öznitelik alt kümeleri arasındaki uyumsuzluk öznitelik seçim algoritmalarının kararsızlığını gün yüzüne çıkarmaktadır. Sonuç olarak, alan uzmanlarının tek bir öznitelik altkümesi ile güvenilir bir araştırma yapmaları pek mümkün değildir. Bu nedenle tez çalışması kapsamında, bağışıklığın kazanımında rol alan hafıza hücreleri kullanılarak, kararlı öznitelik seçimleri için ideal bir alt yapının oluşturulması sağlanmıştır. Yapay Bağışıklık Tanıma Sistemleri içerisinde ilişkisel immün hafıza gelişimini sağlayacak ve bir uzun sekans öğrenimini gerçekleştirecek bir tür içsel yeniden uyarım mekanizması sisteme adapte edilmiştir. Tekrarlayan Sinir Ağları türlerinden Uzun-Kısa-Süreli Hafıza (LSTM) modeli bir tür içsel yeniden uyarım mekanizması olarak kullanılmıştır. Sezgisel olarak, bir LSTM birimi erken aşamada bir sekans girdisinde önemli bir öznitelik tespit ederse, bu bilgiyi kolayca aktarabileceğinden potansiyel uzun aralıklı ilişkiselliği yakalayabilmektedir. Bağışıksal hafızanın uzun süreli muhafaza edilmesi sürecinde seçilen öznitelikler, hafızasal öznitelik grupları olarak adlandırılmıştır. Optimal biyolojik gen sekansları, sağlam ve kararlı hafızasal öznitelik gruplarından elde edilmiştir. Elde edilen sonuçlar, kararlı öznitelik gruplarının alanlarında uzman kişilerin bilgi keşiflerinde yeterli güvenilirliği sağladığını doğrulamıştır.
One of the frequently encountered problems in the high-dimensional data space is the multidimensionality complexity called the "curse of dimensionality." An increase in the dimensionality of the data space to very high numbers leads not only to the data set complexity but also to an increase in the number of features that do not contain information among the features associated with the target class. This means that there are many irrelevant and/or unnecessary features in the learning phase. At this point, the importance of feature selection comes to the forefront. Feature selection is the minimum subset selection from the original attribute set for the best accuracy estimation. The majority of the features selection algorithms have been developed to prove their effectiveness in order to improve the classifier accuracy achieved for many different field applications. It is tried to minimize the unnecessary features through the feature selection algorithms and maximize the relationality between the selected features for the classifier. Feature subset selection should perform as efficiently as possible the identification and then elimination of the irrelevant and/or unnecessary information. The selection of "the qualified feature subset" should contain features that are highly related to the classifier, and where there is no classifier, features that are not unnecessary for each other. The neglected subject in the feature selection is to achieve the solution to the instability problem of the selected feature subgroups. This problem gains importance in the process of obtaining information from the high-dimensional data space. The purpose of information discovery is to make it possible to identify features that can express the best difference between the subsets of samples with thousands of feature spaces and their classes. For example, in applications in the field of biology (microarray, mass spectrometry), the main objective of domain experts is to detect marker genes or proteins from high-throughput experiments rather than creating models for the disease diagnosis or phenotype estimation from specific samples. Although many attribute selection algorithms are convenient for feature subset selection, they are inefficient in performing reliable candidate feature identifications for validation of high-cost biological experiments. For reliable candidate feature identifications, one of the most popular options is to ensure the validation of biological experiments by obtaining the best classifier accuracy. However, the subsets of different features of the same data can be quite similar or even identical in terms of the classifier accuracy results. The high number of feature subsets and the incompatibility between feature subsets reveal the instability of the feature selection algorithms. As a result, it is not possible for domain experts to conduct a reliable study with a single feature subset. For this reason, the main purpose of the thesis study is to create an ideal infrastructure for stable feature selections using memory cells involved in immunity acquisition. A kind of internal restimulation mechanism, which provides relational immune memory development and realizes long sequence learning in the Artificial Immune Recognition Systems, has been adapted to the system. Long Short-Term Memory (LSTM) has been used as a kind of internal restimulation mechanism. Intuitively, if an LSTM unit detects an important attribute in a sequence input in the early stage, it can capture the potential long-term relationality because it can easily transfer this information. The features to be selected during the long-term preservation of the immune memory are called memory feature groups. The memory feature groups in the memory pool contain optimal biological gene sequences. In conclusion, it has been verified that stable feature groups provide sufficient reliability in the information discovery of domain experts.