Tez No İndirme Tez Künye Durumu
597015
Büyük boyutlu verilerde öznitelik seçimi için ikili yapay arı kolonisi yaklaşımı / Binary artificial bee colony approach for feature selection in large size data
Yazar:ZEYNEP BANU ÖZGER
Danışman: PROF. DR. BANU DİRİ ; DR. ÖĞR. ÜYESİ BÜLENT BOLAT
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Makine öğrenmesi = Machine learning ; Metasezgiseller = Metaheuristics ; Yapay arı kolonisi algoritması = Artificial bee colony algorithm
Onaylandı
Doktora
Türkçe
2019
116 s.
Bilgisayar alanındaki hızlı ilerlemeler neticesinde veri tabanlarında çok fazla öznitelik içeren büyük miktarlarda bilgi depolanmaktadır. Ancak mevcut özniteliklerin hepsi verinin yorumlanabilmesine katkı sağlamayabilir. Bu ilgisiz öznitelikler büyük arama uzayı oluşturduğundan sınıflama/kümeleme başarısını olumsuz etkilemektedir. Bu nedenle benzer veya daha iyi performans elde edebilmek için veriyi doğru temsil eden öznitelik alt gruplarının belirlenmesi önem kazanmaktadır. Yapay Arı Kolonisi (YAK) algoritması doğadan esinlemeli bir sürü zekası optimizasyon algoritmasıdır. Algoritma, bal arılarının doğadaki besin arama davranışlarını modellemektedir. Sürekli uzay problemleri için geliştirilmiş olan algoritma, hızlı ve efektif çözümler sunmaktadır. Ancak ayrık uzay problemlerine uygulamak için modifiye edilmesi gerekmektedir. Tez kapsamında; sınıflandırma ve kümeleme alanlarında büyük boyutlu veriler söz konusu olduğunda genel olarak karşılaşılan işlem maliyeti, hesaplama zamanı ve düşük sınıflandırma/kümeleme başarısı problemlerinin çözümü için YAK tabanlı bir yaklaşım geliştirmek amaçlanmıştır. Öznitelik seçimi, bir optimizasyon algoritması ile çözümlenmek istendiğinde, ikili arama uzayına ihtiyaç duyduğu için tez kapsamında, YAK algoritmasının ikili uzaya taşımak amaçlanmıştır. Bu kapsamda ilk olarak, literatürde mevcut ikili YAK algoritmaları, öznitelik seçimi problemine uygulanmış ve 15 algoritma karşılaştırılarak güçlü ve zayıf yönleri belirlenmiştir. Öznitelik seçimi için efektif olduğu görülen Bitişlem Operatörleri Tabanlı İkili YAK Algoritması (BitABC), altı farklı sınıflandırıcı ile farklı veri kümelerine uygulanarak, sınıflandırıcı performansları karşılaştırılmıştır. BitABC algoritmasının efektif ancak lokal arama kapasitesi yetersiz görüldüğünden ilk olarak sürünün en iyi bireyi etrafında yapılmak üzere bir lokal arama fonksiyonu eklenmiştir. Sonuçlar lokal arama fonksiyonunun başarıyı artırdığını göstermektedir. Sonraki adımda algoritmanın sezgiselliğini etkilemeyecek şekilde, lokal arama fonksiyonunun işlevi genişletilerek işçi ve gözcü arı aşamalarına da eklenmiştir. Geliştirilen yöntem çeşitli büyüklüklerde 13 veri kümesinde test edilmiş ve sonuçlar evrimsel algoritmalar ile karşılaştırılmıştır. Gen ekspresyon seviyelerini ölçmek için kullanılan bir teknoloji olan mikrodiziler, binlerce boyuttan oluşan veri kümeleridir ve her bir boyut bir geni temsil etmektedir. Hastalık ile doğrudan ilişkili genlerin tespiti için boyut indirgeme yapılması gerekmektedir. Gen seçimi işlemini YAK algoritması ile efektif bir şekilde çözebilmek için öğrenme stratejisini kendinden uyarlamalı bir yöntem ile belirleyen Olasılıksal İkili Yapay Arı Kolonisi (PrBABC) algoritması geliştirilmiş ve dokuz veri kümesinde performansı test edilmiştir. Evrimsel algoritmalar ile sonuçlar karşılaştırıldığında önerilen yöntemin gen seçiminde başarılı olduğu görülmüştür.
As a result of rapid advances in the computer space, large amounts of information are stored in databases that contain many attributes. However, not all existing attributes may contribute to the interpretation of the data. These unrelated attributes create a large search space, this situation negatively affects the classification / clustering performance. Therefore, in order to achieve similar or better performance, it is important to identify the subset of attributes that represent the data correctly. Artificial Bee Colony algorithm is a nature-inspired, swarm intelligence optimization algorithm. Algorithm models the food search behavior of honey bees in the nature. The algorithm developed for continuous space problems and provides fast and effective solutions. But it has to be modified to apply to discrete space problems. Large-scale data need more computational cost and can cause low classification/clustering performance. Within the scope of the thesis;it is aimed to develop a binary Artificial Bee Colony algorithm that can find related feature subsets. Since the feature selection needs a binary search space, a binary version of the Artificial Bee Colony algorithm is proposed within the scope of the thesis. In this context, firstly, the binary Artificial Bee Colony algorithms available in the literature were applied to the problem of feature selection and 15 algorithms were compared and their strengths and weaknesses were examined. The bitwise operations based binary artificial bee colony algorithm (BitABC), which is seen to be effective for feature selection, is applied to different size datasets with six different classifiers, and their classifier performances are compared. BitABC is an effective algorithm for feature selection but it is seen that its local search capacity is inadequate. Therefore, firstly, a function that make local search around the global best has been added. The results show that the local search function increases sthe performance of the algorithm. In the next step, the scope of the local search was expanded and added to the employed and onlooker bee phases in a way that would not affect the heuristic capability of the algorithm. The developed method was tested in 13 datasets and the results were compared with well-known evolutionary algorithms. According to results, the proposed method could find a better feature subset than the other methods. Microarray is a technology used to measure gene expression levels. They are datasets with thousands of dimensions, and each dimension represents a gene. Dimension reduction is required to identify genes that are directly related to the disease. The probabilistic binary Artificial Bee Colony (PrBABC) algorithm, which determines the learning strategy by a self-adaptive method, has been developed for gene selection problem and its performance is tesed with nine microarray datasets. When comparing the results with evolutionary algorithms, the proposed method could identify related genes effectively.