Tez No İndirme Tez Künye Durumu
651645
Biyoinformatik mikro dizi verileri üzerinde gen seçimi ve sınıflandırma için yeni bir sezgisel yaklaşım geliştirilmesi / Developing a new heuristic approach for gene selection and classification on bioinformatic micro arrays
Yazar:MEHMET BİLEN
Danışman: PROF. DR. TUNCAY YİĞİT ; DOÇ. DR. ALİ HAKAN IŞIK
Yer Bilgisi: Süleyman Demirel Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
138 s.
Lösemi, diğer kanser türlerinde olduğu gibi dünya çapında birçok insanın sağlığını tehdit eden ölümcül bir hastalıktır. Lösemi hastalığına ait gen-kanser ve gen-gen ilişkilerinin ortaya çıkarılabilmesi için mikro dizi verileri aynı anda binlerce genin ekspresyon değerini ölçebilmesinden dolayı yaygın olarak kullanılmaktadır. Bununla beraber mikro dizi verilerinin yüksek veri boyutu ve yetersiz örnek sayısı içermesi analiz çalışmalarını zorlaştırmaktadır. Bu çalışmada mikro dizi verilerinde filtreleme, gen seçimi, sınıflandırma ve diğer analizlerin yapılabilmesi için web tabanlı bir arayüz geliştirilmiştir. Ayrıca lösemi verilerinin içerisindeki anlamlı genlerin filtrelenmesi, veri boyutunun indirgenmesi, gen seçimi işlemlerinin gerçekleştirilmesi ve bu veri kümesine ait örneklerin başarılı bir şekilde sınıflandırılabilmesi için yeni bir hibrit gen seçim algoritması tasarlanmıştır. Geliştirilen algoritma filtreleme ve gen seçimi olmak üzere iki adımdan oluşmaktadır. İlk adımda Fisher korelasyon skoru, Willcoxon rütbeler toplamı ve Bilgi kazanımı algoritmalarından oluşan birlik bir gen seçim algoritması tasarlanarak gen filtreleme işlemi gerçekleştirilmektedir. İkinci adımda ise güçlendirilmiş bir genetik algoritma kullanılarak filtrelenmiş genlerin içerisinden en başarılı genler seçilmektedir. Lösemi veri kümesi üzerinde geliştirilen algoritmanın seçmiş olduğu genler ile gerçekleştirilen sınıflandırma işlemleri sonucunda sadece iki gen ile %100 test başarısı elde edilmiştir. Elde edilen performans değerleri literatürdeki çalışmalar ile karşılaştırıldığında geliştirilen algoritmanın %100 LOOCV ve %100 K10 çapraz doğrulama değerine en az sayıda gen seçimi ile ulaşarak daha başarılı olduğu görülmektedir. Geliştirilen algoritmanın seçmiş olduğu genlerin ortaya çıkarmış olduğu biyolojik bulgular incelendiğinde ise Lösemi hastalığının teşhis, tedavi ve ilaç geliştirime aşamalarında kullanılan onkogenleri genleri başarılı bir şekilde belirlediği görülmektedir. Tez kapsamında geliştirilen web tabanlı arayüz ile dünyanın her yerinden araştırmacıların sadece internet bağlantısına sahip bir cihaz ile kullanabileceği, birçok farklı algoritma ve yaklaşımı farklı birleşimler ile kendi verilerine uygulayabileceği Yapay Zeka çalışma ortamı oluşturulmuştur. Ayrıca literatüre başarılı bir Birlik (Ensemble) - Hibrit gen seçim algoritması kazandırılmıştır. Geliştirilen algoritmanın yüksek veri boyutuna ve yetersiz örneğe sahip diğer veri kümeleri üzerinde başarılı sonuçlar vereceği düşünülmektedir.
Leukaemia, as in other cancer types, is a deadly disease that threatens the health of many people worldwide. Micro array data are extensively used due to the fact that it can calculate the expression value of thousands of genes simultaneously in order to reveal the gene-cancer and gene-gene relationships related to Leukaemia. Additionally, the fact that micro array data includes a huge data size and insufficient number of samples makes the analysis studies more difficult. A web-based interface was developed in this study to carry out filtering, gene selection, classification and other analyses on micro array data. Moreover, a new hybrid gene selection algorithm was developed in order to filter significant genes within the leukaemia data, to reduce the data size, to perform gene selection processes, and to successfully classify the samples from this data set. The developed algorithm is made up of two steps; filtering and gene selection. In the first step, gene filtering process is carried out by designing an ensemble gene selection algorithm that is made up of Fisher Correlation Score, Wilcoxon Rank Sum, and Information Gain algorithms. In the second step, most successful genes were chosen among the filtered genes by using a reinforced genetic algorithm. 100% success rate was obtained only from two genes as a result of the classification made through the genes chosen by the developed algorithm from the Leukaemia data set. Upon the comparison of the obtained performance values with the ones from the studies in the literature, it is seen that the developed algorithm is more successful by reaching 100% LOOCV and 100% K10 cross validation value with the least number gene selection. When the biological findings that the genes selected by the developed algorithm are studied, it is seen that it also can successfully identify the oncogenes used in the diagnosis, treatment, and medicine development stages of Leukaemia. Thanks to the web-based interface that was developed within the scope of this thesis, an Artificial Intelligence environment was created where researchers from all over the world can access by a device with internet connection and which can help them practice various algorithms and approaches in different combinations for their data. Furthermore, a new and successful Ensemble-Hybrid gene selection algorithm was brought into the literature. It is thought that the developed algorithm can yield more successful results for other datasets with huge data size and insufficient samples.