Tez No İndirme Tez Künye Durumu
478539
Meta-analysis of microRNA and gene selection using machine learning / Makine öğrenmesi kullanarak microRNA meta-analizi ve gen seçimi
Yazar:ELNAZ PASHAEI
Danışman: PROF. DR. NİZAMETTİN AYDIN
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2017
123 s.
DNA mikrodizi teknolojisi doku örneklerinde çok sayıda genin ifade düzeyini aynı anda izlemeyi ve ölçmeyi mümkün kılar. Mikrodizi veri setlerinde örnek sayısı gen sayısından çok daha azdır. Bu tür verilerin sınıflandırılması bilinen "boyutsallık belası (curse of dimentionality)" ve veri aşırı uyumluluk problemiyle sonuçlanır. Başarılı bir hastalık teşhisi için, sınıflandırma ile alakalı az sayıda ayrımcı gen seçmek gerekir. Mikrodizi veri analizinde gen seçimi sadece sınıflandırma doğruluğunu arttırmakla kalmaz, aynı zamanda klinik ortamda işleme süresini azaltır. Bu nedenle, başarılı bir hastalık teşhis sistemi geliştirmek için genlerin minimum bir alt kümesini belirlemek oldukça önemlidir. Bu tezde, melez doğadan esinlenmiş optimizasyon algoritmaların ve farklı sınıflayıcılara dayanan kanser sınıflandırmasında yüksek derecede ayırıcı gen seçimi için iki yaklaşım önerilmiştir. İlk önerilen yaklaşımda Kara Delik Algoritması, ilk defa bir özellik seçimi (FS) problemini çözmek için kullanılmaktadır. Hiperbolik teğet fonksiyonunu uygulayarak, metin, görüntü ve biyomedikal verilerin FS'sini çözmek için BHA'nın BBHA adlı yeni bir iki tabanlı biçimi kullanılır. İki sınıflayıcı (RF ve NB) önerilen algoritmamızın değerlendiricileri olarak görev yapmaktadır. Deneysel sonuçlar BBHA sarmalayıcı (wrapper) temelli özellik seçim yönteminin tüm kriterler açısından BPSO, GA, SA ve CFS'den üstün olduğunu göstermektedir. BBHA, CPU Zamanı, modeli yapılandırma parametrelerinin sayısı ve seçilen en iyileştirilmiş özelliklerin sayısı açısından BPSO ve GA'ya göre önemli ölçüde daha iyi bir performans sunar. Ayrıca, BBHA, literatürdeki diğer yöntemlere kıyasla rekabetçi veya daha iyi bir performansa sahiptir. Önerilen ikinci yaklaşımda, İkili Parçacık Sürüsü Optimizasyonunun (BPSO) performansını iyileştiriyoruz ve BPSO için yerel iyileştirici olarak BBHA uygulayarak yerel bir optimumda sıkışmayı önlemeye yardımcı oluyoruz. Dört klinik veri kümesindeki deneysel sonuçlar ve istatistiksel analiz, önerilen yöntemin, ateş böceği, karınca koloni, yarasa arama, genetik algoritma, armoni araştırması, hızlı korelasyon tabanlı süzgeç ve korelasyon tabanlı özellik alt küme seçimi gibi yaklaşımlara göre önemli derecede daha iyi sınıflandırma performansı elde ederken çok küçük bilgi grubu genleri ürettiğini göstermektedir. Dahası, BPSO için yerel iyileştirici olarak BBHA'nın uygulanmasının BPSO'nun performansını belirgin bir şekilde artırabileceği ve yerel optimumda sıkışmayı önlemesine yardımcı olacağı da gösterildi. Prostat kanseri reküransında çeşitli miRNA ifade veri setleri yapılmıştır. Bununla birlikte, sonuçlar farklı çalışmalar arasında çeşitlilik göstermektedir. Bireysel çalışmaları entegre ederek istatistiksel güç artar ve daha güvenilir sonuçlar ve yeni biyolojik bilgiler elde edilebilir. Bu tezde, radikal prostatektomiden sonra prostat kanseri reküransı için altı mevcut miRNA ifade veri seti üzerinde bir meta-analiz yaptık ve potansiyel olarak farklı olarak eksprese edilen mikroRNA genlerinin önemli bir listesini tespit ettik. Tanımlanmış mikroRNA genlerinin katıldığı moleküler yolakları tanımlamak ve nükseden prostat kanseri üzerinde ilaç tedavileri için yeni yönergeler ortaya çıkarmak için gen ontolojisi zenginleştirmesi, KEGG analizi ve ortak yolakanalizi yaptık. Önemli bir tümör baskılayıcı mikroRNA olan MiR-145, birçok kanser çeşidinde downregüle edildiğini ve tümörün başlatılması, progresyonu, metastazı, invazyonu, reküransı ve kemoradyolojik direncinde önemli rollere sahip olduğunu göstermiştir. Sekiz GEO veri kümesinin meta-analizi ile bu tezde, ortak hedef genlerle bağlantılı olarak tümör patogenezinin altında yatan moleküler yolaklarının anlaşılmasına yardımcı olmak için, miR-145'in potansiyel ortak hedef genlerini araştırdık.
The DNA microarray technology allows for monitoring and measuring the expression level of a great number of genes in tissue samples simultaneously. In microarray datasets, the number of samples is much smaller than the number of genes. The classification of such data resulting in the known problem of "curse of dimensionality" and data overfitting. For a successful disease diagnosis, it is necessary to select a small number of discriminating genes that are relevant for classification. Gene selection in microarray data analysis not only increases the classification accuracy but also decreases the processing time in the clinical setting. Therefore, it is quite important to determine a minimum subset of genes to develop a successful disease diagnostic system. In this thesis, two approaches for selecting highly discriminating genes in cancer classification based on a hybrid of nature-inspired optimization algorithms and different classifiers are proposed. In the first proposed approach, Black Hole Algorithm is, for the first time, being used to solve a feature selection (FS) problem. By applying the hyperbolic tangent function, a new binary version of BHA called BBHA is utilized to solve FS in the text, image, and biomedical data. Two classifiers (RF and NB) serve as the evaluators of our proposed algorithm. Experimental results show that BBHA wrapper-based feature selection method is superior to BPSO, GA, SA, and CFS in terms of all criteria. BBHA gives a significantly better performance than the BPSO and GA in terms of CPU Time, the number of parameters for configuring the model, and the number of chosen optimized features. Also, BBHA has competitive or better performance than the other methods in the literature. In the second proposed approach, we improve the performance of Binary Particle Swarm Optimization (BPSO) and help it to avoid being trapped in a local optimum by applying BBHA as the local optimizer for BPSO. Experimental results and statistical analysis on four clinical datasets demonstrate that the proposed method yields very small subsets of informative genes, while achieving significantly better classification performance than other approaches such as Firefly, ant colony, bat search, genetic algorithm, harmony search, Fast Correlation-Based Filter (FCBF), and Correlation-based Feature Subset Selection (CFS). Moreover, It was also shown that applying BBHA as the local optimizer for BPSO can significantly improve the performance of BPSO and help it to avoid being trapped in a local optimum. Several studies on miRNA expression datasets have been conducted in prostate cancer recurrence. However, the results have varied among different studies. By integrating the individual studies the statistical power is increased and more reliable conclusions and new biological insights can be drawn. In this thesis, we conducted a meta-analysis on six available miRNA expression datasets for prostate cancer recurrence after radical prostatectomy and identified a potentially significant list of differentially expressed microRNA genes. We did gene ontology enrichment, KEGG analysis, and common pathway analysis to identify the molecular pathways in which the identified microRNA genes participate and reveal new directions for drug treatments of recurrent prostate cancer. MiR-145, an important tumor suppressor microRNA, has shown to be downregulated in many cancer types and has crucial roles in tumor initiation, progression, metastasis, invasion, recurrence, and chemoradioresistance. In this thesis by meta-analysis of eight GEO datasets, we investigated potential common target genes of miR-145 to help to understand the underlying molecular pathways of tumor pathogenesis in association with those common target genes.