Tez No İndirme Tez Künye Durumu
507343
Gen ağı çıkarımı için proteomik ve gen ifade verilerinin entegrasyonunda ilişki tahmincilerin etkisi / The association estimators' effect on the integration of proteomic and gene expression data for gene network inference
Yazar:CİHAT ERDOĞAN
Danışman: PROF. DR. BANU DİRİ
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyoistatistik = Biostatistics
Dizin:Biyoinformatik = Bioinformatics
Onaylandı
Doktora
Türkçe
2018
129 s.
Bu tez çalışmasında gen ağı çıkarım yöntemleri üzerinde önemli etkiye sahip olan ve moleküler etkileşimleri belirlemek için kullanılan ilişki tahmincilerinin, farklı biyolojik veri türlerinin entegrasyonu üzerindeki etkisi incelenmiştir. Tezde incelenen tüm kanser türleri için gen ifade ve proteomik verileri The Cancer Proteome Atlas (TCPA) tarafından sağlanmıştır. Öncelikle korelasyon tabanlı ilişki tahmincilerin etkisi, literatürde sıklıkla kullanılan Gen Ağı Çıkarım (GAÇ) yöntemleri kullanılarak, on altı farklı kanser türüne ait proteomik veriler analiz edilerek incelenmiştir. Ardından, Amerikan Kanser Topluluğu verilerine göre yaygın olarak görülen beş farklı kanser türüne ait proteomik verileri kullanılarak, hastalıkla ilişkili gen-gen/protein-protein etkileşim alt ağlarındaki merkez genler/proteinler tespit edilmeye çalışılmıştır. Bu işlem sırasında literatürde sıklıkla kullanılan karşılıklı bilgi (KB) ve korelasyon tabanlı dokuz ilişki kestirimci karşılaştırılmıştır. İlişki tahmincilerinin performansını ölçmek için altın standart olarak, Hastalık-Gen ilişkileri entegrasyon platformu (DisGeNET) ve Moleküler İmzalar Veritabanı (MSigDB) kullanılmıştır. Oluşturulan ortak ifade ağları ile hastalıkla ilişkili yollar karşılaştırılmış ve ilişki tahmincilerinin performansını değerlendirmek için Fisher'ın kesinlik testi kullanılmıştır. Ağırlıklı korelasyon ağ analizinde (WGCNA) düzenleyici ağların tahmini için kullanılan Spearman ve Pearson korelasyon yaklaşımlarına göre, KB tabanlı ilişki tahmincilerinin başarımının daha yüksek olduğu gözlenmiştir. Korelasyon tabanlı yöntemlerde beş kanser türü için en iyi ortalama başarı oranı %60 iken, KB tabanlı yöntemlerde ortalama başarı oranı James-Stein Shrinkage (Shrink) için %71, Schurmann-Grassberger (SG) için %64'tür. Sonrasında gen ifade ve proteomik verilerinden çıkarımlanmış ağların entegrasyonu sağlanmıştır. Son olarak her bir kanser türüne göre merkez genler ve çıkarımlanmış alt ağlar, araştırmacıların ve biyologların incelemesi için sunulmuştur.
In this thesis, the effects of association estimators, which have a significant influence on gene network inference methods and used to determine molecular interactions, on the integration of different biological data types were examined. Gene expression and proteomic data for all cancer types used in this thesis were provided from The Cancer Proteome Atlas (TCPA). Firstly, the effect of the correlation-based association estimators on the analysis of proteomic data from sixteen different cancer types was examined by using Gene Network Inference (GAI) methods that are frequently used in the literature. Furthermore, attempts were made to detect the hub genes/proteins in the gene-gene/protein-protein interaction subnetworks associated with the disease by using proteomic data from five different cancer types, which are commonly seen according to American Cancer Society data. During this process, the mutual information (MI) and correlation based nine association estimators, which are commonly used in the literature, were compared. The disease-gene association integration platform (DisGeNET) and the Molecular Signature Database (MSigDB) were used as the gold standard for measuring the performance of the association estimators. The disease-associated pathways were compared with the as-generated co-expression networks and the Fisher's exact test was used to assess the association estimators' performance. Based on the Spearman and Pearson correlation approaches used for the estimation of regulatory networks in the weighted correlation network analysis (WGCNA), the MI-based association estimators' performance was observed to be higher. The best average success rate for five cancer types is 60% for the correlation-based methods, while for the MI-based methods it is 71% for James-Stein Shrinkage (Shrink), and 64% for Schurmann-Grassberger (SG). Integration of the inferred networks was then conducted by using the gene expression and proteomic data. Finally, for each cancer type, hub genes and inferred subnets are presented for the investigations of researchers and biologists.