Tez No İndirme Tez Künye Durumu
495263
İki katmanlı entegrasyon mimarisiyle hastalığa özel birliktelik ağı çıkarımı / Two tier combinatorial structure to infer disease specific coexpression network
Yazar:MUSTAFA ÖZGÜR CİNGİZ
Danışman: PROF. DR. BANU DİRİ
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyomühendislik = Bioengineering ; Genetik = Genetics
Dizin:Bilgi entegrasyonu = Information integration ; Gen ifadesi = Gene expression ; Makine öğrenmesi yöntemleri = Machine learning methods ; Veri madenciliği = Data mining
Onaylandı
Doktora
Türkçe
2018
111 s.
Hastalıklara neden olan biyolojik mekanizmaların moleküler seviyede keşfi son yıllarda üzerinde önemle durulan bir çalışma alanıdır. İnsan genom projesinin tamamlanması ve DNA dizileme tekniklerindeki ilerlemelerle hastalıklara neden olan süreçler ve bu süreçler altında yatan moleküler ilişkiler daha hızlı ve kolay bir şekilde belirlenmektedir. Gen birliktelik ağları farklı fenotiplere sahip örneklerde benzer örüntüler sergileyen genler arasındaki ilişkilerden oluşan moleküler ilişki ağlarıdır. Benzer örüntü sergileyen genlerin yapılan literatür çalışmalarında benzer biyolojik fonksiyonlara sahip olduğu ve benzer süreçlerde yer aldıkları anlaşılmıştır. Tez kapsamında mikrodizin gen ifadesi, RNA- Seq ve miRNA- hedef gen verileri üzerinde farklı gen ağı çıkarım algoritmaları kullanılarak gen birliktelik ağları elde edilmiştir. Literatürde farklı biyolojik veri kümeleri ve gen ağı çıkarım algoritmalarını aynı yapı içerisinde kullanarak hastalıklarla ilişkilendirilmiş kapsamlı ve doğruluklu gen birliktelik ağı çıkarımı gerçekleştiren çalışma sayısı kısıtlıdır. Tez kapsamında temel hedefimiz farklı gen ağı çıkarım algoritmaları ve biyolojik veri kümelerini birlikte kullanarak göğüs ve prostat kanseriyle ilgili yüksek doğruluklu ve kapsamlı gen birliktelik ağları oluşturmaktır. Bu hedefle kesişim, basit çoğunluk oyu ve birleşim gibi temel entegrasyon yöntemleriyle iki katmanlı bir yapı oluşturularak gen birliktelik ağlarının entegrasyonunu gerçekleştirilmiştir. İki katmanlı entegrasyon mimarisi ile aynı veri kümesi üzerinde farklı gen ağı çıkarım algoritmalarından elde edilen gen birliktelik ağlarının entegrasyonu birinci entegrasyon aşamasında, farklı biyolojik veri kümeleri kullanılarak elde edilen gen birliktelik ağlarının entegrasyonu ise ikinci entegrasyon aşamasında gerçeklenmiştir. Elde edilen gen birliktelik ağlarının performansı biyolojik ve topolojik özelliklerine göre değerlendirilmiştir. Bu iki değerlendirme kriterine ek olarak literatür verileri ile örtüşme analizi yapılmıştır. Sonuç olarak, sadece gen ağı çıkarım algoritmaları kullanılarak yapılan gen birliktelik ağı entegrasyonunun performans arttırımına etkisi kısıtlı iken, farklı biyolojik veri kümelerinden elde edilen gen birliktelik ağlarının entegrasyonunun performans artışı sağladığı gözlemlenmiştir. Çalışmamızda aynı zamanda daha önce miRNA- hedef gen verileri üzerinde gen birliktelik ağı çıkarımında hiç kullanılmamış hash tabanlı birliktelik kuralı algoritmasını uygulayarak ilgili veri kümelerinden teorik olarak 152 hastalıkla ilişkili GBA'lar elde edilmiş ve bu algoritma ARNetMiT R paketi halinde kullanıcılara sunulmuştur.
Discovering of biological mechanisms, which causes diseases at the molecular level, has been an important field of study in recent years. After the completion of the human genome project and the progress of DNA sequencing techniques, the relationships of molecules, which are related to cancer related biological processes, are revealed more quickly and easily. Gene coexpression networks are networks of molecular relationships formed by relation between genes which present similar patterns in samples with different phenotypes. Genes, which shows similar patterns on biological datasets, were found to have similar biological functions and involve in similar biological processes according to the studies in literature. In the thesis, gene coexpression networks were obtained by using different gene network inference algorithms on microarray gene expression, RNA-Seq and miRNA-target gene expression data. In the literature, there are limited number of studies that use different biological data sets and gene network inference algorithms in the same structure to construct a comprehensive and accurate gene coexpression networks for diseases. Our main target in thesis is to build up high-precision and comprehensive gene networks for breast and prostate cancer using different gene network inference algorithms and biological data sets together. According to this purpose, integration of gene coexpression networks has been achieved by forming a two-tier structure with basic integration methods such as intersection, simple majority voting and union. Gene expression networks, which are inferred by different gene network inference algorithms on the same data, are integrated in the first integration phase of the two-tier structure. Gene expression networks that are inferred from different biological datasets are integrated in the second integration phase of two- tier structure. The performance of the obtained gene association networks was evaluated according to their biological and topological properties. In addition to these two evaluation criteria, an overlap analysis was performed with the literature data. The usage of different gene network inference algorithms at integration phase slightly increases performance slightly. However, integration of gene coexpression networks that are infered on different biological datasets enhances the performances. We also developed a hash based association rule algorithm that infers potential gene coexpression networks of 152 diseases from miRNA- target gene data. We also present our algorithm as ARNetMiT R package.