Tez No İndirme Tez Künye Durumu
276625
An integrative approach to structured SNP prioritization and representative snp selection for genome-wide association studies / Genom boyutunda ilişkilendirme çalışmalarında yapılandırılmış SNP önceliklendirmesi ve temsilci snp seçimi için bütünleşik bir yaklaşım
Yazar:GÜRKAN ÜSTÜNKAR
Danışman: PROF. DR. GERHARD WİLHELM WEBER ; YRD. DOÇ. DR. YEŞİM AYDIN SON
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Bilişim Sistemleri Bölümü
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyoistatistik = Biostatistics ; Genetik = Genetics
Dizin:
Onaylandı
Doktora
İngilizce
2011
167 s.
Tek Nükleotit Polymorfizmi (SNP) en yaygın olarak görülen genom çeşitliliği ve kişiler arasındaki genetik farklılıkların ve birçok hastalığın temel nedenidir. Günümüzde milyonlarca SNP genotipinin bir seferde belirlenmesi mikro dizilim ve ileri sekanslama teknolojileri sayesinde mümkündür. Yüksek verimli teknolojilerin kullanıma girmesi ile SNPler gözde biyolojik göstergeler arasına girmiştir. SNPlerin genom boyutunda ilişkilendirme çalışmalarında istatistiksel analiz safhasından sonra gerek SNPlerin önceliklendirilmesinde gerekse temsilci bir SNP kümesinin seçilmesinde mevcut standart bir yöntem olmadığı için bir darboğazla karşılaşılmaktadır. Bu çalışmada, SNPleri biyolojik ve istatistiksel önemlerine göre önceliklendirilmesinde kullanılabilecek java tabanlı bütünleşik bir sistem oluşturulmuştur. SNPlerin objektif olarak önceliklendirilebilmesi için Analitik Hiyerarşi Prosesinden yararlanılmıştır. Ek olarak birleşik p-değeri yöntemine dayanan ve hastalıkla ilgili SNPlerle ilişkili gen ve biyolojik yolakların ikincil analizinde yeni kullanılmaya başlanan bir yöntem de önceliklendirme esnasında kullanılmıştır. Hastalıkla ilişkili bütün SNPler için temsilci bir SNP alt kümesinin seçilmesi daha az kapasiteli bilgisayarlarla ve daha ucuza analiz ve ardıl ilişkilendirme ve biyolojik gösterge bulma işlemlerinin yapılabilmesini sağlar. Bu amaçla temsilci SNP seçimi için Benzetilmiş Tavlama algoritmasına dayalı yenilikçi bir algoritma geliştirilmiştir. Geliştirilen yöntemlerin geçerliliği ve doğruluğu gerçek bir vaka-kontrol çalışmasından alınan verilerle kontrol edilmiş, biyolojik olarak anlamlı sonuçlara ulaşılmıştır. Bu çalışmada geliştirilen bütünleşik masaüstü uygulamasının karmaşık hastalıklarla ilişkili SNPlerin güvenilir bir biçimde belirlenmesinde büyük rolü olacaktır ve ileride hastalıkla ilişkili biyolojik göstergelerin ortaya çıkarılmasını ve kişiselleştirilmiş ve hedefe yönelik ilaçların keşfedilmesini destekleyeceğini öngörmekteyiz.
Single Nucleotide Polymorphisms (SNPs) are the most frequent genomic variations and the main basis for genetic differences among individuals and many diseases. As genotyping millions of SNPs at once is now possible with the microarrays and advanced sequencing technologies, SNPs are becoming more popular as genomic biomarkers. Like other high-throughput research techniques, genome wide association studies (GWAS) of SNPs usually hit a bottleneck after statistical analysis of significantly associated SNPs, as there is no standardized approach to prioritize SNPs or to select representative SNPs that show association with the conditions under study. In this study, a java based integrated system that makes use of major public databases to prioritize SNPs according to their biological relevance and statistical significance has been constructed. The Analytic Hierarchy Process, has been utilized for objective prioritization of SNPs and a new emerging methodology for second-wave analysis of genes and pathways related to disease associated SNPs based on a combined p-value approach is applied into the prioritization scheme. Using the subset of SNPs that is most representative of all SNPs associated with the diseases reduces the required computational power for analysis and decreases cost of following association and biomarker discovery studies. In addition to the proposed prioritization system, we have developed a novel feature selection method based on Simulated Annealing (SA) for representative SNP selection. The validity and accuracy of developed model has been tested on real life case control data set and produced biologically meaningful results. The integrated desktop application developed in our study will facilitate reliable identification of SNPs that are involved in the etiology of complex diseases, ultimately supporting timely identification of genomic disease biomarkers, and development of personalized medicine approaches and targeted drug discoveries.