Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
474974		Tools and techniques for assessing functional relevance of genomic loci / Genomik lokasyonların fonksiyonel ilgililiklerinin değerlendirilmesi için araçlar ve teknikler Yazar:BURÇAK OTLU SARITAŞ Danışman: PROF. DR. TOLGA CAN ; PROF. DR. SÜNDÜZ KELEŞ Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Dizin:	Onaylandı Doktora İngilizce 2017 178 s.

Genomik çalışmalar, yeni nesil sıralama (YNS) teknolojileri ile elde edilen, genetik farklılıkları temsil eden, transkripsiyon faktörü veya histon modifikasyonu gibi genomik lokasyonları belirler. Bu genomik lokasyonların yorumlanması, bilinen genomik ve epigenomik adlandırılmış lokasyonlarla değerlendirilmesini gerektirir. Bu tezde, genomik aralıkların fonksiyonel ilgililiklerinin değerlendirilmesi için araçlar ve teknikler geliştirilmiştir. Bu amaca yönelik olarak öncelikle Genomic Lokasyon Adlandırma ve Zenginleştirme Aracını (GLANET), kapsamlı bir adlandırma ve zenginleştirme analiz aracı olarak sunuyoruz. GLANET'in girdisi bir genomik aralık kümesidir. GLANET bu genomik aralıklarda, (i) genlerin kodlanmayan komşuluklarını da içeren gen-merkezli bölgelerini (ii) ENCODE'un geniş bir düzenleyici bölge kolleksiyonunu (iii) yolaklardan elde edilen gen kümelerini içeren zengin bir kütüphane ile adlandırma ve zenginleştirme analizi yapar. Önemli bir özellik olarak, kullanıcılar bu kütüphaneyi yeni gen kümeleri ve genomik aralıklarla genişletebilirler. GLANET, YNS teknolojilerine özgü olan GC içeriği ve/veya eşlenirlik yanlılıklarını hesaba katabilen yüksek istatistiksel gücü ve iyi kontrol edilen Tip-I hata oranı gösteren örnekleme-tabanlı zenginleştirme testi uygular. GLANET'in diğer önemli özellikleri arasında, girdi olarak sadece tek nükleotid farklılıkları (TNF) verildiği zaman, bu TNF'lerin transkripsiyon faktörleri üzerindeki etkilerinin değerlendirilmesi ve gen kümelerinin sadece ekson tabanlı değil de; gen kümesindeki genlerin intronlarını ve proksimal bölgelerini de hesaba katarak düzenleyici tabanlı zenginleştirme analizi yapabilmesi de yer alır. GLANET ayrıca TF bağlama alanları ve KEGG yolakları için ortak zenginleştirme analizine izin verir. Bu opsiyon sayesinde, kullanıcılar girdi kümesinin hem TF bağlanma alanları hem de KEGG yolağındaki genler ile aynı anda zenginleşip zenginleşmediğini değerlendirebilirler. Bu ortak zenginleştirme analizi, girdi aralıkların detaylı fonksiyonel yorumlanmasına olanak sağlar. Bu tezde, ikinci bir katkı olarak, zenginleştirme prosedürlerinin güç ve Tip-I hatasını değerlendirmek için yeni veri-tabanlı hesaplamalı deneyler tasarladık. Veri-tabanlı hesaplamalı deneyler, GLANET'in diğer araçlar ile ayrıntılı nicel karşılaştırılmasını da mümkün kılmaktadır. Bu hesaplamalı deneyler üzerindeki sonuçlarımız GLANET'in özgün yeteneklerinin yanı sıra sağlamlığını, hızını ve doğruluğunu sergilemektedir. Son olarak, üçüncü bir katkı olarak, n aralık kümesinde ortak örtüşen aralıkları bulmak için verimli bir algoritmik çözüm sunmaktayız. Stratejimiz, ilk adım olarak belirlenen her bir aralık kümesi için bir segment ağacı inşa etmeye dayanır ve bu ağacı belli bir derinlikte keserek, kesilen segment ağacını indekslenmiş bir segment ağaç ormanına dönüştürerek devam eder. Gerçek veriler üzerindeki deneyler, bu veri yapısının arama süresini düşürdüğünü göstermektedir. Bu yeni gösterim, ormandaki her bir segment ağacı üzerinde paralel hesaplamaları da mümkün kılmaktadır. Ayrıca, bu çözümü, n aralık kümesinde en az k ortak örtüşen aralık bulma problemini çözmek için de genişlettik. Bu tezde geliştirilen araçlar ve teknikler, umuyoruz ki; genomik araştırmaları hızlandıracak, hücrenin moleküler biyolojisini ve hastalıkların altında yatan mekanizmaları anlamamıza yardımcı olacaktır.

Genomic studies identify genomic loci representing genetic variations, transcription factor occupancy, or histone modification through next generation sequencing (NGS) technologies. Interpreting these loci requires evaluating them with known genomic and epigenomic annotations. In this thesis, we develop tools and techniques to assess the functional relevance of set of genomic intervals. Towards this goal, we first introduce Genomic Loci ANnotation and Enrichment Tool (GLANET) as a comprehensive annotation and enrichment analysis tool. Input query to GLANET is a set of genomic intervals. GLANET annotates and performs enrichment analysis on these loci with a rich library that includes: (i) gene-centric regions that encompass their non-coding neighborhood, (ii) a large collection of regulatory regions from ENCODE, and (iii) gene sets derived from pathways. As a key feature, users can easily extend this library with new gene sets and genomic intervals. GLANET implements a sampling-based enrichment test that can account for GC content and/or mappability biases inherent to NGS technologies, which shows high statistical power and well-controlled Type-I error rate. Other key features of GLANET include assessment of impact of single nucleotide variants on transcription factor binding sites when input consists of SNPs only and not only exon based but also regulation based gene set enrichment analysis by considering introns and proximal regions of genes in a gene set. GLANET also allows joint enrichment analysis for TF binding sites and KEGG pathways. With this option, users can evaluate whether the input set is enriched concurrently with binding sites of TFs and the genes within a KEGG pathway. This joint enrichment analysis provides a detailed functional interpretation of the input loci. As a second contribution we designed novel data-driven computational experiments for assessing the power and Type-I error of enrichment procedures. The data-driven computational experiments render detailed quantitative comparisons of GLANET with other tools possible. Our results on these computational experiments showcase GLANET's unique capabilities as well as robustness, speed and accuracy. Finally, as a third contribution, we present an efficient algorithmic solution for finding common overlapping intervals over n interval sets. Our strategy is based on constructing one segment tree for each interval set as the first step and proceeds by converting each segment tree to an indexed segment tree forest by cutting this tree at a certain depth. Experiments on real data show that this data structure decreases the search time. This novel representation also enables parallel computations on each segment tree in the forest. We also extend this solution to solve the problem of finding at least k common overlapping intervals over n interval sets. The tools and techniques developed herein will hopefully expedite the genomic research and help improve our understanding of the molecular biology of the cell and the mechanisms underlying diseases.