Genomik çalışmalar, yeni nesil sıralama (YNS) teknolojileri ile elde edilen, genetik
farklılıkları temsil eden, transkripsiyon faktörü veya histon modifikasyonu gibi
genomik lokasyonları belirler. Bu genomik lokasyonların yorumlanması, bilinen genomik
ve epigenomik adlandırılmış lokasyonlarla değerlendirilmesini gerektirir. Bu
tezde, genomik aralıkların fonksiyonel ilgililiklerinin değerlendirilmesi için araçlar
ve teknikler geliştirilmiştir. Bu amaca yönelik olarak öncelikle Genomic Lokasyon
Adlandırma ve Zenginleştirme Aracını (GLANET), kapsamlı bir adlandırma ve zenginleştirme
analiz aracı olarak sunuyoruz. GLANET'in girdisi bir genomik aralık kümesidir.
GLANET bu genomik aralıklarda, (i) genlerin kodlanmayan komşuluklarını
da içeren gen-merkezli bölgelerini (ii) ENCODE'un geniş bir düzenleyici bölge kolleksiyonunu
(iii) yolaklardan elde edilen gen kümelerini içeren zengin bir kütüphane
ile adlandırma ve zenginleştirme analizi yapar. Önemli bir özellik olarak, kullanıcılar
bu kütüphaneyi yeni gen kümeleri ve genomik aralıklarla genişletebilirler. GLANET,
YNS teknolojilerine özgü olan GC içeriği ve/veya eşlenirlik yanlılıklarını hesaba
katabilen yüksek istatistiksel gücü ve iyi kontrol edilen Tip-I hata oranı gösteren
örnekleme-tabanlı zenginleştirme testi uygular. GLANET'in diğer önemli özellikleri
arasında, girdi olarak sadece tek nükleotid farklılıkları (TNF) verildiği zaman, bu
TNF'lerin transkripsiyon faktörleri üzerindeki etkilerinin değerlendirilmesi ve gen
kümelerinin sadece ekson tabanlı değil de; gen kümesindeki genlerin intronlarını ve
proksimal bölgelerini de hesaba katarak düzenleyici tabanlı zenginleştirme analizi yapabilmesi
de yer alır. GLANET ayrıca TF bağlama alanları ve KEGG yolakları için
ortak zenginleştirme analizine izin verir. Bu opsiyon sayesinde, kullanıcılar girdi kümesinin
hem TF bağlanma alanları hem de KEGG yolağındaki genler ile aynı anda
zenginleşip zenginleşmediğini değerlendirebilirler. Bu ortak zenginleştirme analizi,
girdi aralıkların detaylı fonksiyonel yorumlanmasına olanak sağlar. Bu tezde, ikinci
bir katkı olarak, zenginleştirme prosedürlerinin güç ve Tip-I hatasını değerlendirmek
için yeni veri-tabanlı hesaplamalı deneyler tasarladık. Veri-tabanlı hesaplamalı deneyler,
GLANET'in diğer araçlar ile ayrıntılı nicel karşılaştırılmasını da mümkün
kılmaktadır. Bu hesaplamalı deneyler üzerindeki sonuçlarımız GLANET'in özgün
yeteneklerinin yanı sıra sağlamlığını, hızını ve doğruluğunu sergilemektedir. Son olarak,
üçüncü bir katkı olarak, n aralık kümesinde ortak örtüşen aralıkları bulmak için
verimli bir algoritmik çözüm sunmaktayız. Stratejimiz, ilk adım olarak belirlenen her
bir aralık kümesi için bir segment ağacı inşa etmeye dayanır ve bu ağacı belli bir
derinlikte keserek, kesilen segment ağacını indekslenmiş bir segment ağaç ormanına
dönüştürerek devam eder. Gerçek veriler üzerindeki deneyler, bu veri yapısının arama
süresini düşürdüğünü göstermektedir. Bu yeni gösterim, ormandaki her bir segment
ağacı üzerinde paralel hesaplamaları da mümkün kılmaktadır. Ayrıca, bu çözümü, n
aralık kümesinde en az k ortak örtüşen aralık bulma problemini çözmek için de genişlettik.
Bu tezde geliştirilen araçlar ve teknikler, umuyoruz ki; genomik araştırmaları
hızlandıracak, hücrenin moleküler biyolojisini ve hastalıkların altında yatan mekanizmaları
anlamamıza yardımcı olacaktır.
|
Genomic studies identify genomic loci representing genetic variations, transcription
factor occupancy, or histone modification through next generation sequencing (NGS)
technologies. Interpreting these loci requires evaluating them with known genomic
and epigenomic annotations. In this thesis, we develop tools and techniques to assess
the functional relevance of set of genomic intervals. Towards this goal, we first introduce
Genomic Loci ANnotation and Enrichment Tool (GLANET) as a comprehensive
annotation and enrichment analysis tool. Input query to GLANET is a set of genomic
intervals. GLANET annotates and performs enrichment analysis on these loci with
a rich library that includes: (i) gene-centric regions that encompass their non-coding
neighborhood, (ii) a large collection of regulatory regions from ENCODE, and (iii)
gene sets derived from pathways. As a key feature, users can easily extend this library
with new gene sets and genomic intervals. GLANET implements a sampling-based
enrichment test that can account for GC content and/or mappability biases inherent
to NGS technologies, which shows high statistical power and well-controlled Type-I
error rate. Other key features of GLANET include assessment of impact of single
nucleotide variants on transcription factor binding sites when input consists of SNPs
only and not only exon based but also regulation based gene set enrichment analysis
by considering introns and proximal regions of genes in a gene set. GLANET also
allows joint enrichment analysis for TF binding sites and KEGG pathways. With this
option, users can evaluate whether the input set is enriched concurrently with binding
sites of TFs and the genes within a KEGG pathway. This joint enrichment analysis
provides a detailed functional interpretation of the input loci. As a second contribution
we designed novel data-driven computational experiments for assessing the
power and Type-I error of enrichment procedures. The data-driven computational experiments
render detailed quantitative comparisons of GLANET with other tools possible.
Our results on these computational experiments showcase GLANET's unique
capabilities as well as robustness, speed and accuracy. Finally, as a third contribution,
we present an efficient algorithmic solution for finding common overlapping intervals
over n interval sets. Our strategy is based on constructing one segment tree for each
interval set as the first step and proceeds by converting each segment tree to an indexed
segment tree forest by cutting this tree at a certain depth. Experiments on real
data show that this data structure decreases the search time. This novel representation
also enables parallel computations on each segment tree in the forest. We also extend
this solution to solve the problem of finding at least k common overlapping intervals
over n interval sets. The tools and techniques developed herein will hopefully
expedite the genomic research and help improve our understanding of the molecular
biology of the cell and the mechanisms underlying diseases. |