Tez No İndirme Tez Künye Durumu
651761
Retinoblastom hastalığında yeni nesil dizileme veri analizi ile bir ardışık düzenin geliştirilmesi / Development of a pipeline with next-generation sequencing data analysis on retinoblastoma disease
Yazar:GÜLİSTAN ÖZDEMİR ÖZDOĞAN
Danışman: DR. ÖĞR. ÜYESİ HİLAL KAYA
Yer Bilgisi: Ankara Yıldırım Beyazıt Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
107 s.
Yeni nesil dizileme (YND), genomik araştırmalarda devrim yaratan büyük ölçüde paralel deoksiribonükleik asit (DNA) dizilemeye dayalı bir teknolojidir. YND verisi oluşturmanın maliyeti, bu teknolojinin ortaya çıktığı zamandaki ile karşılaştırıldığında azalmış olsa da, çalışılan veriye göre yine de bir problem oluşturabilir. Bu maliyet sorununun üstesinden gelebilmek için havuz dizileme ve düşük kapsamalı dizileme verileri gibi yeni stratejiler geliştirilmiştir. Düşen maliyete rağmen, bu stratejilerin YND çalışmalarında etkili olup olmadıklarını değerlendirebilmek önemlidir. Bu tez kapsamında, tümör verilerinden elde edilen havuz dizileme ve düşük kapsama ile dizilenmiş retinoblastom verisi için bir ardışık düzen geliştirilmiştir. Retinoblastom, çocukluk çağında RB1 mutasyonu veya MYCN amplifikasyonu ile başlayan ve göz (ler) in görme kaybına ve hatta bazen ölüme yol açabilen bir göz kanseridir. Geliştirilen ardışık düzenin etkinliğini değerlendirebilmek için, hem bu özellikteki hastalık verisi hem de mümkün olabildiğince benzer özellikteki diğer veriler üzerinde standart bir ardışık düzenle birlikte çalışılarak sonuçlar karşılaştırılmıştır. Geliştirilen ardışık düzenin, daha fazla sayıda varyant çağırabildiği ve daha yüksek duyarlılık ve F-skor değerleri elde ettiği gözlemlenmiştir. Ek olarak, retinoblastom verisinde varyantlar, hastalık ile ilişkili genlerde çağrılan varyantlar ve varyant türleri ile ilgili sonuçlar sunulmuştur. Geliştirilen ardışık düzenin etkinliğini daha net değerlendirebilmek adına, daha yüksek mutasyon oranlarına ve daha büyük havuzlara sahip kanser verilerinin kullanılması önerilmektedir. Öte yandan, YND veri analizinde hizalama adımı hem zamana gereksinim duyan hem de bu adımın temel karakteristiği sebebiyle GPU'ya uyumlu olduğundan, CPU'da çalışan hizalama algoritmalarının bazılarının GPU'da çalışabilen versiyonları geliştirilmiştir. Geliştirilen ardışık düzen kapsamında kullanılan hizalama algoritması olan BWA ve GPU için CUDA ortamında geliştirilen versiyonu olan BarraCUDA farklı veri setleri üzerinde incelenerek, performansları değerlendirilmiştir. Buna göre, BarraCUDA'nın tek GPU üzerinde bile ciddi anlamda çalışma süresini azalttığı ve çalışılan tüm verilerde belirtildiği gibi BWA ile benzer hizalama oranına sahip olduğu gözlemlenmiştir. GPU'nun katkısının tam olarak anlaşılabilmesi için, BarraCUDA'nın okuma sayısı fazla olan veriler üzerindeki yaklaşımı ve birden fazla GPU kullanımının etkisi incelenmelidir.
Next-generation sequencing (NGS), revolutionized genomic researches, is related to massively parallel deoxyribonucleic acid (DNA) sequencing technology. Although the cost of generating NGS data was decreased compared to initally emerging stages of this technology, its cost might still be somewhat a problem according to studied data. New strategies such as pool-seq and low-coverage data have been developed to overcome this cost problem. Despite decreasing cost, it is important to elucidate whether they are efficient in NGS studies. Within the scope of this thesis, a pipeline has been developed for pool-seq and low-coverage sequencing data obtained from tumors on retinoblastoma. Retinoblastoma is an eye malignancy in childhood that is initiated by RB1 mutation or MYCN amplification and can cause to the loss of vision of eye(s), and even sometimes life. In order to evaluate the effectiveness of the developed pipeline, obtained results on both the disease data with the required features and some other non-disease data exhibiting similar characteristics as much as possible were compared by working in conjuction with a standard counterpart. It has been observed that the developed pipeline is able to call larger number of variants and achieves to higher sensitivity and F-score values. Furthermore, results related to variants, variants called in disease-associated genes and variant types in retinoblastoma data are also presented. In order to evaluate the effectiveness of the developed pipeline more precisely, it is suggested to use cancer data with higher mutation rates and larger pools. Since the alignment step in NGS data analysis is highly time-consuming and also inherently compatible with the GPU, some versions of the alignment algorithms running on the CPU have been developed for GPU executions. BWA which is the alignment algorithm utilized within the developed pipeline and BarraCUDA which is GPU adaptation developed for running under the CUDA environment were examined on different data sets and their performance was evaluated in detail. Accordingly, it has been observed that BarraCUDA significantly reduces the computation time even on a single GPU and has a similar alignment rate to BWA as stated in all the data studied. In order to fully understand degree of the contribution of the GPU, BarraCUDA's performance on data with having a high number of reads and also the effect of using more than one GPU should be examined.