Tez No İndirme Tez Künye Durumu
491144
Organization and processing of personal genetic data for clinical use / Kişisel genetik verilerin klinik kullanım için organizasyonu ve işlenmesi
Yazar:ONUR ÇAKIRGÖZ
Danışman: PROF. DR. SÜLEYMAN SEVİNÇ
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Genetik = Genetics
Dizin:
Onaylandı
Doktora
İngilizce
2017
168 s.
Kişisel genetik veriler klinik uygulamalarda sıklıkla kullanılmaktadır. Dolayısıyla, öncelikli olarak, bu verilerin yapısal bir şekilde depolanması gerekmektedir. Ne yazık ki, çoğu durumda sekanslama cihazlarının üretmiş olduğu ham sekans verileri ayrı dosyalar şeklinde depolanmaktadır. Çok sayıda dosya ve klasörün olduğu bu yapı yönetilebilir ve sorgulanabilir bir yaklaşım değildir. Öte yandan, kişilerin hastalık risklerinin tespit edilmesi, kişiye özgü tedavi yönteminin belirlenmesi, herhangi bir hastalıkla veya davranışla ilişkili olan varyasyonların tespit edilmesi gibi klinik operasyonlar varyasyon bazlı kişisel genetik verilere ihtiyaç duymaktadır. Dolayısıyla, klinisyenler ham sekans verilerinden kişisel genotipleri elde etmektedirler ve bunları çoğunlukla excel tabloları şeklinde saklamaktadırlar. Ne yazık ki, bu yaklaşımın da dezavantajları vardır. Öncelikle, bu tarz bir depolama hatalara oldukça açıktır ve klinisyenlerin iş yükünü önemli ölçüde artırmaktadır. Ayrıca, bu yöntem de sorgulanabilir ve yönetilebilir bir yöntem değildir. Bu çalışmada, varyasyon-bazlı kişisel genetik verilerin organizasyonu için, iki farklı veritabanı geliştirilmiştir. Bu veritabanlarından ilki ilişkisel veritabanıdır, ikincisi ise no-sql veritabanıdır. Her iki veritabanında da 1000 Genom Projesi'nin yayınlamış olduğu 2504 kişiye ait varyasyon verisi depolanmıştır. Bu verileri saklamak için veritabanlarının ihtiyaç duyduğu alanlar hesaplanmış ve bu değerler karşılaştırılmıştır. Ayrıca, klinik uygulamaların sıklıkla kullanacağı bazı sorgular çalıştırılmış ve veritabanlarının cevap dönme süreleri hesaplanmıştır. Bu çalışmada ayrıca üç farklı klinik uygulama için üç yeni yöntem geliştirilmiştir ve bu yöntemler ile veritabanlarının entegrasyonu sağlanmıştır. İlk yöntem kişileri hastalık bazlı sınıflandırmaktadır, herhangi bir kişiye genetik açıdan en benzer kişileri bulmaktadır ve kişilerin hastalık risklerini hesaplamaktadır. İkinci yöntem herhangi bir hastalıkla veya davranışla ilişkili olabilecek varyasyonları dinamik bir şekilde tespit etmektedir. Son yöntem ise, varyasyon-bazlı kişisel genetik verileri kullanarak korunmuş bölgeleri belirlemektedir.
Personal genetic data are frequently used in clinical practice. Therefore, primarily, these data must be stored structurally. Unfortunately, in most cases the raw sequence data produced by the sequencing devices is stored in files. This structure, which houses a large number of files and folders, is not a manageable and inquirable approach. On the other hand, clinical operations such as computing the disease risks of individuals, identification of the person-specific treatment method, determination of the variations that may be associated with any disease or treat, require variation based personal genetic data. Therefore, clinicians obtain personal genotypes from the raw sequence data, and often store them in the form of excel tables. Unfortunately, this approach also has disadvantages. Firstly, this type of storage can lead to errors and it greatly increase the workload of clinicians. Also, this method is not an inquirable and manageable method. In this study, two different databases were developed for the organization of variation-based personal genetic data. The first from these databases is the relational database, and the second is the no-sql database. In both databases, the variation data of 2504 individuals, which were published by 1000 Genomes Projects, were stored. To store this data, the spaces needed by the databases were calculated and compared. In addition, some queries that are frequently used by clinical applications were run and the response times of the databases were calculated. In this study, three new methods for three different clinical applications were also developed and the integration of databases with these methods was provided. The first method classifies individuals as disease-based, finds individuals who are genetically most similar to a person and calculates the disease risks of the individuals. The second method dynamically detects variations that may be associated with any disease or treat. The last method identifies protected regions using variation-based personal genetic data.