Tez No |
İndirme |
Tez Künye |
Durumu |
539244
|
|
Experiment retrieval in genomic databases / Genomik veri tabanlarında deney geri getirimi
Yazar:DUYGU DEDE ŞENER
Danışman: PROF. DR. HASAN OĞUL
Yer Bilgisi: Başkent Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
|
Onaylandı
Doktora
İngilizce
2019
95 s.
|
|
Genomik veri; deneysel ölçüm, sekans verileri, ağ yapıları gibi farklı formatlarda saklanmaktadır. Genomik veri tabanlarında saklanan bu tür verilerin son yıllardaki hızlı artışı, deneylerin geri getirimi konusundaki ihtiyaçları gündeme getirmektedir. Kullanıcılar, veri tabanında bir deneyi ararken genellikle metin-tabanlı arama tekniğini kullanmaktadırlar. Fakat bu teknik, deney içeriğini temsil etmede yetersiz kaldığı için yeni yöntemlere ihtiyaç duyulmaktadır. Bu ihtiyaç doğrultusunda, içerik tabanlı arama yöntemleri benzer deneylerin geri getiriminde kullanılan alternatif yöntem olmuştur. Bu tez, farklı türlerde olan genomik verilerin veritabanlarında aranabilmesini sağlayan geri getirim modellerinin tasarımını amaçlayan bir çalışmadır. Çalışma, zaman serisi deney geri getirimi, bütün metagenom sekanslama örneklemlerinin geri getirimi olmak üzere iki temel kısımdan oluşmaktadır. Birinci kısım, zaman serisi deneylerin geri getirimi için farklı imza yöntemlerinin ve uygun benzerlik metriklerinin uygulanmasını içermektedir. Bu çalışma zaman serisi deneyinin tümünü sorgu olarak alan ve arama yapan ilk çalışma olma özelliğini taşımaktadır. İkinci kısımda ise, tüm metagenom sekanslama deneylerinin geri getirimi için farklı imza yöntemlerini, özellik seçim algoritmalarını ve benzerlik metriklerini içeren bir içerik tabanlı arama altyapısı geliştirilmiştir. Çalışmanın temel katkısı, deney imzalarını oluşturmada iki farklı veri madenciliği yönteminin kullanılmasıdır. Deneysel sonuçlar, geliştirilen modellerin benzer deneyleri bulmada başarılı olduklarını göstermektedir. Ayrıca, sonuçlar geliştirilen bu modellerin mevcut veri tabanı uygulamalarında kullanımları konusunda umut vaat etmektedir.
ANAHTAR KELİMELER: Genomik veri tabanı; gen ifade matrisi; zaman serisi veri; içerik tabanlı arama; bilgi geri getirimi; imza çıkarımı; arabidopsis; metagenom dizilim.
|
|
Genomic data can be found in different formats such as experimental measurements, sequences, networks. Due to the rapid growth of such data in genomic repositories, retrieving relevant experiments has become an important issue to be addressed by researchers. To search an experiment through the databases, users generally use textual meta-data such as organism name, description, author, but this type of search is insufficient to represent the overall content of the experiment. Content-based search strategy has become an alternative solution for retrieving relevant experiments from huge data collections. This thesis study aims to develop retrieval models for different data types to find relevant experiments in genomic databases. The study has two main parts: time-series experiment retrieval framework and whole-metagenome sequencing sample retrieval framework. In the first part, different fingerprinting techniques and comparison metrics were used to retrieve relevant time-series experiments. The originality of this part consists in its attempt for taking gene expression profiles over the entire time points as a query and retrieving relevant samples from the data repository. The second part consists of developing a content-based retrieval framework for whole-metagenome sequencing samples. The framework involves different fingerprinting, feature selection methods and similarity measurements for a given data set. The main contribution of the study is extracting fingerprints based on two text mining methods. The experimental results showed that the proposed models have been successful in finding relevant experiments for genomic data in different formats. Experimental results also encourage the use of the proposed models in current database implementations.
KEYWORDS: Genomic database; gene expression database; time-series; content based search; information retrieval; fingerprinting; Arabidopsis; whole-metagenome sequencing. |