Tez No İndirme Tez Künye Durumu
441756
Gene function inference from expression using probabilistic topic models / Olasılıksal tema modelleri kullanarak gen ifadesinden işlev çıkarımı
Yazar:BAHAR TERCAN
Danışman: YRD. DOÇ. DR. AYBAR CAN ACAR
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Tıp Bilişimi Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology ; Biyoistatistik = Biostatistics
Dizin:
Onaylandı
Doktora
İngilizce
2016
97 s.
Bu çalışmanın temel amacı, "İfade verisi kullanarak bir örneğin (doku/durum vb.) biyolojik bağlamını belirleyebilir miyiz ve bu bağlamları Gene Ontology, KEGG, HUGEgibi yorumlama veritabanları ile ilişkilendirebilir miyiz?" sorusuna cevap bulmamıza yardımcı olabilecek olasılıksal bir ikili kümeleme yaklaşımı geliştirmektir. Başlangıçta dökümanlarda bulunan bilinmeyen sayıdaki gizli temaları çıkartmak için geliştirilen ve metin madenciliği metodu olan olasılıksal tema modeli Hiyerarşik Dirichlet Süreci (HDP)'ni gen ifadesi veri analizine uyguladık. Bu çalışmada analoji mRNA transkriptten kelimeye, biyolojik bağlamdan temaya, örnekten dökümanadır. Bu tez çalışması, tema modellerini farklılaşmış ifade problemine belirli bir ölçüde uygulamayı başarmış çalışmaların üzerine inşa edilmiştir ve tema modellerinin gen ifadesi analizinde kullanılması için HDP'yi öncül bilgi ile güçlendirerek kapsamlı ve bütüncül bir metot geliştirilmiştir. Önerilen iyileştirmenin temel alanları, gen ifade verisinin tema modelleri için ön işlemesinin yapılması ve Hiyerarşik Dirichlet Sürecine bilgilendirilmiş öncüllerin eklenmesidir. Sonuçlar, öncül iyileştirilmiş HDP'nin gen ekspresyon verisi içindeki gizli ikili kümeleri seyreklik seviyesi (örnek sayısı) ve öncül gücündeki (η) değişikliklerden etkilenmeden başarılı bir şekilde ortaya çıkardığını göstermiştir.
The main aim of this study is to develop a probabilistic biclustering approach which can help to elaborate on the question "Can we determine the biological context of a sample (tissue/condition etc.) using expression data and associate the contexts with annotation databases like Gene Ontology, KEGG and HUGE to discover annotations (like cell division, metabolic process, illness etc.) for these contexts?". We applied a nonparametric probabilistic topic model, Hierarchical Dirichlet Process (HDP), which was originally developed for text mining to extract unknown number of latent topics from documents, to gene expression data analysis. In this study, the analogy is the mRNA transcript to the word, the biological context to the topic and the sample to the document. This study builds on previous studies that have, to varying extents, been able to apply topic models to the problem of differential expression, and improves on the current state of the art by producing a comprehensive and integrative method to enhance HDP with prior information. The main areas of proposed improvement are the preprocessing of gene expression data for topic models and the introduction of informed priors to the HDP model. The results of experiments showed that prior improved HDP successfully reveals the hidden biclusters in gene expression data with higher robustness to changes in sparsity levels (number of samples) and prior strengths (η).