Gen Ağı Çıkarımı (GAÇ) yöntemleri, biyoenformatik alanında önemli bir yere sahiptir. Hücrelerdeki moleküllerin birbirleri ile olan ilişkilerini incelememize olanak sağlayan GAÇ uygulamalarının kullanım alanları oldukça yaygındır. Örneğin; gen ikilileri veya protein gibi gen ürünü ikilileri arasındaki genom-genişliğindeki ilişkileri tespit etmek, ilaç üretiminde ana bileşeni seçmek, düzenleyen (regulator) ve düzenlenen genlerin etkileşimlerini gözlemlemek, vb çalışmalarda kullanılırlar.
GAÇ ya da gen ağı ters mühendisliği, gen ifade değerlerinden yola çıkılarak genlerin ilişkilerini tahmin etmek olarak düşünülebilir. Gen ifade değerlerini içeren biyolojik veri kümelerinin çok-boyutlu olması ve deneysel süreçlerden veya hesaplama işlemlerinden kaynaklanan gürültüler içermesi gibi sebeplerden Gen Ağı Çıkarımı (GAÇ) işlemi oldukça güçleşir. GAÇ algortimalarının en önemli aşaması, veri kümesindeki değişkenler arasındaki ilişki skorlarının kestirimidir. Bu aşama doğru bir şekilde gerçekleştirilemez ise, hangi GAÇ algoritması kullanılırsa kullanılsın, Gen Ağı Çıkarımı sonucu hatalı olur. Dolayısıyla, korelasyon ya da ilişki kestirimi aşaması, GAÇ algoritmalarının en önemli adımıdır. Ancak hâlihazırda mevcut GAÇ algoritmaları ile kullanılmasının uygun olacağı düşünülen, ortak kabul görmüş tek bir kestirimci yoktur.
Bu çalışmada GAÇ algoritmalarında kullanılması olası olan birçok farklı kestirimci incelenmiştir. Ayrıca kestirimciler çeşitli açılardan sınıflandırılarak bu alanda çalışan araştırmacıların bilgisine sunulmuştur. Kestirimcilerin arasından, farklı GAÇ algoritmalarında kullanılmasının en uygun olacağı ve en iyi performansı vereceği düşünülen yöntemler belirlenmiştir. Yüksek performans sergileyeceği düşünülen kestirimciler, çeşitli GAÇ algoritmaları kullanılarak karşılaştırılmış ve değerlendirme sonuçları verilmiştir. Bunlara ilaveten bu çalışmada, ilişki kestirimcileri arasında belli parametrelere bağımlı olan yöntemlerin parametre seçimi incelenmiş, çeşitli öneriler sunulmuştur. Bu bağlamda literatürde bulunan ilişki-tabanlı, entropi-tabanlı ve doğrudan karşılıklı bilgi tabanlı 27 farklı kestirimci incelenmiş, aralarından en iyi performansı vereceği düşünülen 12 tanesi ve türevleri uygulanmak üzere seçilmiştir. Kestirimciler karşılaştırılırken daha sağlıklı değerlendirme yapabilmek amacıyla bir değil, üç farklı GAÇ algoritması kullanılmıştır. Bu algoritmalar Accurate Cellular Networks (ARACNE), Relevance Networks (RelNet) ve Conservative Causal Core Network (C3NET)'tir. Ayrıca, çalışmanın sonucunda kestirimcilerin gerçeklenmesini içeren bir R yazılım paketi hazırlanmıştır. Sonuç olarak bu çalışmanın, GAÇ algoritmaları ile çalışan araştırmacılar için kestirimcilerin hangi sınıfa dahil olduğunu ve hangi kestirimcinin hangi parametreler ile kullanılması gerektiğini söyleyen rehber niteliğinde bir çalışma olması hedeflenmiştir.
|
Gene network inference (GNI) algorithms have a significant role in bioinformatics research area. Those algorithms provide us to explore the vast amount of the interactions among the molecules in the cell. Application areas of GNI algorithms are very wide; such as discovering a genome-wide interactions and associations among the genes and gene-products (e.g. proteins); determining the main target of a drug in pharmacological studies; observing the interaction of the regulator and regulated genes, and so on.
GNI or in other words reverse engineering of gene networks is the process of predicting the interactions of the genes by using microarray gene expression values. GNI process is a challenging process because of the current very large-scale biological datasets and the noise caused by the experimental and computational processes. In almost all GNI algorithms the main process is to estimate the association scores among the variables of the dataset. If this step is not correctly fulfilled then the ultimate inference process becomes erroneous for whichever the GNI algorithm is used. Therefore, this is the most crucial process of any GNI algorithms. Nonetheless, there is no commonly accepted estimator to compute association scores that is used with the current GNI algorithms.
In this study, we investigate almost all of the available estimators that might be used in the GNI algorithms. Estimators are classified according to different point of views and presented to the researchers by this study. Among the reviewed estimators, we determine the most suitable and the best performing estimators for various GNI algorithms. We achieved this by comparing the inference performance of the estimators over different GNI algorithms, which are selected as representatives of many others. For that purpose, from the literature, we first reviewed correlation-based estimators and then entropy-based and finally direct MI estimator approaches to estimate Mutual Information; in the context whether they are used in genomics datasets or not. So far we reviewed 27 different estimators and identified 12 of the promising methods and their derivatives for effective usage in GNI. We expect this study to assist many researchers before using those estimators in their own GNI studies. We compared the estimators on three popular GNI algorithms; those are called Accurate Cellular Networks (ARACNE), Relevance Networks (RelNet) and Conservative Causal Core Network (C3NET). At the end of the study, we prepared an R software package which includes the determined estimators. Since we provide the most prominent estimators out of the study, any of the algorithm that wants to use our proposed estimators, needs to reassess the inference performance before replacing their estimators. Ultimately, this study aimed to be a reference guide for the usage of the estimators in GNI algorithms. |