Tez No |
İndirme |
Tez Künye |
Durumu |
594059
|
|
Gen ifade tahmini için veri bütünleştirme / Data integration for predicting gene expression
Yazar:TUNCAY BAYRAK
Danışman: PROF. DR. HASAN OĞUL
Yer Bilgisi: Başkent Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Genetik = Genetics
Dizin:
|
Onaylandı
Doktora
Türkçe
2019
130 s.
|
|
Canlı formunun sürdürülebilirliğinin temelinde protein sentezi yer almaktadır. Protein sentezinde, insan genomundaki kodlayıcı genleri düzenleyen küçük nükleotid dizilerinin (mikro RNA) ve diğer yönetici genlerin (Transkripsiyon Faktör, TF) önemli görevleri vardır. Bu çalışmanın amacı, mikro RNA ve TF'lerin düzenleme bilgisinin protein kodlayıcı genlerin ifade tam değerlerinin kestirim performansına etkisini araştırmaktır. Gen ifade tam değerini tahmin etmek için regresyon tabanlı modelleri içeren sistematik yaklaşımlar ortaya konulmuştur.
Öncelikle, gen ifade ölçümlerinde yaygın olarak karşılaşılan kayıp veri (missing data) problemini çözmek için doğrusal, k-NN ve İlişkisel Vektör Makinesi (RVM) regresyon modelleri uygulanmıştır. Regresyon modelinin eğitiminde genellikle aynı genin farklı deneylere ait ifade değerlerinden oluşan vektörler kullanılmaktadır. Daha sonra, bu ifade vektörlerine aynı deneye ait farklı gen ifade değerlerinin dâhil edilmesinin gen ifade tahminine etkisi araştırılmıştır. Bunun için İki Yönlü İşbirlikçi Filtreleme (Two-way collaborative filtering) yöntemi kullanılarak gen ifade değerlerinden oluşan tek yönlü veri matrisi iki yönlü veri matrisine dönüştürülmüş ve regresyon modeli bu yeni veri matrisi ile oluşturulmuştur. Gen ifade tahmini için ilk defa kullanılan bu yeni öznitelik sunum tekniği ile kestirim performansının artırıldığı görülmüştür. Ayrıca farklı kanser türlerine ait gen ifade verilerinin bütünleştirilmesinin gen ifade tahminine etkisi de araştırılmıştır. Burada, prostat kanserine ait gen ifade değerlerinin tahmin edilmesinde kolon kanseri verisinin model öğrenmede kullanılmasının kestirim performansını artırdığı görülmüştür. Literatürde gen ifade değerleri kullanılarak gen düzenleyici moleküller ile genler arasındaki ilişkinin tespit edilmesine yönelik çok sayıda çalışma bulunmaktadır. Ancak hücrede meydana gelen bu etkileşimler kullanılarak gen ifade tam değerinin tespitine yönelik çalışmalar oldukça kısıtlıdır. Son olarak, farklı veri yapısındaki miRNA-gen ve TF-gen regülasyon bilgileri ile gen ifade değerleri bütünleştirilmiş olup doğrusal ve RVM regresyon modelleri kullanılarak kestirim performansına etkisi araştırılmıştır. Veri bütünleştirme yaklaşımlarında Öklid, Affine Dönüşüm ve Bhattacharya uzaklık ölçütleri kullanılmıştır. Gen ifade matrisleri; Gene Expression Omnibus veritabanından, TF-gen regülasyon bilgisi TRANSFAC veritabanından ve miRNA-gen regülasyon bilgisi ise mirDB, mirTarbase ve mirConnX veri tabanlarından alınmıştır. Kestirim performansının değerlendirilmesinde Spearman benzerlik katsayısı, Pearson benzerlik katsayısı ve Hata Kareleri Ortalamasının Karekökü (RMSE) ölçütleri kullanılmıştır. miRNA-gen regülasyon bilgisinin bütünleştirilmesi ile gen ifade tahmini performansının artırıldığı görülmüştür.
|
|
Protein synthesis is the basis of the sustainability of the living form. Small nucleotide sequences (micro-RNA) and other executive genes (Transcription Factor, TF) that regulate coding genes play an important role in the protein synthesis. The aim of this study was to investigate the effect of regulation information of micro-RNA and TFs on the performance of predicting the exact value of expressions of protein coding genes. In order to predict the exact value of gene expression, systematic approaches that includes regression-based models are introduced.
First, linear, k-NN and Relational Vector Machine (RVM) regression models were applied to solve the common problem of missing data in gene expression measurements. The expression vectors used in the training phase of the regression model are generally composed of the expression values of the same gene that belongs to different experiments. After that, the effect of the inclusion of different gene expression values of the same experiment on these expression vectors was investigated. For this, the one-way data matrix, consisting of gene expression values, was transformed into a two-way data matrix using Two-way Collaborative Filtering method and the regression model was built with this new data matrix. It is observed that this new feature representation technique that is first used in this study for gene expression predicting increases the performance of predicting. In addition, the effect of integrating gene expression values of different cancer types on gene expression predicting is also investigated. Here, it is observed that the use of colon cancer data in model learning to predict the gene expression of prostate cancer increases prediction performance. There are many studies in the literature to determine the relationship between regulating molecules and genes using gene expression values. However, there are very limited studies based on predicting the exact value of gene expression by using these relations in the cell. Finally, miRNA-gene and TF-gene interaction information and gene expression values were integrated and the prediction performance outcomes obtained by using linear and RVM regression models were discussed. Euclidean, Affine Transformation and Bhattacharya distance measures were used in data integration approaches. Gene expression matrices from Gene Expression Omnibus; TF-gene regulation information from TRANSFAC; miRNA-gene regulation information from mirDB, mirTarbase and mirConnX were used. Spearman similarity coefficient, Pearson similarity coefficient and Root Mean Squared Error (RMSE) were used to evaluate the performance of predicting. It is observed that the performance of predicting gene expression is increased by integrating of miRNA-gene regulation information. |