Tez No İndirme Tez Künye Durumu
645069
Derin öğrenme ağları kullanılarak protein metal bağlanma yerlerinin analizi / Analysis of protein metal-binding sites using deep neural networks
Yazar:İSMAİL HABERAL
Danışman: PROF. DR. HASAN OĞUL
Yer Bilgisi: Başkent Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning
Onaylandı
Doktora
Türkçe
2020
103 s.
Proteinler çevrelerinde bulunan metal iyonlarıyla kuvvetli bağlar oluşturarak katlanırlar ve üç boyutlu yapılarına ulaşırlar. Proteinlerin üç boyutlu yapısı, hücre içerisinde hangi yaşamsal fonksiyonu yerine getirdiğini gösterir. Protein dizilimi kullanılarak proteinlerin metallerle bağlanma durumunu tahmin etmek, proteinin yapısı, fonksiyonlarını tahmin etmek ve ilaç keşfi için önemlidir. Aminoasit dizilimlerinden elde edilen verilerden yola çıkarak ve makine öğrenmesi yöntemleri kullanılarak yapılan hesaplamalı tahminler çeşitli bioinformatik alanlarında yaygın olarak kullanılmaktadır. Bu tez çalışmasında, protein dizilimlerinde bulunan Histidin (HIS) ve Sistein (CYS) aminoasitlerinin metallerle bağlanma durumlarının tahmini için üç farklı derin öğrenme mimarisi önerilmektedir. Bu mimariler TensorFlow üzerinde çalışan Keras kullanılarak geliştirilmiştir. Bu mimariler sırasıyla evrişimsel sinir ağı, uzun-kısa süreli hafıza ve kapılı tekrarlayan hücre modelleri üzerine inşa edilmiştir. Bu modeller doğrudan dizilim verileri üzerinde çalışamadığından, ilgili modelleri beslemek üzere PAM skorlama matrisi, protein kompozisyonları ve ikili temsil yöntemlerine dayalı sayısallaştırma teknikleri uygulanmıştır. Geliştirilen mimariler ve protein dizilimi sayısallaştırma yöntemleri 2727 proteinden oluşan kıyaslama veri kümesi üzerinde test edilmiştir. Elde edilen sonuçlar Naive Bayes, destek vektör makineleri (SVM), Adaboost ve Bagging makine öğrenme yöntemleri ile elde edilen sonuçlarla karşılaştırılmıştır. Protein metal bağlanma yeri tahmini için en iyi sonuçların evrişimsel sinir ağ mimarisi ile elde edildiği görülmektedir. Bu sonuç, aynı veri kümesi ile literatürde var olan diğer çalışmalardan daha iyi başarım elde edildiğini göstermektedir. Elde edilen bu sonuçlar kullanılarak, bir metal iyonunun koordinasyonunda hangi kalıntıların birlikte yer aldığına karar vermek için metal bağlanma yerlerinin geometrisi değerlendirilmiştir.
Proteins fold by forming strong bonds with the metal ions in their environment and reach their three-dimensional structure. The three-dimensional structure of proteins shows which critical function it performs in the cell. Prediction of protein metal binding sites using protein sequence is important for predicting protein structure, functions, and drug discovery. Computational estimates using machine learning methods based on data from amino acid sequences are widely used in various bioinformatics fields. In this thesis, three different deep learning architectures are proposed for the prediction of metal binding status of Histidine (HIS) and Cysteine (CYS) amino acids in protein sequences. These architectures are built on convolutional neural network (CNN), long-short term memory (LSM) and gated recurrent unit (GRU) models, respectively. These architectures are developed using Keras with Tensorflow backend. Since these models cannot work directly on sequence data, digitization techniques based on PAM scoring matrix, protein compositions and binary representation methods have been applied to feed the relevant models. Developed architectures and protein sequence digitization methods have been tested on benchmark data set consisting of 2727 proteins. The results obtained were compared with the results obtained with Naïve Bayes, Support vector machines, Adaboost and Bagging machine learning methods. It seems that the best results for prediction of protein metal binding site are obtained with CNN architecture. This result shows that better performance was obtained with the same dataset than other studies in the literature. Using these results, the geometry of the metal binding sites was evaluated in order to decide which residues are involved in the coordination of a metal ion.