Tez No İndirme Tez Künye Durumu
633414
Deep learning for prediction of drug-target interaction space and protein functions / İlaç-hedef protein etkileşim uzayı ve protein fonksiyonlarının tahmini için derin öğrenme
Yazar:AHMET SÜREYYA RİFAİOĞLU
Danışman: PROF. DR. MEHMET VOLKAN ATALAY ; PROF. DR. RENGÜL ÇETİN ATALAY
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyoteknoloji = Biotechnology ; Mühendislik Bilimleri = Engineering Sciences
Dizin:Makine öğrenmesi = Machine learning
Onaylandı
Doktora
İngilizce
2020
248 s.
Sekanslama ve yüksek çıktılı tarama teknolojilerinin ilerlemesi ile biyolojik ve kimyasal veri tabanlarında büyük miktarda protein ve bileşik verisi birikmiştir. Bununla birlikte, protein ve bileşik uzaylarının büyüklüğü sebebiyle bu verilerin çok azı laboratuvar deneyleriyle anlamlandırılabilmiştir. Bu nedenle, protein ve bileşik uzayını anlamlandırılabilmek için hesaplamalı yöntemler geliştirilmektedir. Bu tezde; amacı farklı kaynaklardaki biyolojik ve kimyasal verileri birleştirmek ve ilaç keşfi için derin öğrenme tabanlı yöntemler geliştirmek olan Biyomedikal İlişkilerin Kapsamlı Kaynağı ve Biyomedikal İlişkileri (CROssBAR) projesi kapsamında, ilaç-hedef protein etkileşimi tahmini ve proteinlerin fonksiyonel anlamlandırılması için çeşitli yöntemlerin tasarlanması ve uygulanmasını tarif ediyoruz. İlk yöntem olan DEEPred, Gen Ontoloji'sinin yönlü düz ağaç hiyerarşisine dayanan ve yığılmış çok görevli derin sinir ağlarını kullanan protein fonksiyon tahmin yöntemidir. DEEPred'in performansı, literatürdeki iyi bilinen yöntemlerle karşılaştırılmıştır ve kaynak kodu https://github.com/cansyl/deepred adresinde bulunmaktadır. Geliştirilen ikinci yöntem, ilaç-protein hedefi etkileşimi (ikili) tahmin yöntemi olan DEEPScreen'dir. DEEPScreen'deki ana fikir, evrişimli sinir ağları aracılığıyla bileşik görüntülerini kullanarak özelliklerini otomatik olarak öğrenmektir. DEEPScreen, 704 hedef protein için eğitilmiş ve girdi bileşikleri, eğitilmiş hedeflere karşı aktif ya da inaktif olarak tahmin edilmiştir. DEEPScreen'in performansı, farklı kıyaslama veri kümeleri kullanılarak literatürdeki yöntemlerle karşılaştırılmıştır. Yöntemin kaynak kodu https://github.com/cansyl/DEEPScreen adresinde bulunmaktadır. Üçüncü yöntem olan MDeePred protein-bileşik bağlanma değeri tahmini yöntemidir. MDeePred, hem protein hem de bileşik özelliklerinin çift girdili melez derin sinir ağı yapısına beslendiği kemogenomik bir yöntemdir. Girdi olarak kullanılan özellikler açısından MDeePred ve DEEPScreen arasındaki temel fark, MDeePred'in bileşik hedef özellik çiftlerini kullanması, bunun yanında DEEPScreen'de sadece bileşik özelliklerinin kullanılmasıdır. MDeePred'in sunduğu ana yenilik, her bir kanalın girdi protein dizilerinin farklı bir özelliğini temsil ettiği çok kanallı özelliklendirme yaklaşımıdır. MDeePred'in performansı birden fazla kıyaslama veri kümesinde hesaplanmış ve performansı literatürde iyi bilinen yöntemlerle karşılaştırılmıştır. MDeePred'in kaynak kodu https://github.com/cansyl/MDeePred adresinde yer almaktadır. Dördüncü yöntem olan iBioProVis, kimyasal uzay için çevrimiçi ve etkileşimli bir görüntüleme aracıdır. iBioProVis'in temel amacı, bileşik özellikleri 2 boyutlu uzaya yerleştirmek ve bu bağlamda bileşikleri görselleştirmektir. Bu araç, topolojik ve kimyasal olarak benzer bileşiklerin benzer biyoaktivite profillerine sahip olduğu varsayımına dayanır. iBioProVis için girdiler, hedef protein tanımlayıcıları ve isteğe bağlı olarak kullanıcılar tarafından verilen bileşiklerinin SMILES gösterimleridir. Araç, daha sonra hedeflerin aktif bileşikleri ve kullanıcı girdi bileşikleri için dairesel parmak izlerini üretir ve bileşikleri 2 boyutta göstermek için t-Stokastik Yakınlık Gömmesi yöntemi kullanılır. Aynı zamanda, girdi hedef proteinleri ve bileşikleri için iyi bilinen veri tabanları için çapraz referanslar sağlanmaktadır. iBioProVis'e https://ibioprovis.kansil.org/ adresinden ulaşılabilir. Anahtar Kelimeler: Sanal Tarama, Derin Öğrenme, Protein Fonksiyonu Tahmini, Bağlanma Değeri Tahmini, İlaç-Hedef Protein Etkileşimi Tahmini
With the advancement of sequencing and high-throughput screening technologies, large amount of sequence and compound data have been accumulated in biological and chemical databases. However, only small number of proteins and compounds have been annotated by wet-lab experiments due to the huge compound and chemical space. Therefore, computational methods have been developed to annotate protein and compound space. In this thesis, we describe the design and implementation of several methods for accurate drug-target interaction prediction and functional annotations of proteins within the framework of Comprehensive Resource of Biomedical Relations with Deep Learning and Network Representations (CROssBAR) project whose aim is to integrate biological and chemical data scattered in different sources and to create prediction methods for drug discovery based on deep learning. The first method, DEEPred is a sequence based automated protein function prediction method that employs a stacked multi-task deep neural networks based on Gene Ontology (GO) directed acyclic graph hierarchy. The performance of DEEPred was compared with state-of-the-art methods and its source code is available at https://github.com/cansyl/deepred. DEEPScreen is the second method and it is a drug-target interaction (binary) prediction method. In DEEPScreen, the idea is to learn compound features automatically using compound images via convolutional neural networks. DEEPScreen was trained for 704 target proteins and the input compounds predicted as active or inactive against trained targets. The performance of DEEPScreen was compared with the state-of-the art methods using different benchmarking datasets. The source code is available at https://github.com/cansyl/DEEPScreen. The third method is called MDeePred which is a binding affinity prediction method. MDeePred is a chemogenomic method where both protein and compounds features were fed to a hybrid pairwise deep neural network structure. The main difference between MDeePred and DEEPScreen in terms of features is that MDeePred employs compound-target feature pairs whereas in DEEPScreen only compound features were used. The main novelty of MDeePred is the proposed multi-channel featurization approach for protein sequences where each channel represents a different property of input protein sequences. The performance of MDeePred was calculated on multiple benchmarking datasets and compared its performance with the state-of-the-art methods. The source code for MDeePred is available at https://github.com/cansyl/MDeePred. The fourth method is called iBioProVis which is an online interactive visualization tool for chemical space. The main purpose of iBioProVis is to embed and visualize compound features on 2-D space. It relies on the assumption that topologically and chemically similar compounds have similar bioactivity profiles. The inputs for iBioProVis are target protein identifiers and optionally, SMILES strings of user-input compounds. The tool then generates circular fingerprints for active compounds of targets and user-input compounds and then, t-Stochastic Neighbor Embedding (t-SNE) method is used to embed compounds on 2-D space. The tool also provides cross-references for well-known databases for input targets and compounds. iBioProVis is available at https://ibioprovis.kansil.org/. Keywords: Virtual Screening, Deep Learning, Protein Function Prediction, Binding Affinity Prediction, Drug-Target Interaction Prediction