Tez No İndirme Tez Künye Durumu
754222
Prediction of protein-protein interaction sites using an ensemble learning method / Topluluk öğrenme yöntemi kullanılarak protein-protein etkileşim bölgelerinin tahmini
Yazar:ENGİN AYBEY
Danışman: DR. ÖĞR. ÜYESİ ÖZGÜR GÜMÜŞ
Yer Bilgisi: Ege Üniversitesi / Sağlık Bilimleri Enstitüsü / Sağlık Biyoinformatiği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyoistatistik = Biostatistics ; Biyokimya = Biochemistry
Dizin:Biyolojik etkileşim = Biological interaction ; Derin öğrenme = Deep learning ; Protein etkileşim ağları = Protein interaction networks ; Proteinler = Proteins
Onaylandı
Doktora
İngilizce
2022
160 s.
Proteinler canlı organizmalarda hayati faaliyetleri gerçekleştiren, amino asitlerden oluşan pek çok polipeptitten meydana gelen moleküllerdir. Proteinler işlevlerini genellikle diğer protein ve moleküllerle etkileşerek gerçekleştirirler. Dahası bir proteindeki hangi amino asidin diğer proteinlerle etkileşime girdiğinin belirlenmesi, o proteinin işlevsel mekanizmasının anlaşılması açısından önem arz etmektedir. Protein-protein etkileşim bölgelerinin (PPEB) tespit etmek için deneysel yöntemler olmasına karşın, bunlar maliyetli, zaman alıcı ve uzmanlık gerektirmektedir. Bu nedenle, bu tür araştırmalara ivme kazandırmak için birçok hesaplamalı yöntem önerilmiş, ancak bunlar genellikle PPEB'leri doğru bir şekilde tahmin etmek için yetersiz kalmıştır. Bundan dolayı bu alanda halen çalışma yapılması gerekliliği mevcuttur. Bu çalışmada, yeni bir PPEB tahmin yöntemi önerilmektedir. Bu yöntem, RNN, CNN, GRU diziden diziye (GRUs2s), dikkat katmanına sahip GRU diziden diziye katmanı (GRUs2satt) ve çok katmanlı algılayıcı sınıflandırıcı modellerinin birleşiminden oluşan bir topluluk derin öğrenme modelini ihtiva eden bir dizi tabanlı yığma topluluk derin öğrenme yöntemidir. Yöntemin tahmin performansını iyileştirmek için mevcut 12 özelliğe ek olarak ikincil yapı ve protein dizi bilgisi eklenmiştir. İki ekstra özellik olmadan eğitim veri kümesi üzerinde eğitilen SENSDeep, bazı bağımsız test veri kümelerinde, literatürdeki diğer yöntemlerden, özellikle duyarlılık, F1, MCC ve AUPRC'nin puanlama metriklerinde, sırasıyla %63.5, %19.3, %18.5, %11.4'e varan artışlarla daha iyi bir performans elde etmiştir. Eklenen ekstra özelliklerin, bu eklenen özellikler olmayan eğitim veri kümesiyle eğitilen modelle neredeyse aynı performansa daha az veri ile sahip olarak yöntemin performansını iyileştirdiği gösterilmiştir. Öte yandan, veri kümeleri üzerinde farklı boyutlarda kayan pencere denenmiş ve SENSDeep için uygun bir kayan pencere boyutunun olduğu tespit edilmiştir. Her iki veri setiyle eğitilerek elde edilen SENSDeep kullanılarak, bu eğitim veri setlerinde olmayan bazı proteinlerin PPEB'lerini tahminleme örnekleri de sunulmuştur. Ayrıca, SENSDeep ve alt modelleri için yürütme süreleri gösterilmiştir. Ek olarak, SENSDeep'de kullanılan aynı veri setleri üzerinde eğitilip aynı bağımsız test setleri üzerinde test edilerek elde edilen bazı gradyan artırma algoritmalarının sonuçları SENSDeep'in ve diğer önceden yayınlanmış yöntemlerin sonuçları ile karşılaştırılmıştır. Burada kullanılan gradyan artırma algoritmaları XGBoost, LightGBM ve CatBoost algoritmalarıdır. Bu algoritmalar, bağımsız test veri setlerinde SENSDeep ile benzer bir performans grafiği çizmiştir. Ancak, bu algoritmalar için en iyi performans veren kayan pencere boyutu, SENSDeep'in sahip olduğundan farklıdır. Yine, bu algoritmalar için veri kaybı pahasına eğitim veri kümesine yeni özellikler eklemek, eklenmemiş sürümle aynı veya biraz daha iyi sonuçlar verdiği görülmüştür. Bu gradyan artırma sınıflandırıcıları için yürütme süreleri de sunulmuştur. Kaynak kodları https://github.com/enginaybey/SENSDeep adresinde bulunmaktadır.
Proteins are molecules that carry out vital activities in living organisms and are formed of many polypeptides consisting of amino acids. Proteins usually perform their functions by interacting with other proteins and molecules. The determination of which amino acid in a protein interacts with other proteins is important in understanding the functional mechanism of that protein. Although there are experimental methods to detect protein-protein interaction sites (PPISs), these are costly, time consuming and require expertise. Therefore, many computational methods have been proposed to accelarate this type of researches, but they are generally insufficient to predict PPISs accurately. There is a need for development in this field. In this study, a new PPISs prediction method is proposed. This method is a sequence-based Stacking ENSemble Deep (SENSDeep) learning method that have an ensemble learning model including the models of RNN, CNN, GRU sequence to sequence (GRUs2s), GRU sequence to sequence with an attention layer (GRUs2satt) and a multilayer perceptron. Two embedded features, secondary structure and protein sequence information, are added to the training dataset in addition to twelve existing features to improve the prediction performance of the method. SENSDeep trained on the training dataset without two extra features obtains a better performance on some of independent testing datasets than that of the other methods in the literature, especially on scoring metrics of sensitivity, F1, MCC and AUPRC, having increments up to 63.5%, 19.3%, 18.5%, 11.4% respectively. It is shown that the added extra features improve the performance of the method by having almost the same performance with less data as the method trained on the dataset without these added features. On the other hand, different sizes of sliding window are tried on the datasets and an optimal sliding window size for SENSDeep is found. Using SENSDeep obtained by training with both training datasets, PPISs prediction examples of various proteins that are not in these training datasets are also presented. Furthermore, execution times for SENSDeep and its submodels are shown. In addition, some other popular ensemble methods, which are the gradient boosting algorithms, XGBoost, LightGBM and CatBoost, are also studied and the results of these boosting algorithms, which are trained on the same datasets and tested on the same independent testing datasets used in SENSDeep, are compared with the results of SENSDeep and other previously published methods. These algorithms can obtain a similar performance with SENSDeep on the independent testing datasets. However, the best-performing sliding window size for these algorithms is different from what SENSDeep has. Again, adding new features to the training dataset at the expense of loss of data for these algorithms also gives the same or slightly better results than non-added version. Execution times for these boosting classifiers are also presented. The source codes are available at https://github.com/enginaybey/SENSDeep.