Tez No İndirme Tez Künye Durumu
383223
An extension to GOPred to annotate Swiss-Prot and Trembl sequences for all gene ontology categories and EC numbers / Tüm gen ontolojisi ve EC numaraları için Swiss-Prot ve Trembl dizilerini anlamlandırmak amacıyla GOPred yönteminin genişletilmesi
Yazar:AHMET SÜREYYA RİFAİOĞLU
Danışman: PROF. DR. MEHMET VOLKAN ATALAY ; DOÇ. DR. RENGÜL ATALAY
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2015
77 s.
Sekansı bilinen proteinlerin sayısı üstel olarak arttığı için, geleneksel yöntemlerle yapılan proteinlere fonksiyon tanımlama işlemleri sekansı bilinen proteinlerin fonksiyonlarını belirlemede yetersiz kalmıştır. Bu yüzden, proteinlerin fonksiyon tahmini önemli bir araştırma konusu olarak ortaya çıkmıştır. Bu tezde, protein fonksiyon tahmini GOPred metodu geliştirilerek kullanılmıştır. GOPred metodu sırasıyla altdizi, benzerlik ve özellik tabanlı olan SPMap, Blast-kNN ve Pepstats yöntemlerinden oluşmaktadır. GOPred metodunun önceki versiyonunda 300 moleküler işlev gen ontolojisi terimleri kullanılarak protein fonksiyon sınıflandırılması yapılmıştır. Bu çalışmada, geliştirilen sistem 514 moleküler fonskiyon, 2909 biyolojik süreç ve 438 hücresel bileşen gen ontolojisi terimleri için eğitilmiştir. Sistem ayrıca, enzimlerin 851 Enzim Komisyonu (EC) numarası tahminine uygulanmıştır. Ek olarak, her fonksiyonel terim için optimal karar eşikleri hesabı yeni bir yöntem kullanılarak yapılmıştır. Her fonksiyonel terimin performansı ayrı ayrı hesaplanmış ve fonskiyonel terimlerin ortalama performans değerleri hesaplanarak sistem değerlendirilmiştir. Gen ontolojisi tahmin sonuçları, sistemin performansının çok fonksiyonlu proteinlerde daha iyi olduğunu gösteriyor. Bildiğimiz kadarıyla, sonuçlar enzim komisyonu tahmini konusunda elde edilmiş en iyi sonuçlardır. Geliştirilen sistem; TrEMBL veritabanındaki proteinler için fonksiyon tahmini yapan EMBL, HAMAP, PDB, PIR, PIRNR ve RuleBase referans sistemlerin verdiği tahminlerle bizim sistemimizin verdiği tahminleri karşılaştırmak amacıyla yaklaşık 58 milyon TrEMBL proteini üzerinde test edilmiştir.Sonuçlar sistemimizin verdiği tahminlerinin çoğunun varolan sistemlerin verdiği tahminlerle örtüştüğünü gösteriyor.
Traditional protein function annotation methods cannot keep up with annotation of proteins as the number of proteins whose sequences known is increasing exponentially. For this reason, protein function prediction became an important research area. In this thesis, GOPred method is used with improvements for protein function prediction problem. GOPred consists of SPMap, Blast-kNN and Pepstats methods which are subsequence, similarity and feature based methods, respectively. Previous version of GOPred method used for functional classification of proteins based on 300 molecular function Gene Ontology (GO) terms. In this study, improved system is trained for 514 molecular function, 2909 biological process and 438 cellular component GO terms. The system is also applied on functional prediction of enzymes based on 851 Enzyme Commission (EC) Numbers. Hierarchical evaluation of predictions is proposed to give reliable predictions for EC numbers. In addition, we used a new method to calculate optimal decision thresholds for each functional term to determine the predictions that will be given. Optimal thresholds are calculated for each functional term and predictions whose scores are over determined optimal thresholds are presented. Performances of functional terms are measured separately and averages of performances are calculated to evaluate the system. GO term prediction results show that performance of our system is better for prediction of multi-functional proteins. To the best of our knowledge, this is the best performance achieved for EC number prediction in the literature. Improved system is tested on about 58 million TrEMBL proteins to compare predictions that are given by our system with the reference systems that give annotations for TrEMBL database which are EMBL, HAMAP, PDB, PIR, PIRNR and RuleBase. Results show that, most of the predictions that are given by our system are consistent with the predictions that are given by other systems.