Tez No İndirme Tez Künye Durumu
795749
A deep learning based protein representation model forlow-data protein function prediction / Az veri ile protein fonksiyon tahmini için derin öğrenmebazlı bir protein temsil modeli
Yazar:SERBÜLENT ÜNSAL
Danışman: DR. ÖĞR. ÜYESİ AYBAR CAN ACAR ; DOÇ. DR. TUNCA DOĞAN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Sağlık Bilişimi Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2023
331 s.
Protein bilimi, proteinlerin bireysel ve proteom seviyelerinde incelenmesini kapsayan geniş bir alandır. Protein bilgi işleme, protein analizinin bilgisayar tabanlı ve veri odaklı yönlerine odaklanan protein bilimi bir alt dalıdır ve proteinlerin kantitatif özelliklerinin modellemesini içerir. Proteinlerin fonksiyonel karakterizasyonu, biyomedikal stratejilerin ve biyoteknolojik ürünlerin geliştirilmesi için kritik bir öneme sahiptir. Ancak, proteinlerin fonksiyonel karakterizasyonu için kullanılan deneysel ve manuel yöntemler zaman ve maliyet açısından zorluklar oluşturur ve sonuç olarak, UniProt gibi veritabanlarındaki milyonlarca protein girdisinin sadece bir küçük kısmı uzman tarafından elle incelenip etiketlenmiştir. Bu boşluğu doldurmak için, protein fonksiyon tahmini gibi in-silico yöntemleri kullanılır. Bu yöntemler protein fonksiyonlarını makine öğrenimi, doğal dil işleme ve diğer teknikler kullanarak protein dizisi, yapısı ve interaktome bilgilerine dayalı olarak tahmin eder. Protein fonksiyon tahmini, protein bilimi alanında önemli bir hedeftir çünkü protein fonksiyonlarını tam olarak anlamamıza ve moleküler biyoloji alanında ilerleme kaydetmemize yardımcı olabilir. Ancak, protein fonksiyon tahmini hala çözülmemiş bir problemdir ve mevcut yöntemler protein fonksiyonlarını tahmin etmede yüksek doğruluk oranlarına ulaşamamaktadır. Buna bağlı olarak, literatürde nispeten az çalışılan bir alan ise az veri ile protein fonksiyon tahminidir, yani az sayıda pozitif eğitim örneğiyle protein fonksiyonlarının tahmin edilmesidir. Bu zorluğu aşmak için, Protein RepresentatiOn BEnchmark (PROBE) adında yeniden kullanılabilir bir benchmarking çerçevesi oluşturduk ve farklı PFP yöntemlerini değerlendirmek için kullandık. Bu çerçeve, veri yoğunluğu ve tahmin edilen terim özelikleri gibi farklı boyutlar üzerinden farklı protein fonksiyon tahmin yaklaşımlarını karşılaştırmaya olanak tanımaktadır. Ayrıca, az veri ile protein fonksiyon tahmin zorluğunu aşmak için özel olarak tasarlandı ve PROBE kullanılarak değerlendirilen yenilikçi yöntemler geliştirdik. Sonuçlarımız, PROBE çerçevesinin ve az veri ile PFP için geliştirilen yenilikçi yöntemlerin PFP alanında önemli bir katkı sağladığını ve veri kullanılabilirliği sınırlı olan bağlamlarda gelecekteki araştırma çalışmalarını şekillendirme potansiyeline sahip olduğunu göstermektedir. Genel olarak, bu çalışmanın PFP alanında çalışan araştırmacılar için faydalı olacağını ve protein fonksiyonlarını daha iyi anlamaya yönelik çalışmaları destekleyeceğini umuyoruz.
Protein science is a broad discipline that involves the study of proteins at the individual and proteome levels through both experimental and computational methods. Protein informatics is a branch of protein science that focuses on the computational and datacentric aspects of protein analysis, including the modeling of proteins' quantitative properties. The functional characterization of proteins is a critical aspect of protein science, as it is necessary for the development of new biomedical strategies and biotechnological products. However, the experimental and manual methods typically used for protein functional characterization are time-consuming and costly, and as a result, only a small fraction of the millions of protein entries in databases like UniProt have been manually reviewed and annotated by experts. To address this gap, in silico approaches, including protein function prediction (PFP), are being used to predict protein functions using computational methods. PFP involves the use of machine learning, natural language processing, and other techniques to predict protein functions based on various types of data, including protein sequence, structure, and interactome information. The development of accurate and reusable methods for PFP is an important goal in the field of protein science, as it has the potential to improve our understanding of protein function and advance the field of molecular biology. However, PFP remains an open problem, with current methods not consistently achieving high accuracy in predicting protein functions. One area that has received relatively little attention in the literature is low-data PFP, or the prediction of protein functions with a low number of positive training samples. To address this challenge, we developed a reusable benchmarking framework called Protein RepresentatiOn BEnchmark (PROBE) for evaluating different methods for PFP. This framework allows for the comparison of different approaches to PFP across different dimensions, including data abundance and predicted term specificity. We also developed novel methods specifically designed for addressing the challenge of low-data PFP and evaluated these methods using PROBE. Our results show that the PROBE framework and the novel methods developed for low-data PFP represent a significant contribution to the field of PFP and have the potential to shape future research efforts, particularly in contexts where data availability is limited. Overall, we hope that this study will be beneficial for researchers working in the PFP domain and will contribute to the ongoing efforts to improve our understanding of protein function.