Tez No |
İndirme |
Tez Künye |
Durumu |
795749
|
|
A deep learning based protein representation model forlow-data protein function prediction / Az veri ile protein fonksiyon tahmini için derin öğrenmebazlı bir protein temsil modeli
Yazar:SERBÜLENT ÜNSAL
Danışman: DR. ÖĞR. ÜYESİ AYBAR CAN ACAR ; DOÇ. DR. TUNCA DOĞAN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Sağlık Bilişimi Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
|
Onaylandı
Doktora
İngilizce
2023
331 s.
|
|
Protein bilimi, proteinlerin bireysel ve proteom seviyelerinde incelenmesini kapsayan
geniş bir alandır. Protein bilgi işleme, protein analizinin bilgisayar tabanlı ve veri
odaklı yönlerine odaklanan protein bilimi bir alt dalıdır ve proteinlerin kantitatif
özelliklerinin modellemesini içerir. Proteinlerin fonksiyonel karakterizasyonu,
biyomedikal stratejilerin ve biyoteknolojik ürünlerin geliştirilmesi için kritik bir
öneme sahiptir. Ancak, proteinlerin fonksiyonel karakterizasyonu için kullanılan
deneysel ve manuel yöntemler zaman ve maliyet açısından zorluklar oluşturur ve
sonuç olarak, UniProt gibi veritabanlarındaki milyonlarca protein girdisinin sadece bir
küçük kısmı uzman tarafından elle incelenip etiketlenmiştir. Bu boşluğu doldurmak
için, protein fonksiyon tahmini gibi in-silico yöntemleri kullanılır. Bu yöntemler
protein fonksiyonlarını makine öğrenimi, doğal dil işleme ve diğer teknikler
kullanarak protein dizisi, yapısı ve interaktome bilgilerine dayalı olarak tahmin eder.
Protein fonksiyon tahmini, protein bilimi alanında önemli bir hedeftir çünkü protein
fonksiyonlarını tam olarak anlamamıza ve moleküler biyoloji alanında ilerleme
kaydetmemize yardımcı olabilir.
Ancak, protein fonksiyon tahmini hala çözülmemiş bir problemdir ve mevcut
yöntemler protein fonksiyonlarını tahmin etmede yüksek doğruluk oranlarına
ulaşamamaktadır. Buna bağlı olarak, literatürde nispeten az çalışılan bir alan ise az
veri ile protein fonksiyon tahminidir, yani az sayıda pozitif eğitim örneğiyle protein
fonksiyonlarının tahmin edilmesidir. Bu zorluğu aşmak için, Protein RepresentatiOn
BEnchmark (PROBE) adında yeniden kullanılabilir bir benchmarking çerçevesi
oluşturduk ve farklı PFP yöntemlerini değerlendirmek için kullandık. Bu çerçeve, veri
yoğunluğu ve tahmin edilen terim özelikleri gibi farklı boyutlar üzerinden farklı
protein fonksiyon tahmin yaklaşımlarını karşılaştırmaya olanak tanımaktadır. Ayrıca,
az veri ile protein fonksiyon tahmin zorluğunu aşmak için özel olarak tasarlandı ve
PROBE kullanılarak değerlendirilen yenilikçi yöntemler geliştirdik. Sonuçlarımız,
PROBE çerçevesinin ve az veri ile PFP için geliştirilen yenilikçi yöntemlerin PFP
alanında önemli bir katkı sağladığını ve veri kullanılabilirliği sınırlı olan bağlamlarda
gelecekteki araştırma çalışmalarını şekillendirme potansiyeline sahip olduğunu
göstermektedir. Genel olarak, bu çalışmanın PFP alanında çalışan araştırmacılar için
faydalı olacağını ve protein fonksiyonlarını daha iyi anlamaya yönelik çalışmaları
destekleyeceğini umuyoruz.
|
|
Protein science is a broad discipline that involves the study of proteins at the individual
and proteome levels through both experimental and computational methods. Protein informatics is a branch of protein science that focuses on the computational and datacentric aspects of protein analysis, including the modeling of proteins' quantitative
properties. The functional characterization of proteins is a critical aspect of protein
science, as it is necessary for the development of new biomedical strategies and
biotechnological products. However, the experimental and manual methods typically
used for protein functional characterization are time-consuming and costly, and as a
result, only a small fraction of the millions of protein entries in databases like UniProt
have been manually reviewed and annotated by experts. To address this gap, in silico
approaches, including protein function prediction (PFP), are being used to predict
protein functions using computational methods. PFP involves the use of machine
learning, natural language processing, and other techniques to predict protein functions
based on various types of data, including protein sequence, structure, and interactome
information.
The development of accurate and reusable methods for PFP is an important goal in the
field of protein science, as it has the potential to improve our understanding of protein
function and advance the field of molecular biology. However, PFP remains an open
problem, with current methods not consistently achieving high accuracy in predicting
protein functions. One area that has received relatively little attention in the literature
is low-data PFP, or the prediction of protein functions with a low number of positive
training samples. To address this challenge, we developed a reusable benchmarking
framework called Protein RepresentatiOn BEnchmark (PROBE) for evaluating
different methods for PFP. This framework allows for the comparison of different
approaches to PFP across different dimensions, including data abundance and
predicted term specificity. We also developed novel methods specifically designed for
addressing the challenge of low-data PFP and evaluated these methods using PROBE.
Our results show that the PROBE framework and the novel methods developed for
low-data PFP represent a significant contribution to the field of PFP and have the
potential to shape future research efforts, particularly in contexts where data
availability is limited. Overall, we hope that this study will be beneficial for
researchers working in the PFP domain and will contribute to the ongoing efforts to
improve our understanding of protein function. |