Bu çalşmanın odak noktası proteinlerin hücre içi yerleimlerini bulmaktır. Hesaba dayalı biyolojide temel bir problem olan proteinlerin işlevlerinin belirlenmesinde, hücre içi yerle³im
bilgisi önemlidir. Bu problem için, 2 ana bölümden oluşan bir sınıflandırma sistemi kuruldu: protein dizilerinden biyolojik olarak anlamlı verileri çıkarmak üzere tanımlanmış bir öznitelik eşleme yöntemine dayalı bir öngörücü ve hücre içi yerle³im bilgilerinin aranması ve öngörülmesi için inşa edilmiş bir istemci/sunucu mimarisi. Tezin ilk kısmında, yaygın
örüntülere dayalı bir öznitelik eşleme yöntemi tanımlamaktayız. Tanımladığımz öznitelik
e³leme yönteminde, yaygın örüntüler, bir protein veri kümesinden birincil özelli§e dayalı bir
arama tekniği kullanılarak çıkartıldı ve bu örüntülerin yeni bir sekans üzerindeki dağılımları sınıflandırmada öznitelik vektörü olarak kullanıldı. Bir kaç öznitelik seçme metodunun
sınıflandırma performansına etkisi araştırılarak, en iyi olan uygulandı. Metod, 4 bölümlü
protein hücre içi yerleşimi öngörülmesi probleminde (Golgi aygtna, stoplazmaya, mitokondriye ve çekirde§e yerle³en) ve P2SL için kullanlan veri kümesi üzerinde de§erlendirildi.
Bizim metodumuz, yüzde 81.96 olan toplam doğruluk yüzdesini yüzde 91.71 e çıkardı. Tezin
ikinci bölümünde, protein hücre içi yerle³im öngörülerine kullanıcı dostu bir arayüzle eri³im sağlayan Basit Obje Erişim Protokolune (BOEP) dayalı bir istemci/sunucu mimarisi
tasarlandı ve gerçekleştirildi. Istemci tarafı aslında biyolojik ağlarin fonksiyonel zenginle³tirilmesinde kullanılan bir Cytoscape eklentisidir. Bu eklenti, hücre içi yerleşim bilgisinin tek başına kullanılması yerine, biyologlara gen ya da protein kümelerini toplu biçimde analiz
etme imkanı sunuyor.
Anahtar Kelimeler: protein sınıflandırması, hücre içi yerle³im, yaygın örüntü bulma, cytoscape eklentisi
|
The focus of this study is on predicting the subcellular localization of aprotein. Subcellular localization information is important for protein functionannotation which is a fundamental problem in computational biology. For thisproblem, a classication system is built that has two main parts: a predictorthat is based on a feature mapping technique to extract biologically meaningfulinformation from protein sequences and a client/server architecture for search-ing and predicting subcellular localizations. In the rst part of the thesis, wedescribe a feature mapping technique based on frequent patterns. In the featuremapping technique we describe, frequent patterns in a protein sequence datasetwere identied using a search technique based on a priori property and the dis-tribution of these patterns over a new sample is used as a feature vector forclassication. The eect of a number of feature selection methods on the classi-cation performance is investigated and the best one is applied. The method isassessed on the subcellular localization prediction problem with 4 compartments(Endoplasmic reticulum (ER) targeted, cytosolic, mitochondrial, and nuclear)and the dataset is the same used in P2SL. Our method improved the overallaccuracy to 91.71% which was originally 81.96% by P2SL. In the second partof the thesis, a client/server architecture is designed and implemented basedon Simple Object Access Protocol (SOAP) technology which provides a user-friendly interface for accessing the protein subcellular localization predictions.Client part is in fact a Cytoscape plug-in that is used for functional enrichmentof biological networks. Instead of the individual use of subcellular localizationinformation, this plug-in lets biologists to analyze a set of genes/proteins undersystem view. |