Tez No İndirme Tez Künye Durumu
201828
A classification system for the problem of protein subcellular localization / Proteinlerin hücre içi yerleşimlerini bulmak için bir sınıflandırma sistemi
Yazar:GÖKÇEN ALAY
Danışman: PROF. DR. VOLKAN ATALAY ; YRD. DOÇ. DR. TOLGA CAN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2007
102 s.
Bu çalşmanın odak noktası proteinlerin hücre içi yerleimlerini bulmaktır. Hesaba dayalı biyolojide temel bir problem olan proteinlerin işlevlerinin belirlenmesinde, hücre içi yerle³im bilgisi önemlidir. Bu problem için, 2 ana bölümden oluşan bir sınıflandırma sistemi kuruldu: protein dizilerinden biyolojik olarak anlamlı verileri çıkarmak üzere tanımlanmış bir öznitelik eşleme yöntemine dayalı bir öngörücü ve hücre içi yerle³im bilgilerinin aranması ve öngörülmesi için inşa edilmiş bir istemci/sunucu mimarisi. Tezin ilk kısmında, yaygın örüntülere dayalı bir öznitelik eşleme yöntemi tanımlamaktayız. Tanımladığımz öznitelik e³leme yönteminde, yaygın örüntüler, bir protein veri kümesinden birincil özelli§e dayalı bir arama tekniği kullanılarak çıkartıldı ve bu örüntülerin yeni bir sekans üzerindeki dağılımları sınıflandırmada öznitelik vektörü olarak kullanıldı. Bir kaç öznitelik seçme metodunun sınıflandırma performansına etkisi araştırılarak, en iyi olan uygulandı. Metod, 4 bölümlü protein hücre içi yerleşimi öngörülmesi probleminde (Golgi aygtna, stoplazmaya, mitokondriye ve çekirde§e yerle³en) ve P2SL için kullanlan veri kümesi üzerinde de§erlendirildi. Bizim metodumuz, yüzde 81.96 olan toplam doğruluk yüzdesini yüzde 91.71 e çıkardı. Tezin ikinci bölümünde, protein hücre içi yerle³im öngörülerine kullanıcı dostu bir arayüzle eri³im sağlayan Basit Obje Erişim Protokolune (BOEP) dayalı bir istemci/sunucu mimarisi tasarlandı ve gerçekleştirildi. Istemci tarafı aslında biyolojik ağlarin fonksiyonel zenginle³tirilmesinde kullanılan bir Cytoscape eklentisidir. Bu eklenti, hücre içi yerleşim bilgisinin tek başına kullanılması yerine, biyologlara gen ya da protein kümelerini toplu biçimde analiz etme imkanı sunuyor. Anahtar Kelimeler: protein sınıflandırması, hücre içi yerle³im, yaygın örüntü bulma, cytoscape eklentisi
The focus of this study is on predicting the subcellular localization of a protein. Subcellular localization information is important for protein function annotation which is a fundamental problem in computational biology. For this problem, a classication system is built that has two main parts: a predictor that is based on a feature mapping technique to extract biologically meaningful information from protein sequences and a client/server architecture for search- ing and predicting subcellular localizations. In the rst part of the thesis, we describe a feature mapping technique based on frequent patterns. In the feature mapping technique we describe, frequent patterns in a protein sequence dataset were identied using a search technique based on a priori property and the dis- tribution of these patterns over a new sample is used as a feature vector for classication. The eect of a number of feature selection methods on the classi- cation performance is investigated and the best one is applied. The method is assessed on the subcellular localization prediction problem with 4 compartments (Endoplasmic reticulum (ER) targeted, cytosolic, mitochondrial, and nuclear) and the dataset is the same used in P2SL. Our method improved the overall accuracy to 91.71% which was originally 81.96% by P2SL. In the second part of the thesis, a client/server architecture is designed and implemented based on Simple Object Access Protocol (SOAP) technology which provides a user- friendly interface for accessing the protein subcellular localization predictions. Client part is in fact a Cytoscape plug-in that is used for functional enrichment of biological networks. Instead of the individual use of subcellular localization information, this plug-in lets biologists to analyze a set of genes/proteins under system view.