Tez No İndirme Tez Künye Durumu
199348
A clustering method for the problem of protein subcellular localization / Proteinlerin hücre içi yerleşimlerini bulmak için bir kümeleme yöntemi
Yazar:PERİT BEZEK
Danışman: PROF. DR. VOLKAN ATALAY
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2006
85 s.
Perit BezekBu calışmanın odak noktası proteinlerin hücre işi yerleşimlerini bulmaktır cunküşs u c s şü uhücre işi yerleşim bir proteinin işlevlerini anlamada gayet yardımcı olacak bilgileru c s sişerir. Bir proteinin işlevleri amino asit dizisinden kestirilebilir. Motifler ya da ko-c srunan altdiziler güclü bir şekilde belirli bir işlevin varlığına işaret eder. Aynı işleveuş u s s g s ssahip olduğu bilinen bir grup protein dizisinde, belirli bir altdizi ya da belirili birgaltdizi grubu sıkşa rastlanır olmalıdır yani bu altdizi gruplarının gürülme sıklığı,c ou gfrekansı, yüksek olmalıdır.uBizim fikrimiz bu ortak altdizileri übekleme yüntemi ile bulmak ve onları (implicito o˙motifs) proteinleri sınıflandırmak işin kullanmaktır. Iki altdizi arasındaki mesafeyichesaplamak işin geleneksel metin düzenleme uzaklığı, sadece harflerin değiştirilmesinec u g gsizin verecek şekilde uyarlanmış ve değişirme masrafı da bir amino asit benzerlik ma-s s gstrisine bağlı olacak hale getirilmiştir. Tayfsal übekleme, bu yeni metin düzenlemeg s o uuzaklığını baz alarak altdizileri başka bir uzaya gündermektedir; büylece kümelemeg s o o uproblemi daha kolay cüzülür hale gelmektedir. Verilen bir protein dizisi işin alt-şo u u cdizilerinin übeklere güre dağılımı bir sınıflandırıcıya verilecek olan üzellik vektürünüo o g o ou uoluşturmaktadır. Bu yaklaşımın en ünemli kısmı metin düzenleme uzaklığı uzerines s o u gükurulan tayfsal übeklemedir.o˙c üAnahtar Kelimeler: Protein Sınıflandırma, Hücre Işi Yerleşim, Tayfsal Obekleme,u sgüuMetin Düzeneleme Uzaklığı, Ortük Motifleru
Perit BezekIn this study, the focus is on predicting the subcellular localization of a protein, sincesubcellular localization is helpful in understanding a protein?s functions. Function ofa protein may be estimated from its sequence. Motifs or conserved subsequences arestrong indicators of function. In a given sample set of protein sequences known toperform the same function, a certain subsequence or group of subsequences shouldbe common; that is, occurrence (frequency) of common subsequences should be high.Our idea is to find the common subsequences through clustering and use thesecommon groups (implicit motifs) to classify proteins. To calculate the distance be-tween two subsequences, traditional string edit distance is modified so that onlyreplacement is allowed and the cost of replacement is related to an amino acid substi-tution matrix. Based on the modified string edit distance, spectral clustering embedsthe subsequences into some transformed space for which the clustering problem isexpected to become easier to solve. For a given protein sequence, distribution of itssubsequences over the clusters is the feature vector which is subsequently fed to aclassifier. The most important aspect if this approach is the use of spectral clusteringbased on modified string edit distance.Keywords: Protein Classification, Subcellular Localization, Spectral Clustering, StringEdit Distance, Implicit Motifs