Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
199348		A clustering method for the problem of protein subcellular localization / Proteinlerin hücre içi yerleşimlerini bulmak için bir kümeleme yöntemi Yazar:PERİT BEZEK Danışman: PROF. DR. VOLKAN ATALAY Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Dizin:	Onaylandı Yüksek Lisans İngilizce 2006 85 s.

Perit BezekBu calışmanın odak noktası proteinlerin hücre işi yerleşimlerini bulmaktır cunküşs u c s şü uhücre işi yerleşim bir proteinin işlevlerini anlamada gayet yardımcı olacak bilgileru c s sişerir. Bir proteinin işlevleri amino asit dizisinden kestirilebilir. Motiï¬er ya da ko-c srunan altdiziler güclü bir şekilde belirli bir işlevin varlığına işaret eder. Aynı işleveuş u s s g s ssahip olduğu bilinen bir grup protein dizisinde, belirli bir altdizi ya da belirili birgaltdizi grubu sıkşa rastlanır olmalıdır yani bu altdizi gruplarının gürülme sıklığı,c ou gfrekansı, yüksek olmalıdır.uBizim ï¬krimiz bu ortak altdizileri übekleme yüntemi ile bulmak ve onları (implicito oËmotifs) proteinleri sınıï¬andırmak işin kullanmaktır. Iki altdizi arasındaki mesafeyichesaplamak işin geleneksel metin düzenleme uzaklığı, sadece harï¬erin değiştirilmesinec u g gsizin verecek şekilde uyarlanmış ve değişirme masrafı da bir amino asit benzerlik ma-s s gstrisine bağlı olacak hale getirilmiştir. Tayfsal übekleme, bu yeni metin düzenlemeg s o uuzaklığını baz alarak altdizileri başka bir uzaya gündermektedir; büylece kümelemeg s o o uproblemi daha kolay cüzülür hale gelmektedir. Verilen bir protein dizisi işin alt-şo u u cdizilerinin übeklere güre dağılımı bir sınıï¬andırıcıya verilecek olan üzellik vektürünüo o g o ou uoluşturmaktadır. Bu yaklaşımın en ünemli kısmı metin düzenleme uzaklığı uzerines s o u gükurulan tayfsal übeklemedir.oËc üAnahtar Kelimeler: Protein Sınıï¬andırma, Hücre Işi Yerleşim, Tayfsal Obekleme,u sgüuMetin Düzeneleme Uzaklığı, Ortük Motiï¬eru

Perit BezekIn this study, the focus is on predicting the subcellular localization of a protein, sincesubcellular localization is helpful in understanding a protein?s functions. Function ofa protein may be estimated from its sequence. Motifs or conserved subsequences arestrong indicators of function. In a given sample set of protein sequences known toperform the same function, a certain subsequence or group of subsequences shouldbe common; that is, occurrence (frequency) of common subsequences should be high.Our idea is to ï¬nd the common subsequences through clustering and use thesecommon groups (implicit motifs) to classify proteins. To calculate the distance be-tween two subsequences, traditional string edit distance is modiï¬ed so that onlyreplacement is allowed and the cost of replacement is related to an amino acid substi-tution matrix. Based on the modiï¬ed string edit distance, spectral clustering embedsthe subsequences into some transformed space for which the clustering problem isexpected to become easier to solve. For a given protein sequence, distribution of itssubsequences over the clusters is the feature vector which is subsequently fed to aclassiï¬er. The most important aspect if this approach is the use of spectral clusteringbased on modiï¬ed string edit distance.Keywords: Protein Classiï¬cation, Subcellular Localization, Spectral Clustering, StringEdit Distance, Implicit Motifs