Tez No İndirme Tez Künye Durumu
419038
Protein fold classification and motif retrieval methods by using the primary and secondary structures / Primer ve sekonder yapılar kullanılarak proteinlerin fold düzeyinde sınıflandırılması ve motif çıkarımı
Yazar:ÖZLEM POLAT
Danışman: PROF. DR. ZÜMRAY DOKUR ÖLMEZ
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı / Elektronik Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyomühendislik = Bioengineering ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:Yapay sinir ağları = Artificial neural networks
Onaylandı
Doktora
İngilizce
2015
120 s.
Proteinler canlı hayatındaki en temel biyolojik birimlerdir ve canlı vücudundaki bütün biyolojik işlevler proteinler tarafından gerçekleştirilir. Moleküler biyoloji ve genetik alanında yapılan çalışmalar sonucunda çoğu hastalığın protein yapısındaki kusur, hasar ve değişiklikten kaynaklandığı ortaya çıkarılmıştır. Proteinlerin fonksiyonları onların yapıları tarafından belirlenmektedir. Bu nedenle proteinlerin yapı analizi, protein yapılarının karşılaştırılması, benzer yapıların belirlenmesi, motif çıkarımı ve proteinlerin sınıflandırılması moleküler biyoloji açısından önemlidir. Proteinler, amino asitlerin belirli türde, belirli sayıda ve belirli diziliş sırasında karakteristik düz zincirde birbirlerine kovalent bağlanmasıyla oluşmuş polipeptidlerdir. Her proteinin kendisine has özelliklerinin olmasını sağlayan özel amino asit dizilimleri vardır. Protein yapısı, primer, sekonder, tersiyer ve kuaterner olmak üzere dört ayrı şekilde incelenebilir. Tezde proteinin fold düzeyinde sınıflandırılması ve motif çıkarımı olmak üzere iki konu ele alınmıştır. Bu konulara ilişkin çalışmalar yapılırken proteinin primer ve sekonder yapılarına ilişkin öznitelikler kullanılmıştır. Polipeptidin düzenli katlanmalar yapması sekonder yapıyı oluşturmaktadır. Yaygın olarak iki tip sekonder yapı vardır: α-heliks ve β-tabaka. Proteinler sekonder yapı bileşenlerine göre dört ana gruba ayrılmaktadır; all-α, all-β, α/β, α+β. SCOP'a göre bu dört ana sınıf kendi içinde foldlara ayrılırlar. Foldlar sekonder yapıların belirli bir düzene göre katlanmalarından meydana gelen üç boyutlu şekillerdir. Proteinlerin fonksiyonları onların yapıları tarafından belirlendiğinden, aynı yapıya sahip proteinlerin belirlenmesi yani proteinlerin fold seviyesinde sınıflandırılması moleküler biyolojinin önemli çalışmalarından biridir. Proteinlerin fold seviyesinde sınıflandırılması problemi sorgulanan proteinin hangi folda ait olduğunu belirlemektir. Tezde öncelikle proteinlerin fold seviyesinde sınıflandırılması problemi ele alınmakta ve sınıflandırma için yapay sinir ağlarının alt modellerinden olan GAL, SOM ve SOM-SD kullanılmaktadır. GAL ve SOM için primer yapılara ilişkin öznitelikler kullanılırken, SOM-SD için sekonder yapılara ilişkin öznitelikler kullanılmıştır. Proteinlerin fold düzeyinde sınıflandırılması amacı ile kullanılan ilk yöntem büyü ve öğren (GAL) ağıdır. Büyü ve öğren ağında sınıf sınırları en yakın mesafe ölçüsüne göre belirlenmektedir. Giriş vektörü ile ağdaki tüm vektörler arasındaki mesafe hesaplanır. Giriş vektörünün sınıfı, bu vektöre en yakın mesafedeki ağ düğümünün sınıfı olarak belirlenir. Ağın düğüm sayısı eğitim sırasında otomatik olarak belirlenir. Ağın eğitimi öğrenme ve unutma algoritması olarak iki algoritma tarafından gerçekleştirilir. Öğrenme algoritmasında ağa düğüm eklenirken unutma algoritmasında ağın performansını düşürmeyecek olan gereksiz düğümler ağdan çıkarılırlar. Kalan düğümler ile de yeni girişler test edilir. Bu yöntem ile yapılan testlerde eğitim kümesi için 311 test kümesi için 383 olmak üzere protein veri bankasından (PDB) alınan 694 protein kullanılmıştır. Kullanılan öznitelik vektörü 125 boyutludur ve amino asitlere ilişkin fizyokimyasal özellikleri belirtmektedir. Altı adet öznitelik kullanılmıştır: Amino asit kompozisyonu (20D), tahmin edilen sekonder yapı (21D), hidrofobisite (21D), normalize van der Waals hacmi (21D), polarite (21D) ve polarizebilite (21D). Bu öznitelikler ve GAL ağı kullanılarak 27-sınıflı proteinin fold seviyesinde sınıflandırılması problemi ele alınmıştır. Ikinci olarak proteinlerin sınıflandırılması amacı ile SOM ağı (Kohonen ağı) kullanılmıştır. SOM danışmansız bir yapay sinir ağıdır, yarışmacı öğrenme algoritmasını kullanır. Bu yöntemde ağın nöronları aktif edilmek için aralarında yarışırlar ve sonuçta yalnızca bir nöron yarışı kazanır. Buradaki temel hedef herhangi bir boyuttaki giriş sinyal desenini iki boyutlu bir haritaya adaptif bir şekilde dönüştürmektir. Sonrasında ise ağa giriş olarak verilen sorgu proteinlerinin sınıfını belirlemektir. Bu yöntemde yapılan testlerde önce üç sınıflı problem sonrasında bir önceki yöntemde olduğu gibi 27-sınıflı problem ele alınmış ve aynı veri kümesi kullanılmıştır. Proteinin fold düzeyinde sınıflandırılması amacıyla kullanılan üçüncü yöntem SOM-SD'dir. SOM'dan kullandığı veri yapısı nedeniyle farklıdır. SOM-SD girişinde veri olarak grafları kullanan bir yapay sinir ağı modelidir. Bu yöntemde veri yapısı olarak proteinlerin PGI gösterimi kullanılmıştır. PGI, EGI'nın (Extended Gaussian Image) proteinler üzerine uygulanmış halidir. Protein içindeki sekonder yapılar Gauss küresi üzerine, başlangıç noktaları küre merkezine bitiş noktaları küre yüzeyine gelecek şekilde yerleştirilirler. Burada küre yüzeyindeki sekonder yapıların bulunduğu noktalar o sekonder yapının oryantasyon bilgisini içermektedir. Sekonder yapıların zincir sırası küre yüzeyine haritalanan bir liste olarak kaydedilir. PGI gösterimi küre yüzeyindeki noktaların sekonder yapıların sırasına uygun olarak birleştirilmiş halidir. Burada proteinlerin içerisindeki sekonder yapı sayıları farklı olduğundan dolayı ağa giriş verilerinin uzunluğu da farklı olacaktır. SOM-SD ile bu problem ortadan kaldırılmakta ve her bir giriş verisinin uzunluğu eşitlenmektedir. Bu metot PDB'den seçilen üç folda ilişkin 45 protein (her foldda 15 protein) üzerinde test edilmiş ve üç sınıflı, proteinlerin fold düzeyinde sınıflandırılması problemi ele alınmıştır. Tezde ayrıca yukarıda bahsedilen altı öznitelikten hangisinin sınıflandırmada daha baskın olduğunu belirlemek amacıyla testler yapılmıştır. Testler yapılırken daha iyi başarım vermesinden dolayı GAL ağı kullanılmıştır. Öncelikle amino asit kompozisyonu tek başına GAL ağı ile test edilmiş ve sınıflandırma başarımı hesaplanmıştır. Sonrasında amino asit kompozisyonuna ek olarak tahmin edilen sekonder yapı da öznitelik vektörüne eklenmiş ve sınıflandırma başarımı test edilmiştir. Öznitelikler bu şekilde sırasıyla birbirine eklenmiş ve son aşamada altı özniteliğin hepsi kullanılarak sınıflayıcı test edilimiştir. Test sonuçlarına göre proteinlerin sınıflandırılmasında amino asit kompozisyonunun diğerlerine göre daha etkili olduğu ve tek başına bile proteinleri, literatürdekilerle karşılaştırılabilecek düzeyde sınıflandırdığı ortaya çıkarılmıştır. Tez kapsamında, kullanılan öznitelik vektörünün boyutunu sınıflayıcının performansını değiştirmeden azaltmak amacıyla diverjans analizi kullanılmıştır. Diverjans analizi iki veya daha fazla sınıfın söz konusu olduğu problemlerde kullanılan tüm özniteliklerin arasından istenen sayıda, performansı azaltmayan en iyi özniteliklerin seçilmesi amacıyla uygulanır. Diverjans hesaplamada sınıf içi saçılım ve sınıflar arası saçılım, sınıfları ayırma kriteri olarak kullanılmaktadır. Tezde kullanılan veriye diverjans analizi uygulanmış ve GAL ağı ile test edilmiştir. Test sonucu, proteinlerin daha az sayıda öznitelik ile başarım değişmeden sınıflandırılabildiğini göstermiştir. GAL ve SOM ağları kullanılırken sınıflayıcının performansını artırmak amacıyla OvO yöntemi kullanılmıştır. Bu yöntem çok sınıflı problemlerde kullanılan K-sınıflı problemi iki sınıflı probleme indirgeyen bir yöntemdir. Bir sınıf 1. sınıftaki proteinleri içerirken diğer sınıf 1. sınıf dışındaki K-1 sınıfta olan proteinleri içerir. Aynı şekilde bir sınıf 2. sınıftaki proteinleri içerirken diğer sınıf 2. sınıf dışındaki K-1 sınıfta olan proteinlerin tümünü içerir. Bu şekilde K tane 2 sınıflı sınıflandırıcı oluşturulur ve sorgulanan protein K adet sınıflayıcıda ayrı ayrı test edilir. Proteinin fold düzeyinde sınıflandırılmasına ilişkin yapılan testlerde sınıf başarımı hesaplanırken literatürde çoğunlukla kullanılan duyarlılık hesabı kullanılmıştır. Buna göre yapılan testler 27 sınıflı problem için GAL ve SOM'un literatürde kullanılan yöntemlerle karşılaştırılabileceği sonucunu ortaya çıkarmış ve proteinler yüksek bir başarımla sınıflandırılmıştır. Proteinler heliks ve tabaka olmak üzere sekonder yapıların belirli bir sırada dizilimlerinden meydana gelmektedir. Bir yapısal motif ise proteinin belirli küçük bir parçası olup daha az sayıda sekonder yapıdan meydana gelmekte ve aynı motifi içeren farklı proteinler benzer işlevler yapabilmektedirler. Tezde proteinlerin fold düzeyinde sınıflandırılmasından farklı olarak, yapısal blokların karşılaştırılması ile motif çıkarımı konusu da ele alınmıştır. Bunun için Genelleştirilmiş Hough dönüşümü tabanlı üç yöntem önerilmektedir. Genelleştirilmiş Hough dönüşümü, genellikle obje tanımada kullanılmakta ve parametre uzayında oylama işlemine dayanmaktadır. Tez kapsamında kullanılan bu yöntemde amaç, motif çıkarımı için motifin referans noktasının belirlenmesidir. Bu yöntemde motife ilişkin bazı özellikler referans tablosuna kaydedilmekte ve oy verilecek nokta veya koordinatlar referans tablosu elemanları vasıtasıyla hesaplanan özel bir haritalama kuralı uygulanarak belirlenmektedir. Genelleştirilmiş Hough dönüşümü bazlı metotlardan birincisi sekonder yapı teklilerini, ikincisi sekonder yapı ikililerini ve üçüncüsü ise sekonder yapı üçlülerini kullanmaktadırlar. Her üç metot için de motifin geometrik ortası referans noktası olarak belirlenmektedir. Burada amaç motif içindeki sekonder yapılar ile protein içindeki sekonder yapıları karşılaştırıp, oluşturulan haritalama kuralına göre oylama prosedürünü uygulamak ve en fazla oy alan noktayı aday referans noktası olarak belirlemektir. Tekli yöntemde motif içerisindeki her bir sekonder yapı için referans noktasının lokasyonu tanımlanırken, ikili ve üçlü yöntemlerde sırasıyla ikili ve üçlü sekonder yapılar için referans noktasının lokasyonu tanımlanmaktadır. Açı ve mesafe değerleri ile oluşutrulan bu tanımlama haritalama kuralını oluşturmaktadır. Tekli yöntemde haritalama kuralı protein içerisindeki her bir sekonder yapıya uygulanırken ikili ve üçlü yöntemlerde sırasıyla protein ve motif ikililerinin ve üçlülerinin eşleşmesi durumunda uygulanmaktadır. Yöntemleri test etmek amacıyla PDB'den seçilen 1FNB proteini içinden rasgele dört ve beş sekonder yapıdan oluşan iki motif seçilmiş ve her üç yöntem de test edilmiştir. Diğer bir testte PDB'den altı adet protein seçilmiş ve bunlardan üçü dört sekonder yapıdan oluşan, kalan üçü ise beş sekonder yapıdan oluşan motiflerin çıkarımı amacıyla test edilmiştir. Bu kısımda son olarak PDB'den 20 adet protein seçilmiş, bu proteinler içindeki üç, dört ve beş sekonder yapıdan oluşan olası bütün motifler test edilmiştir. Yapılan tüm bu testler, referans noktasının yüksek bir doğrulukla belirlendiğini ve motifin proteinden beklenen sayıda oy alarak çıkarıldığını göstermiştir.
Proteins are crucial molecules in biological phenomena because they form much of the functional and structural machinery in every cell in organisms and their function is determined by their spatial structures. Protein structures can be described at various levels in detail, ranging from atomic coordinates, through vector approximations, to secondary structure elements. Protein structure comparison is an important issue that helps biologists understand various aspects of protein function and evolution. It is commonly believed that the 3D fold has a major effect on the ability of a protein to bind other proteins or ligands. The similarity analysis of protein structure is therefore an important process in understanding the protein's role in the machinery of life. Comparison of protein structures is also essential for estimating the evolutionary distances between proteins and protein families. Protein fold classification is also an important problem in bioinformatics and a challenging task for machine-learning algorithms. According to convention a protein could be classified into one of four structural classes based on its secondary structure components; all-α, all-β, α/β, α + β. Structural Classification of Proteins (SCOP) provides a detailed and comprehensive description of the structural and evolutionary relationships among all proteins whose structures are known. According to SCOP four structural classes are divided into folds. Protein fold classification problem is to determine that the query protein belongs to which fold. In this thesis we deal with two problems related to proteins; protein fold classification and structural block comparison (motif retrieval). Proteins are formed by two basic regular 3D structural patterns called secondary structures; helices and strands. A structural motif is a compact 3D protein structure referring to a small specific combination, which appears in a variety of molecules. In this thesis, primarily protein fold classification problem is employed. For the classification of protein folds, neural network based three methods are used; Grow and Learn (GAL) network, Self-Organizing Maps (SOM) and Self-Organizing Maps for Structured Data (SOM-SD). For GAL and SOM primary protein structures are used, on the other hand for SOM-SD secondary protein structures are used. Firstly GAL method is used to classify the protein folds. Here, six attributes which are physicochemical features of amino acids (amino acid composition, predicted secondary structure, hydrophobicity, normalized van der Waals volume, polarity and polarizability) are used as features. A number of proteins are selected from Protein Data Bank (PDB). Then, 27-class protein fold classification problem is tried to be solved with this method. To increase the success rate one-versus-others (OvO) prediction method is used. Secondly SOM is used to classify the protein folds. Features and proteins in the previous method are used also in here. As in the previous method, OvO method is applied for performance evaluation. Thirdly SOM-SD method is used for protein fold classification. While using SOM-SD, Protein Gaussian Image (PGI) representation of proteins is used as feature. PGI is a representation in the Gaussian sphere in which each secondary structure is mapped with a unit vector from the origin of the sphere having the orientation of the secondary structures. The chain sequence of secondary structures is recorded as a list which is mapped on the sphere surface. To test this method the dataset including three folds with 45 proteins (15 proteins in each fold) from PDB is used. To determine the effectiveness of the attributes some tests were made using GAL. Firstly, only C (amino acid composition) attribute was used to be contained in the feature vectors. Then S (predicted secondary structure) attribute was appended to C, so C+S was used to be the elements of the feature vectors, progressively in the last set all six attributes were used and tested by using GAL. The test results showed that the most important attribute is the amino acid composition. This attribute has a good performance even tested alone. Besides in here, for reducing dimension of the feature vector without changing success rate divergence analysis was applied. This analysis calculates divergence values of the features and put them in order according to their importance. After this analysis the most significant 30, 40, 50 and 60 features were determined and they were tested with GAL. The results related to protein fold classification problem showed that proteins are classified according to their folds with a good precision and the results are comparable to the existing methods in the literature. In this thesis after protein fold classification problem, motif retrieval problem is handled. Here, a particular motif is retrieved from a particular protein using structural block comparison. To do this, three methods based on Generalized Hough Transform (GHT) are used. The first method uses single secondary structure, the second one uses secondary structure couple co-occurrences and the third one uses secondary structure triplets. For all three methods the barycenter (geometric mean) of the motif is assigned as Reference Point (RP) and in order to determine this point a mapping rule is figured out. Then, voting process is applied and the point having maximum number of votes is assigned as the candidate RP. For the test, a few proteins selected from PDB are used and the test results showed that the RP is determined with a good precision and the motif is retrieved from the protein with expected number of votes.