Proteinler canlı hayatındaki en temel biyolojik birimlerdir ve canlı vücudundaki bütün
biyolojik işlevler proteinler tarafından gerçekleştirilir. Moleküler biyoloji ve genetik
alanında yapılan çalışmalar sonucunda çoğu hastalığın protein yapısındaki kusur,
hasar ve değişiklikten kaynaklandığı ortaya çıkarılmıştır. Proteinlerin fonksiyonları
onların yapıları tarafından belirlenmektedir. Bu nedenle proteinlerin yapı analizi,
protein yapılarının karşılaştırılması, benzer yapıların belirlenmesi, motif çıkarımı ve
proteinlerin sınıflandırılması moleküler biyoloji açısından önemlidir.
Proteinler, amino asitlerin belirli türde, belirli sayıda ve belirli diziliş sırasında karakteristik
düz zincirde birbirlerine kovalent bağlanmasıyla oluşmuş polipeptidlerdir. Her
proteinin kendisine has özelliklerinin olmasını sağlayan özel amino asit dizilimleri
vardır. Protein yapısı, primer, sekonder, tersiyer ve kuaterner olmak üzere dört
ayrı şekilde incelenebilir. Tezde proteinin fold düzeyinde sınıflandırılması ve motif
çıkarımı olmak üzere iki konu ele alınmıştır. Bu konulara ilişkin çalışmalar yapılırken
proteinin primer ve sekonder yapılarına ilişkin öznitelikler kullanılmıştır.
Polipeptidin düzenli katlanmalar yapması sekonder yapıyı oluşturmaktadır. Yaygın
olarak iki tip sekonder yapı vardır: α-heliks ve β-tabaka. Proteinler sekonder yapı
bileşenlerine göre dört ana gruba ayrılmaktadır; all-α, all-β, α/β, α+β. SCOP'a
göre bu dört ana sınıf kendi içinde foldlara ayrılırlar. Foldlar sekonder yapıların
belirli bir düzene göre katlanmalarından meydana gelen üç boyutlu şekillerdir.
Proteinlerin fonksiyonları onların yapıları tarafından belirlendiğinden, aynı yapıya
sahip proteinlerin belirlenmesi yani proteinlerin fold seviyesinde sınıflandırılması
moleküler biyolojinin önemli çalışmalarından biridir. Proteinlerin fold seviyesinde
sınıflandırılması problemi sorgulanan proteinin hangi folda ait olduğunu belirlemektir.
Tezde öncelikle proteinlerin fold seviyesinde sınıflandırılması problemi ele alınmakta
ve sınıflandırma için yapay sinir ağlarının alt modellerinden olan GAL, SOM ve
SOM-SD kullanılmaktadır. GAL ve SOM için primer yapılara ilişkin öznitelikler
kullanılırken, SOM-SD için sekonder yapılara ilişkin öznitelikler kullanılmıştır.
Proteinlerin fold düzeyinde sınıflandırılması amacı ile kullanılan ilk yöntem büyü
ve öğren (GAL) ağıdır. Büyü ve öğren ağında sınıf sınırları en yakın mesafe
ölçüsüne göre belirlenmektedir. Giriş vektörü ile ağdaki tüm vektörler arasındaki
mesafe hesaplanır. Giriş vektörünün sınıfı, bu vektöre en yakın mesafedeki ağ
düğümünün sınıfı olarak belirlenir. Ağın düğüm sayısı eğitim sırasında otomatik
olarak belirlenir. Ağın eğitimi öğrenme ve unutma algoritması olarak iki algoritma
tarafından gerçekleştirilir. Öğrenme algoritmasında ağa düğüm eklenirken unutma
algoritmasında ağın performansını düşürmeyecek olan gereksiz düğümler ağdan
çıkarılırlar. Kalan düğümler ile de yeni girişler test edilir. Bu yöntem ile yapılan
testlerde eğitim kümesi için 311 test kümesi için 383 olmak üzere protein veri bankasından (PDB) alınan 694 protein kullanılmıştır. Kullanılan öznitelik vektörü 125
boyutludur ve amino asitlere ilişkin fizyokimyasal özellikleri belirtmektedir. Altı adet
öznitelik kullanılmıştır: Amino asit kompozisyonu (20D), tahmin edilen sekonder yapı
(21D), hidrofobisite (21D), normalize van der Waals hacmi (21D), polarite (21D) ve
polarizebilite (21D). Bu öznitelikler ve GAL ağı kullanılarak 27-sınıflı proteinin fold
seviyesinde sınıflandırılması problemi ele alınmıştır.
Ikinci olarak proteinlerin sınıflandırılması amacı ile SOM ağı (Kohonen ağı)
kullanılmıştır. SOM danışmansız bir yapay sinir ağıdır, yarışmacı öğrenme
algoritmasını kullanır. Bu yöntemde ağın nöronları aktif edilmek için aralarında
yarışırlar ve sonuçta yalnızca bir nöron yarışı kazanır. Buradaki temel hedef
herhangi bir boyuttaki giriş sinyal desenini iki boyutlu bir haritaya adaptif bir şekilde
dönüştürmektir. Sonrasında ise ağa giriş olarak verilen sorgu proteinlerinin sınıfını
belirlemektir. Bu yöntemde yapılan testlerde önce üç sınıflı problem sonrasında
bir önceki yöntemde olduğu gibi 27-sınıflı problem ele alınmış ve aynı veri kümesi
kullanılmıştır.
Proteinin fold düzeyinde sınıflandırılması amacıyla kullanılan üçüncü yöntem
SOM-SD'dir. SOM'dan kullandığı veri yapısı nedeniyle farklıdır. SOM-SD girişinde
veri olarak grafları kullanan bir yapay sinir ağı modelidir. Bu yöntemde veri yapısı
olarak proteinlerin PGI gösterimi kullanılmıştır. PGI, EGI'nın (Extended Gaussian
Image) proteinler üzerine uygulanmış halidir. Protein içindeki sekonder yapılar
Gauss küresi üzerine, başlangıç noktaları küre merkezine bitiş noktaları küre yüzeyine
gelecek şekilde yerleştirilirler. Burada küre yüzeyindeki sekonder yapıların bulunduğu
noktalar o sekonder yapının oryantasyon bilgisini içermektedir. Sekonder yapıların
zincir sırası küre yüzeyine haritalanan bir liste olarak kaydedilir. PGI gösterimi
küre yüzeyindeki noktaların sekonder yapıların sırasına uygun olarak birleştirilmiş
halidir. Burada proteinlerin içerisindeki sekonder yapı sayıları farklı olduğundan
dolayı ağa giriş verilerinin uzunluğu da farklı olacaktır. SOM-SD ile bu problem
ortadan kaldırılmakta ve her bir giriş verisinin uzunluğu eşitlenmektedir. Bu metot
PDB'den seçilen üç folda ilişkin 45 protein (her foldda 15 protein) üzerinde test edilmiş
ve üç sınıflı, proteinlerin fold düzeyinde sınıflandırılması problemi ele alınmıştır.
Tezde ayrıca yukarıda bahsedilen altı öznitelikten hangisinin sınıflandırmada daha
baskın olduğunu belirlemek amacıyla testler yapılmıştır. Testler yapılırken daha
iyi başarım vermesinden dolayı GAL ağı kullanılmıştır. Öncelikle amino asit
kompozisyonu tek başına GAL ağı ile test edilmiş ve sınıflandırma başarımı
hesaplanmıştır. Sonrasında amino asit kompozisyonuna ek olarak tahmin edilen
sekonder yapı da öznitelik vektörüne eklenmiş ve sınıflandırma başarımı test
edilmiştir. Öznitelikler bu şekilde sırasıyla birbirine eklenmiş ve son aşamada
altı özniteliğin hepsi kullanılarak sınıflayıcı test edilimiştir. Test sonuçlarına göre
proteinlerin sınıflandırılmasında amino asit kompozisyonunun diğerlerine göre daha
etkili olduğu ve tek başına bile proteinleri, literatürdekilerle karşılaştırılabilecek
düzeyde sınıflandırdığı ortaya çıkarılmıştır.
Tez kapsamında, kullanılan öznitelik vektörünün boyutunu sınıflayıcının performansını
değiştirmeden azaltmak amacıyla diverjans analizi kullanılmıştır. Diverjans
analizi iki veya daha fazla sınıfın söz konusu olduğu problemlerde kullanılan tüm
özniteliklerin arasından istenen sayıda, performansı azaltmayan en iyi özniteliklerin
seçilmesi amacıyla uygulanır. Diverjans hesaplamada sınıf içi saçılım ve sınıflar
arası saçılım, sınıfları ayırma kriteri olarak kullanılmaktadır. Tezde kullanılan veriye diverjans analizi uygulanmış ve GAL ağı ile test edilmiştir. Test sonucu, proteinlerin daha az sayıda öznitelik ile başarım değişmeden sınıflandırılabildiğini göstermiştir.
GAL ve SOM ağları kullanılırken sınıflayıcının performansını artırmak amacıyla
OvO yöntemi kullanılmıştır. Bu yöntem çok sınıflı problemlerde kullanılan K-sınıflı
problemi iki sınıflı probleme indirgeyen bir yöntemdir. Bir sınıf 1. sınıftaki proteinleri
içerirken diğer sınıf 1. sınıf dışındaki K-1 sınıfta olan proteinleri içerir. Aynı şekilde
bir sınıf 2. sınıftaki proteinleri içerirken diğer sınıf 2. sınıf dışındaki K-1 sınıfta
olan proteinlerin tümünü içerir. Bu şekilde K tane 2 sınıflı sınıflandırıcı oluşturulur
ve sorgulanan protein K adet sınıflayıcıda ayrı ayrı test edilir.
Proteinin fold düzeyinde sınıflandırılmasına ilişkin yapılan testlerde sınıf başarımı
hesaplanırken literatürde çoğunlukla kullanılan duyarlılık hesabı kullanılmıştır. Buna
göre yapılan testler 27 sınıflı problem için GAL ve SOM'un literatürde kullanılan
yöntemlerle karşılaştırılabileceği sonucunu ortaya çıkarmış ve proteinler yüksek bir
başarımla sınıflandırılmıştır.
Proteinler heliks ve tabaka olmak üzere sekonder yapıların belirli bir sırada
dizilimlerinden meydana gelmektedir. Bir yapısal motif ise proteinin belirli küçük
bir parçası olup daha az sayıda sekonder yapıdan meydana gelmekte ve aynı
motifi içeren farklı proteinler benzer işlevler yapabilmektedirler. Tezde proteinlerin
fold düzeyinde sınıflandırılmasından farklı olarak, yapısal blokların karşılaştırılması
ile motif çıkarımı konusu da ele alınmıştır. Bunun için Genelleştirilmiş Hough
dönüşümü tabanlı üç yöntem önerilmektedir. Genelleştirilmiş Hough dönüşümü,
genellikle obje tanımada kullanılmakta ve parametre uzayında oylama işlemine
dayanmaktadır. Tez kapsamında kullanılan bu yöntemde amaç, motif çıkarımı için
motifin referans noktasının belirlenmesidir. Bu yöntemde motife ilişkin bazı özellikler
referans tablosuna kaydedilmekte ve oy verilecek nokta veya koordinatlar referans
tablosu elemanları vasıtasıyla hesaplanan özel bir haritalama kuralı uygulanarak
belirlenmektedir. Genelleştirilmiş Hough dönüşümü bazlı metotlardan birincisi
sekonder yapı teklilerini, ikincisi sekonder yapı ikililerini ve üçüncüsü ise sekonder
yapı üçlülerini kullanmaktadırlar. Her üç metot için de motifin geometrik ortası
referans noktası olarak belirlenmektedir. Burada amaç motif içindeki sekonder yapılar
ile protein içindeki sekonder yapıları karşılaştırıp, oluşturulan haritalama kuralına göre
oylama prosedürünü uygulamak ve en fazla oy alan noktayı aday referans noktası
olarak belirlemektir. Tekli yöntemde motif içerisindeki her bir sekonder yapı için
referans noktasının lokasyonu tanımlanırken, ikili ve üçlü yöntemlerde sırasıyla ikili
ve üçlü sekonder yapılar için referans noktasının lokasyonu tanımlanmaktadır. Açı
ve mesafe değerleri ile oluşutrulan bu tanımlama haritalama kuralını oluşturmaktadır.
Tekli yöntemde haritalama kuralı protein içerisindeki her bir sekonder yapıya
uygulanırken ikili ve üçlü yöntemlerde sırasıyla protein ve motif ikililerinin ve
üçlülerinin eşleşmesi durumunda uygulanmaktadır. Yöntemleri test etmek amacıyla
PDB'den seçilen 1FNB proteini içinden rasgele dört ve beş sekonder yapıdan oluşan
iki motif seçilmiş ve her üç yöntem de test edilmiştir. Diğer bir testte PDB'den
altı adet protein seçilmiş ve bunlardan üçü dört sekonder yapıdan oluşan, kalan üçü
ise beş sekonder yapıdan oluşan motiflerin çıkarımı amacıyla test edilmiştir. Bu
kısımda son olarak PDB'den 20 adet protein seçilmiş, bu proteinler içindeki üç, dört
ve beş sekonder yapıdan oluşan olası bütün motifler test edilmiştir. Yapılan tüm bu
testler, referans noktasının yüksek bir doğrulukla belirlendiğini ve motifin proteinden
beklenen sayıda oy alarak çıkarıldığını göstermiştir.
|
Proteins are crucial molecules in biological phenomena because they form much of
the functional and structural machinery in every cell in organisms and their function
is determined by their spatial structures. Protein structures can be described at various
levels in detail, ranging from atomic coordinates, through vector approximations, to
secondary structure elements. Protein structure comparison is an important issue that
helps biologists understand various aspects of protein function and evolution. It is
commonly believed that the 3D fold has a major effect on the ability of a protein
to bind other proteins or ligands. The similarity analysis of protein structure is
therefore an important process in understanding the protein's role in the machinery of
life. Comparison of protein structures is also essential for estimating the evolutionary
distances between proteins and protein families. Protein fold classification is also
an important problem in bioinformatics and a challenging task for machine-learning
algorithms. According to convention a protein could be classified into one of four
structural classes based on its secondary structure components; all-α, all-β, α/β, α +
β. Structural Classification of Proteins (SCOP) provides a detailed and comprehensive
description of the structural and evolutionary relationships among all proteins whose
structures are known. According to SCOP four structural classes are divided into folds.
Protein fold classification problem is to determine that the query protein belongs to
which fold. In this thesis we deal with two problems related to proteins; protein fold
classification and structural block comparison (motif retrieval).
Proteins are formed by two basic regular 3D structural patterns called secondary
structures; helices and strands. A structural motif is a compact 3D protein structure
referring to a small specific combination, which appears in a variety of molecules.
In this thesis, primarily protein fold classification problem is employed. For the
classification of protein folds, neural network based three methods are used; Grow and
Learn (GAL) network, Self-Organizing Maps (SOM) and Self-Organizing Maps for
Structured Data (SOM-SD). For GAL and SOM primary protein structures are used,
on the other hand for SOM-SD secondary protein structures are used.
Firstly GAL method is used to classify the protein folds. Here, six attributes which
are physicochemical features of amino acids (amino acid composition, predicted
secondary structure, hydrophobicity, normalized van der Waals volume, polarity and
polarizability) are used as features. A number of proteins are selected from Protein
Data Bank (PDB). Then, 27-class protein fold classification problem is tried to be
solved with this method. To increase the success rate one-versus-others (OvO)
prediction method is used. Secondly SOM is used to classify the protein folds.
Features and proteins in the previous method are used also in here. As in the previous method, OvO method is applied for performance evaluation. Thirdly SOM-SD method is used for protein fold classification. While using SOM-SD, Protein Gaussian Image (PGI) representation of proteins is used as feature. PGI is a representation in the
Gaussian sphere in which each secondary structure is mapped with a unit vector from
the origin of the sphere having the orientation of the secondary structures. The chain
sequence of secondary structures is recorded as a list which is mapped on the sphere
surface. To test this method the dataset including three folds with 45 proteins (15
proteins in each fold) from PDB is used.
To determine the effectiveness of the attributes some tests were made using GAL.
Firstly, only C (amino acid composition) attribute was used to be contained in the
feature vectors. Then S (predicted secondary structure) attribute was appended to C,
so C+S was used to be the elements of the feature vectors, progressively in the last
set all six attributes were used and tested by using GAL. The test results showed that
the most important attribute is the amino acid composition. This attribute has a good
performance even tested alone.
Besides in here, for reducing dimension of the feature vector without changing success
rate divergence analysis was applied. This analysis calculates divergence values of the
features and put them in order according to their importance. After this analysis the
most significant 30, 40, 50 and 60 features were determined and they were tested with
GAL. The results related to protein fold classification problem showed that proteins are
classified according to their folds with a good precision and the results are comparable
to the existing methods in the literature.
In this thesis after protein fold classification problem, motif retrieval problem is handled. Here, a particular motif is retrieved from a particular protein using
structural block comparison. To do this, three methods based on Generalized Hough
Transform (GHT) are used. The first method uses single secondary structure, the
second one uses secondary structure couple co-occurrences and the third one uses
secondary structure triplets. For all three methods the barycenter (geometric mean)
of the motif is assigned as Reference Point (RP) and in order to determine this point
a mapping rule is figured out. Then, voting process is applied and the point having
maximum number of votes is assigned as the candidate RP. For the test, a few proteins
selected from PDB are used and the test results showed that the RP is determined with
a good precision and the motif is retrieved from the protein with expected number of votes. |