Tez No İndirme Tez Künye Durumu
607219
Kümelenmiş protein dizileri kullanarak yapısal özellik tahmini yapan yöntemlere özellik vektörü tasarlamak / Designing feature vector for methods which predict protein structure by using clustered protein sequences
Yazar:SEMA ATASEVER
Danışman: PROF. DR. HASAN ERBAY ; DR. ÖĞR. ÜYESİ ZAFER AYDIN
Yer Bilgisi: Kırıkkale Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
72 s.
Protein yapıları ve fonksiyonları için her yıl büyük miktarlarda veri üretilmektedir. Elde edilen bu bilgilerin oluşturduğu protein veri tabanları modern biyolojinin önemli bir parçasıdır. Boyutları sürekli olarak artan bu büyük boyutlu veri tabanları ile Destek Vektör Makinesi (SVM) eğitimi karesel optimizasyon nedeniyle uzun zaman almaktadır. Bu problem durumu ile başa çıkabilmek için bu tez çalışmasında, tahmin başarısını azaltmadan mümkün olduğunca eğitim veri kümesini azaltarak eğitim sürecini kısaltmaya yarayacak yöntemler denenmiştir. Çalışmamızda, eğitilerek optimize edilen Dinamik Bayes Ağı (DBN) ve SVM kullanan iki aşamalı hibrit bir sınıflandırıcının (DSPRED), protein ikincil yapı tahmini için gelişmiş tahmin doğruluğu sağladığı gösterilmiştir. SVM eğitiminde kullanılacak olan veri kümesindeki örnek sayısını azaltmak için 7 kat çapraz doğrulama uygulanmış CB513 veri kümesi üzerinde iki farklı yöntem denenmiştir. Tabakalı örnekleme seçim stratejisinin kullanıldığı ilk yöntemde, eğitim veri kümesinden değişen oranlarda rastgele ve eşsiz veri örnekleri seçilmiştir. Sonuç olarak veri örneklerinin %50'si atılsa bile doğruluk oranını önemli ölçüde azaltmadan, model eğitim süresinde ortalama %73,38'lik bir iyileşme söz konusu olmuştur. İkinci yöntem, eğitim süresinin iyileştirilmesi amacıyla, veri örneklerini hiyerarşik bir kümeleme algoritması ile sınıflandırarak eğitim veri kümesindeki örnekleri küme merkezine en yakın komşularıyla değiştirmektedir. Öznitelik vektörlerini kümelemek için, validasyon setindeki tahmin doğruluğunu hesaplayarak, küme sayısı ve en yakın komşu sayısı gibi hiper parametrelerin optimize edildiği hiyerarşik kümeleme yöntemi uygulanmıştır. Sonuç olarak, ikinci yöntemde tahmin doğruluğunu azaltmadan eğitim veri kümesinin %26 oranında azaltılabileceği sonucu elde edilmiştir. Kullanılan hiyerarşik kümeleme teknikleri arasında ward yönteminin en iyi kümeleme sonucunu sağladığı gözlenmiştir.
Large amounts of data regarding protein structures and functions are being produced each year, and the protein databases gathered through these data form an important part of modern biology. Support vector machine training with these large-sized databases, which are constantly increasing in size, takes a long time due to quadratic optimization. In order to cope with this problem, the methods which would be helpful to shorten the training time were used by reducing the educational dataset as much as possible without reducing the accuracy of the prediction. In our study, it was revealed that a two-stage hybrid classifier using a trained and optimized Dynamic Bayesian Network (DBN) and a Support Vector Machine (SVM) provided improved prediction accuracy for protein secondary structure prediction. In order to reduce the number of samples in the dataset to be used in support vector machine training, two different methods were tested on CB513 dataset with 7-fold cross validation. In the first method stratified sampling strategy was used, and unique samples were selected randomly and in varying ratios from the training dataset. As a result, in the case of discarding 50% of data samples, there was approximately 73.38% improvement in model training time without a significant reduction in accuracy. The second method classifies the data samples through a hierarchical clustering algorithm in order to improve the training time and replaces the samples in the training dataset with the neighbors closest to the cluster center. For clustering feature vectors, the hierarchical clustering method, which requires the optimization of hyper parameters like number of clusters and number of nearest neighbors by calculating the accuracy of prediction in the validation set, was employed. With regard to the second method the results indicated that the training dataset could be decreased by 26% without reducing the accuracy of prediction. Among the hierarchical clustering techniques used, it was observed that the ward method provided the best clustering result.