Tez No İndirme Tez Künye Durumu
495307
Splice site prediction using machine learning / Makine öğrenmesi kullanarak uçbirleştirme yeri tahmini
Yazar:ELHAM PASHAEI
Danışman: PROF. DR. NİZAMETTİN AYDIN
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology
Dizin:
Onaylandı
Doktora
İngilizce
2017
86 s.
Son on yılda DNA dizileri miktarında ki olağanüstü artış nedeniyle, genlerin doğru tespit edilmesi için yeni yöntemlerin geliştirilmesi hayati önem taşımaktadır. Bu yöntemlerin başarısı, uçbirleştirme bölgelerinin kesin olarak tanımlanmasına bağlıdır. Ökaryotik genomlarda, her gen eksonlar ve intronlardan oluşur. DNA transkripsiyonunda, sadece protein kopyalarını içeren genin ekzonları mRNA'lara aktarılır. Uçbirleştirme terimi, ekson ve intron arasındaki sınırı belirtir. Konsensüs dinükleotit AG ile yapılan intron-ekson birleşimine, alıcı uçbirleştirme bölgesi denirken, verici uçbirleştirme yeri, konsensüs dinükleotit GT ile ekson-intron birleşme noktasını belirtir. DNA dizisinde uçbirleştirme öngörüsü, verici ve alıcı sınırlarını bulmak için bir arama problemidir. Uçbirleştirme yeri tespiti için çok sayıda makine öğrenmesi yöntemi kullanılmıştır. Bu yöntemlerin performansları, DNA dizilerinden bilgilendirici özellikler çıkarmaya çalışan DNA kodlama yaklaşımlarına büyük ölçüde bağlıdır. AdaBoost sınıflandırıcısını kullanarak, uçbirleştirme alanlarının etrafında desen belirlemede zaten başarılı olduklarını kanıtlamış birkaç yaklaşımı birleştirerek özellik çıkarımı için üç yeni DNA kodlama yöntemi önerdik. Önerilen yaklaşımlar, çeşitli performans kriterlerine dayanan mevcut en gelişmiş 11 algoritmadan çok daha iyi bir performans sağlamıştır. Ayrıca, https://pashaei.shinyapps.io/hssada adresinde erişilebilen, önerilen yaklaşım temelli bir çevrimiçi tahmin sunucusu (HSSAda) geliştirdik. HSSAda aracı, bağımsız test setini kullanan NNplice, WMM, MM1 ve MEM gibi mevcut araçlar ile karşılaştırıldığında daha yüksek doğruluk elde etmiştir. Önerilen yöntemlerin, ökaryotik genlerin yerini ve yapısını keşfetmelerinde, tahminlerinin doğruluğunun ve basitliğinin yüksek olması nedeniyle yararlı olabileceği düşünülmektedir. Ayrıca, RF'nin uçbirleştirme yeri tahmin alanındaki sınıflandırma ve özellik seçimi yöntemi olarak performansını değerlendirdik. Bu araştırmada, Markov kodlama yöntemleri kullanan RF'nin uçbirleştirme tespitinde, en başarılı sınıflandırma yaklaşımı olan SVM'den üstün olup olmadığını sorusu yanıtlanmaya çalışılmıştır. Son olarak, uçbirleştirme yeri tespiti için SVM ve ikinci dereceden Markov modelini kullanan başka bir DNA kodlama yöntemi önerdik.
Due to an explosion in the quantity of DNA sequences over the past decades, development of new methods to accurately detect the genes is vital. The success of these methods strongly depends on precise identification of the splice sites. In eukaryotic genomes, each gene is composed of exons and introns. During DNA transcription only exons of the gene, which contain codes for proteins are transcribed into mRNAs. The term splice site refers to the boundary between exon and intron. While the intron-exon junction with consensus dinucleotide AG is called acceptor splice site, donor splice site refers to an exon-intron junction with consensus dinucleotide GT. In DNA sequence, splice site prediction is a search problem for finding donor and acceptor boundaries. Numerous Machine Learning methods have been used for splice sites identification. Performances of these methods highly depend on the DNA encoding approaches, which try to extract informative features from DNA sequences. Using AdaBoost classifier, we have proposed three new DNA encoding methods for feature extraction by combining several approaches that have already proven successful in determining pattern around splice sites. the proposed approaches provided significantly better performance than eleven current state-of-the-art algorithms based on several performance criteria. We also have developed an online prediction server (HSSAda) based on proposed approach, which is freely available at https://pashaei.shinyapps.io/hssada. The HSSAda tool achieved higher accuracy while compared with the existing tools like NNplice, WMM, MM1, and MEM, using the independent test set. It is believed the proposed methods can be helpful in discovering location and structure of eukaryotic genes due to their high prediction accuracy and simplicity. We also assessed the performance of RF as classification and feature selection method in splice site prediction domain. The investigation tried to answer the question whether RF outperforms SVM, which is the most outstanding classification approach in splice site detection, using Markovian encoding methods or not. Finally, we proposed another DNA encoding method using SVM and second order Markov model for splice site detection.