Tez No İndirme Tez Künye Durumu
756993
Detection of remote homology in proteins by machine learning algorithms / Uzak homolog proteinlerin makine öğrenme algoritmaları kullanılarak tespiti
Yazar:FAHRİYE GEMCİ
Danışman: PROF. DR. ULUS ÇEVİK ; PROF. DR. TURGAY İBRİKÇİ
Yer Bilgisi: Çukurova Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı / Yönetimde Muhasebe ve Finansal Kontrol Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2022
136 s.
Bu tezin konusu, biyoinformatik alanında önemli bir problem olan uzaktan homolog protein tespitini doğru bir şekilde gerçekleştiren bir makine öğrenmesi algoritması uygulaması geliştirmektir. Uzak homolog proteinlerin keşfi, yapısı bilinmeyen proteinleri keşfetmekte faydalı olduğu için önemlidir. Bu tezde, farklı uzunluktaki protein dizileri problemi, kelime çantası modeli gibi doğal dil işleme yöntemleri kullanılarak çözülmüştür. Bu tez çalışmasının performansları, protein özellikleri olarak farklı uzunluklarda motifler uygulanarak ölçülmüştür. Bu tezde yeni bir uygulama, dengesiz veri sorununa çözüm sunmaktadır. Çeşitli uzaklık yöntemleri ile k-split ile bir KNN yöntemi olan bu yeni uygulama, diğer çalışmalarla rekabet edebilecek niteliktedir. Uzak homolog proteinler, küçük dizi benzerliklerine dayandıkları için çözülmesi zor bir problemdir. Tezde, n-gram üzerinden hesaplanan TF-IDF öznitelik vektörlerini yumuşatma işlemleri ile dengeleyen yeni bir derin sinir ağı ile eğiten yeni bir uygulama daha gerçekleştirilmiştir. Bu yeni uygulama, derin öğrenme algoritmalarının gücünü göstermektedir. Bu yeni uygulama iyi bir performans ile dengesiz veri seti probleminin üstesinden gelmektedir.
The subject of this thesis is to develop a machine learning algorithm application that accurately performs remote homologous protein detection, which is an important problem in the field of bioinformatics. The discovery of remote homolog proteins is important because it is beneficial to discover the structure of unknown proteins. In the thesis, the problem of different lengths of protein sequences is solved by using natural language processing methods such as the bag of words model. The performances were measured by applying motifs of different lengths as protein features. A new application in this thesis provides a solution to the unbalanced data problem. This application, which is a KNN method with k-split with various distance methods, is a competitive study. Remote homologous proteins are a difficult problem to solve because they rely on small sequence similarities. In the thesis, another new application that trains with a new deep neural network that balances TF-IDF feature vectors calculated over n-grams with smoothing operations is carried out. The new application demonstrates the power of deep learning algorithms. The new application achieves better performance and overcomes the unbalanced data set.