Tez No İndirme Tez Künye Durumu
734683
Protein/amino asit dizilimlerinin yapay zeka ile değerlendirilmesinde yeni yaklaşımların geliştirilmesi / Development of new approaches to evaluate protein/amino acid sequences with artificial intelligence
Yazar:TALHA BURAK ALAKUŞ
Danışman: PROF. DR. İBRAHİM TÜRKOĞLU
Yer Bilgisi: Fırat Üniversitesi / Fen Bilimleri Enstitüsü / Yazılım Mühendisliği Ana Bilim Dalı / Yazılım Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyoistatistik = Biostatistics
Dizin:Biyoinformatik = Bioinformatics ; Derin öğrenme = Deep learning ; Entropi = Entropy ; Protein analizleri = Protein analysis ; Sayısallaştırma = Digitization ; Yapay zeka = Artificial intelligence
Onaylandı
Doktora
Türkçe
2022
168 s.
Biyoenformatik alanında protein veya amino asit üzerine gerçekleştirilen çalışmalar ve araştırmalar, proteinlerin yapılarının anlaşılabilmesi ve proteinlerin hücresel aktivitelerdeki rollerinin belirlenmesi açısından büyük bir önem arz etmektedir. Yapılan araştırmalar incelendiğinde, protein fonksiyonlarının belirlenmesi, proteinler arasındaki etkileşimlerin tahmin edilmesi, protein ikincil yapılarının bulunması, protein ailelerinin sınıflandırılması, kodlayan ve kodlamayan mRNA'ların belirlenmesi, viral-konak etkileşimlerinin tahmin edilmesi ve ilaç-hedef etkileşimlerinin tespit edilmesi ile ilgili çalışmaların aktif bir şekilde yürütüldüğü gözlemlenmiştir. Tez çalışmasında, söz konusu araştırma alanlarına yönelik yapay zeka tabanlı yeni analiz yaklaşımları geliştirilmiştir. Bu çerçevede, protein dizilimlerini sayısallaştırmak için algoritmik-tabanlı yeni bir kategorisel yaklaşım geliştirilmiştir. Algoritmik-tabanlı yaklaşım kapsamında, üç farklı protein sayısallaştırma yöntemi önerilmiştir. Bu doğrultuda, önerilen protein dizilimlerini sayısallaştırma yöntemleri: • Protein dizilimlerini sayısallaştırmak için AVL ağacı tabanlı protein sayısallaştırma yöntemi önerilmiş ve bu yöntemin başarımı COVID-19 hastalığına neden olan SARS-CoV-2 virüsünün proteinleri arasındaki etkileşimleri üzerinde test edilmiştir. Bu yöntem, içeriğinde bulunan ikili arama ağaç yapısı nedeniyle algoritmik-tabanlı kategoride değerlendirilmiştir. • Entropi hesaplamasına dayanan protein sayısallaştırma yöntemi önerilmiş ve viral genomlar üzerindeki protein-protein etkileşimlerini belirlemek için kullanılmıştır. Bu yöntemde ise Shannon entropisi kullanılması nedeniyle algoritmik-tabanlı kategoride değerlendirilmiştir. • Hem Fibonacci sayılarını hem de hash tablosunu içeren (FIBHASH) protein sayısallaştırma yöntemi önerilmiş ve bu yöntemin başarımı, protein ailelerini belirlemek için değerlendirilmiştir. Bu yöntem, Fibonacci sayılarını ve hash tablosunu içeren hibrit bir yöntemdir. Hash tablosu veri yapıları ve algoritma analizinde sıklıkla kullanıldığı için, FIBHASH yöntemi algoritmik-tabanlı yöntem olarak değerlendirilmiştir. • Önerilen protein sayısallaştırma yöntemleri SARS-CoV-2 virüsü ve konak hücreleri arasındaki etkileşimleri tahmin etmek için kullanılmış ve hem önerilen protein sayısallaştırma yöntemlerinin hem de literatürde en çok kullanılan yöntemlerin karşılaştırılması yapılmıştır. Önerilen protein sayısallaştırma yöntemleriyle elde edilen yapay zekâ değerlendirme başarımları, protein analizi alanlarında yapılacak olan yeni çalışmalar için ümit verici olmuştur.
Studies and research on protein or amino acids in the field of bioinformatics are of great importance in terms of understanding the structures of proteins and determining the roles of proteins in cellular activities. When the researches are examined, it is observed that studies related to determining protein functions, predicting interactions between proteins, finding protein secondary structures, classifying protein families, identifying coding and non-coding mRNAs, predicting viral-host interactions and detecting drug-target interactions have been actively conducted. In the thesis, new artificial intelligence-based analysis approaches have been developed for these research areas. In this framework, a new algorithmic-based categorical approach has been developed to map protein sequences. As part of the algorithmic-based approach, three different protein mapping methods have been proposed. Accordingly, the proposed methods of quantifying protein sequences are: • An AVL-based protein mapping method has been proposed to convert protein sequences, and the success of this method has been tested on interactions between proteins of the SARS-CoV-2 virus that causes COVID-19 disease. This method has been evaluated in the algorithmic-based category due to the binary search tree structure it contains. • In another study, entropy-based protein mapping method has been proposed and used to identify protein-protein interactions on viral genomes. Since Shannon entropy is used in this method, it is evaluated in the algorithmic-based category. • Another protein mapping method (FIBHASH), which includes both Fibonacci numbers and hash tables, has been developed and the performance of this method has been evaluated in determining protein families. This method is a hybrid method that includes Fibonacci numbers and hash table. Since the hash table is frequently used in data structures and algorithm analysis, the FIBHASH method is considered an algorithmic-based method. • The proposed protein mapping methods were used to predict the interactions between SARS-CoV-2 virus and host cells, and both the proposed protein mapping methods and the state of art methods in the literature were compared. The successes of artificial intelligence obtained with the proposed protein mapping methods have been promising for new studies in the fields of protein analysis.