Tez No İndirme Tez Künye Durumu
753587
Bitki transkripsiyon faktörlerinin hibrit derin öğrenme ile sınıflandırılması / Classification of plant transcription factors by hybrid deep learning
Yazar:ALİ BURAK ÖNCÜL
Danışman: DR. ÖĞR. ÜYESİ YÜKSEL ÇELİK
Yer Bilgisi: Karabük Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:CNN = CNN ; Derin öğrenme = Deep learning ; Hibrit model = Hybrid model ; Uzun kısa süreli bellek = Long- short term memory
Onaylandı
Doktora
Türkçe
2022
150 s.
Amino asit dizileri, protein yapısı ve amino asitlerin ilişkileri üzerine yapılan çalışmalar biyolojide hala büyük ve zorlu bir problemdir. Bu problemlerin çözümünde biyoinformatik çalışmalar ilerlemiş olsa da amino asitler arasındaki ilişki ve amino asitlerin oluşturduğu protein türünün belirlenmesi hala tam olarak çözülememiş bir problemdir. Proteinlerin kimliğini oluşturan motifler, aynı protein türünde dahi farklı farklı dizilişlere sahiptir ve bu yapı biyolojik olarak tespit edilebilmektedir. Bu sorun, mevcut protein dizilerinden bazılarının kullanımının da sınırlı olmasının nedenidir. Çünkü tür ve aile gibi çeşitli nitelikleri belirlemek için yapılan bu biyolojik deneyler maliyetli ve zaman alıcıdır. Bunun için de bu çalışmada proteinlerin türlerini belirlemek amacıyla hibrit bir derin öğrenme modeli tasarlanmış ve gerçeklenmiştir. Hazırlanan hibrit modelde, dizilerin yakınlık özellikleri için bir Word2Vec modeli, ardından özellik çıkarımı ve sınıflandırma için Evrişimli Sinir Ağları ve Çift Yönlü Kapılı Tekrarlayan Birim Ağları katmanları kullanılmış ve yüksek bir başarı ve hız ile proteinlerin sınıflandırmasını yapmıştır. Modelin eğitiminde Bitki Transkripsiyon Faktörü Veritabanı (PlantTFDB)'ndan yararlanılarak oluşturulan bitki transkripsiyon faktör protein veritabanı kullanılmıştır. Önerilen bu hibrit model ve çift katlı çift yönlü LSTM modeli, hazırlanan bitki transkripsiyon faktör proteinleri veri seti ile sırasıyla %98.23 ve %97.80 test başarısına, %95.36 ve %96.60 f-skor değerine ve %98.07 ve %97.91 10-katlı çapraz doğrulama sonucuna ulaşmıştır. Hibrit model gerek ön işleme kısmının model başarısına yaptığı etki, gerekse CNN ve GRU mimarilerinin farklı özellik çıkarımı ve veri sınıflandırrma alanlarındaki başarıları ile literatürde bir ilk olarak göze çarpmaktadır. Ayrıca Basic Helix-Loop-Helix (bHLH) bitki transkripsiyon faktör proteinleri için bir referans veritabanı hazılanmış ve bu veritabanının internet sitesi içerisine de Çift Yönlü Uzun Kısa-Vadeli Bellek Ağları temelli bir derin öğrenme sınıflandırıcısı eklenmiştir. Hazırlanan model ile transkripsiyon faktör proteinleri başta olmak üzere diğer proteinler de sınıflandırılarak tür tanımlamasının verimli ve başarılı bir şekilde yapılması sağlanamıştır. Tasarlanan üçlü hibrit yapı bitki transkripsiyon faktörlerinin sınıflandırılmasında kullanılması literatüre kazandırılmış bir yenilik olarak öne çıkmaktadır.
The study of amino acid sequences, protein structure, and the relationships of amino acids is still a large and challenging problem in biology. Although bioinformatics studies have advanced in solving these problems, the relationship between amino acids and determining the type of protein formed by amino acids are still unsolved. The motifs that make up the identity of the proteins have different sequences even in the same protein type, and this structure can be determined biologically. This problem is why some of the available protein sequences are also limited in use. Because these biological experiments to determine species, family, etc., are costly and time- consuming. Therefore, in this study, a hybrid deep learning model was designed and implemented to determine the types of proteins. The prepared hybrid model used a Word2Vec model for the affinity features of the sequences, followed by CNN and Bidirectional GRU layers for feature extraction, classification, and classified proteins with high success and speed. In the training of the model, the plant transcription factor protein database created by us using the Plant Transcription Factor Database (PlantTFDB) was used. This proposed hybrid and bi-layer bidirectional LSTM model had test success of 98.23% and 97.80%, f-scores of 95.36% and 96.60%, and 10-fold cross-validation of 98.07% and 97.91%, respectively, with the prepared plant transcription factor proteins dataset. This proposed hybrid model stands out as a first in the literature, with the effect of the preprocessing part on the model success and the success of the CNN and GRU architectures in different feature extraction and data classification areas. In addition, a reference database for Basic Helix-Loop-Helix (bHLH) plant transcription factor proteins has been prepared, and a deep learning classifier based on Bidirectional LSTM has been added to this database's website. With the prepared model, other proteins, especially transcription factor proteins, will be classified, and species identification will be made efficiently and successfully. The use of such a triple hybrid structure in the classification of plant transcription factors stands out as an innovation brought to the literature.