MiRNA (veya MicroRNA), yaklaşık 20-22 nükleotitten oluşan küçük, tek sarmallı ve kodlamayan bir RNA yapısıdır. Biyolojik araştırmalardan elde edilen bulgular, çok çeşitli endojen süreçlerde düzenleyici bir rol oynadığını göstermektedir.
Hesaplamalı biyolojide, olgun miRNA'nın sınıflandırılması, kısa uzunluğu ve sınırlı özellikleri nedeniyle verimli değildir. Bu nedenle, bilim adamları daha uzun dizilere ve daha yapısal özelliklere sahip öncü miRNA'ları kullanmaktadır. Pre-miRNA'lar, mirtronlar ve kanonik miRNA'lar olarak gruplandırılabilir. Bu yapıların ana farklılıklar biyogenez süreçlerinden kaynaklanmaktadır. Kanonik miRNA'ların aksine, mirtronlar daha az konservatiftir. Ve ayrıca tanımlanması da daha kolay değildir. Geleneksel makine öğrenimi tabanlı pre-miRNA sınıflandırma yöntemleri, manuel özellik çıkarımına bağlıdır. Ayrıca, pre-miRNA'ların sekans yapısına veya uzamsal yapısına dayanırlar.
Bu tezde, daha önce geliştirilmiş makine öğrenmesi yöntemlerinin sınırlamalarını aşmak ve daha iyi sonuçlar elde etmek için evrişimli sinir ağlarına ve uzun kısa süreli bellek ağlarına dayalı hibrit bir derin öğrenme yöntemi öneriyoruz. Önerilen modelimizin sonucuna göre, yüzde 95 güven aralığında, 0,943 (±0,014) doğruluk, 0,935 (±0,016) duyarlılık, 0,948 (±0,029) özgüllük, 0,925 (±0,016) F1 Skoru ve 0.880 (±0,028) Matthews Korelasyon Katsayısı elde ettik. Modelimiz, en yakın sonuçlarla karşılaştırıldığında doğruluk (yüzde 2,51), F1 Skoru (yüzde 1,00) ve Matthews Korelasyon Katsayısı (yüzde 2,43) için en iyi sonucu verdi. Ayrıca duyarlılık ortalaması da Lineer Diskriminant Analizi gibi en yüksek değere sahiptir. Sonuçlar, hibrit CNN-LSTM ağlarının pre-miRNA sınıflandırma için daha yüksek tahmin performansı elde etmede kullanılabileceğini göstermektedir.
|
MiRNA (or MicroRNA) is a tiny, single-stranded, and non-coding RNA structure of roughly 20-22 nucleotides. Findings from biological research indicate that it plays a regulatory role in a wide range of endogenous processes.
In computational biology, classifying mature miRNA is not efficient since its short length and limited features. Thus, scientists are using precursor miRNAs with longer sequences and more structural features. Pre-miRNAs can be grouped as mirtrons and canonical miRNAs. The main differences come from their biogenesis process. In contrast to canonical miRNAs, mirtrons are less conserved. And also it is not easier to be identified. The conventional machine-learning-based pre-miRNA classification methods depend on manual feature extraction. Besides, they rely on either structure of sequence or structure of spatial of pre-miRNAs.
In this dissertation, we propose a hybrid deep learning method based on the convolutional neural networks and long-short term memory networks to overcome the limitations of previously developed machine learning methods and obtain robust results. According to the our proposed model's result, in 95 percent confidence interval, we got 0.943 (±0,014) accuracy, 0.935 (±0,016) sensitivity, 0.948 (±0,029) specificity, 0.925 (±0,016) F1 Score and 0.880 (±0,028) Matthews Correlation Coefficient. Therefore, the prediction resulted in the best for accuracy (2.51 percent), F1 Score (1.00 percent), and Matthews Correlation Coefficient (2.43 percent) when compared to the closest results. In addition, the average of sensitivity has the highest value as Linear Discriminant Analysis. The results show that the hybrid CNN-LSTM networks can be employed to get higher prediction performance for pre-miRNA classification. |