Tez No İndirme Tez Künye Durumu
616271
Geneseq2vec:: Representation of known gene sequences of the human genome in multi-dimensional vector space using word2vec artificial neural network models / Genseq2vec: İnsan genomundaki bilinen gen dizilerinin word2vec yapay sinir aği modelleri kullanilarak çok boyutlu vektör uzayinda temsil edilmesi
Yazar:HAYRİYE ÇELİKBİLEK
Danışman: DR. ÖĞR. ÜYESİ ÖZGÜR GÜMÜŞ
Yer Bilgisi: Ege Üniversitesi / Sağlık Bilimleri Enstitüsü / Sağlık Biyoinformatiği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Biyoteknoloji = Biotechnology
Dizin:Büyük veri = Big data ; Genetik = Genetics ; Genetik = Genetics ; Genler = Genes ; Genom = Genome ; Yapay sinir ağları = Artificial neural networks ; İnsan = Human
Onaylandı
Yüksek Lisans
İngilizce
2020
72 s.
Bu çalışmada; gen dizilerini temsil etme, gen dizilerinde örüntü ve öznitelik tanıma yöntemi olan GenSeq2Vec metodu geliştirilmiştir. Bu çalışma, ProtVec metodunun (Asgari ve Mofrad, 2015) tanıtıldığı makalede teorik olarak bahsedilen "gen dizileri için gen vektörleri (GenVec)" yaklaşımının bir örneği olarak değerlendirilebilir. Araştırmamızda sadece insan genomunda bulunan gen dizilerine odaklanılmıştır. GenSeq2Vec yaklaşımı, genler ile ilgili bilinen-bilinmeyen özelliklere ışık tutacak çok çeşitli alanlarda kullanılabilir. Bunlar alanlar; gen ailesi sınıflandırma, gen işlevi tahminleme, intron işlevi tahminleme, gen tipi tahminleme, açık okuma çerçevesi sınıflandırma, gen ortak ifade ağı oluşturma, gen düzenleyici ağı oluşturma, hastalık-gen ilişkisi tahminleme (Örn: miRNA-kanser), metabolik yolak-gen-hastalık ilişkisi tahminleme, bozuk gen kopyası tahminleme, dizilerin -türler arası ve tür içi- evrimini tahminleme vb. olarak sayılabilir. Veri toplama evresinde, önce HGNC veri tabanındaki onaylanmış genlere ait 41.703 adet genden oluşan güncel üstveri indirilmiştir. Sonra bu üstveri ile eşleşen referans dizileri bulabilmek amacıyla; sırasıyla Ensembl (42.273 adet) ve UCSC (247.541 adet) veritabanlarından edinilen üstveri ile karşılaştırılmıştır. Üstverileri eşleşen genlere ait gen dizileri indirilmek üzere, ilgili veritabanına her biri için bir istek sorgusu gönderilmiştir. 38.380 adet Ensembl ve 56 adet UCSC veritabanından olmak üzere 38.436 adet dizi indirilmiştir. HGNC üstverisinde bulunup yukarıdaki şekilde indirilemeyen genler arasında (3.267 adet) Entrez veritabanı numarası bilinen 3.226 adet gen kalmıştır. Bu genler için, Entrez numarasını içeren istek sorguları ayrı ayrı Entrez veritabanına gönderilmiş ve 2.533 tanesi başarıyla indirilmiştir. Netice olarak toplam 40.969 adet referans gen dizisi indirilmiştir. Elde edilen gen dizileri, [3-10] aralığında sabit uzunluklu ve [3-10] aralığında rastgele uzunluklu olmak üzere, 9 farklı şekilde kelimelere (n-grams: dilbilim, k-mers: biyoinformatik) bölünmüştür. Bu kelimeler ayrı ayrı 9 kez Word2Vec yapay sinir ağını besleyen girdi olarak kullanılmıştır. İşlem sonucunda 9 farklı GenSeq2Vec çok boyutlu vektör uzayı elde edilmiştir (Fig. 1). Bu uzaylardan her birinde 40.969 adet vektör bulunmaktadır. Elde edilen vektörleri sınamak üzere genlere ait temel bir öznitelik olan ve genin işlevini ifade eden "locus tipi" sınıfı tercih edilmiştir. HGNC üstverisinde (41.703) genlerin genetik sınıfını belirten 24 farklı "locus tipi" verilmiştir. Bunlardan 16 tanesi için yeterli örnek hacmi (<28) indirilebilmiştir. Bu 16 locus tipinin her biri için; Lojistik Regresyon, Destek Vektör Makinesi ve Rastgele Orman sınıflandırıcılar ile çeşitli üst değişkenler kullanılarak ikili sınıflandırma yapılmıştır. Sınıflandırıcıların girdileri GenSeq2Vec vektörleri, çıktıları ise locus tipi 0 veya 1'dir. Sonuç olarak; en düşük F1 puanı "RNA, long non-coding" locus tipi için ≅%79 olmak üzere ve en yüksek F1 puanları 6 tane locus tipi için %100 olmak üzere, toplam 16 locus tipi için elde edilen ağırlıklı ortalama F1 puanı ≅%87 olarak elde edilmiştir. Çalışmanın sonucunda, sadece genlere ait referans DNA dizileri kullanılarak genleri doğru temsil eden bir vektör uzayı oluşturulabileceği gözlenmiştir. Makine öğrenmesinin doğasından kaynaklı olarak bu vektör uzayı sadece bir kere ayar yapılıp eğitildikten sonra çok defa farklı amaçlardaki araştırmalara ve sorulara cevap verebilir.
In this study, a novel method named GeneSeq2Vec, which is a procedure of gene sequence representation and pattern or feature recognition in gene sequences, will be developed. This study can be considered as an example of the "gene vectors for gene sequences(GenVec)" approach, which is theoretically mentioned in the ProtVec article (Asgari and Mofrad, 2015). In our study, we focused only on the gene sequences in the human genome. The GeneSeq2Vec approach can be used in a wide variety of areas to shed light on features that we know or don't know about genes. These include the following: gene family classification, gene function prediction, intron function prediction, gene type prediction, open reading frame classification, gene co-expression network construction, gene regulatory network construction, disease-gene relationship prediction (Ex: miRNA-cancer relationship), metabolic pathway-gene-disease relationship prediction, disordered gene variant prediction, sequence evolution (interspecific and intra-specific) prediction. In the data collection phase, firstly, the current metadata of 41,703 genes for the approved genes in the HGNC database had been downloaded. Then, to find the reference sequences that match the metadata, it had been compared to the metadata acquired from Ensembl (42,273 entries) and UCSC (247,541 entries) databases, respectively. To download the gene sequences of the genes whose metadata match, a request query was sent to the relevant database for each. 38,480 sequences have been downloaded, with 38,380 from the Ensembl database and 56 from the UCSC database. Among the genes that were found in the HGNC metadata and have not been downloaded as above (3,267), there were 3,226 genes with known Entrez ID. For these genes, individual request queries that include Entrez ID were sent to the Entrez database, and 2,533 sequences downloaded successfully. As a result, a total of 40,969 reference gene sequences have been downloaded. The downloaded sequences were divided into words (n-grams: linguistics, k-mers: bioinformatics) in 9 different ways, with fixed length in the range [3-10] and random length in the range [3-10]. These words were used separately nine times as input to feed Word2Vec artificial neural network. As a result, nine different GeneSeq2Vec multidimensional vector spaces were constructed (Figure 1). Each of these spaces contains 40,969 vectors. "locus type" class, which is a crucial feature of genes, was used to test the constructed vectors. It refers to the function of the gene. In the HGNC metadata (41.703), 24 different "locus type" which indicates the genetic class of genes, are given. A sufficient number of instances (<28) were downloaded for 16 of these locus types. For each of these 16 locus types LR, SVM, and RF classifiers were used with binary classification using various hyperparameters. The inputs of the classifiers are GeneSeq2Vec gene vectors, and the outputs are locus type 0 or 1. As a result, the lowest F1 score ≅79% for RNA, long non-coding locus type, the highest F1 score 100% for six different locus types, and the weighted average F1 score ≅87% for the total 16 locus types were obtained. The result of the study has shown that a vector space that represents the human genes can be constructed by using only the reference DNA sequences of the genes. Due to the nature of machine learning, training the vector space once is enough to respond to many different types of research.