Tez No İndirme Tez Künye Durumu
715554
Makine öğrenmesi yöntemleriyle biyomedikal veriden kanser teşhisi / Cancer diagnosis from biomedical data with machine learning methods
Yazar:ÖZNUR SİNEM SÖNMEZ
Danışman: DR. ÖĞR. ÜYESİ MUSTAFA DAĞTEKİN
Yer Bilgisi: İstanbul Üniversitesi-Cerrahpaşa / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Gen ifadesi profili = Gene expression profiling ; Genetik algoritmalar = Genetic algorithms ; Neoplazmlar = Neoplasms ; Öznitelik = Feature extraction
Onaylandı
Doktora
Türkçe
2022
160 s.
Günümüzde kanser en çok ölüme neden olan hastalıklardandır. Kanserin erken seviyede ve doğru teşhisinin kanser tedavisi, kanserin ilerlemesini yavaşlatma ve hayatta kalma oranını arttırma açısından önemli olduğu bilinmektedir. Bu nedenle, genetik araştırmalar önem kazanmıştır. Gen ifade seviyelerinin belirlenmesini sağlayan mikrodizi ve RNA dizileme teknolojilerinin gelişmesiyle birlikte binlerce genin ifade seviyelerinin incelenmesi ve hastalıkların gen profillerinin çıkarılması gibi konularda çalışmalar yapılmaktadır. Gen ifade seviyeleri değerlendirilerek kanserli ve sağlıklı doku ayrımı veya kanserin alt türlerinin birbirinden ayrımı yapılabilmektedir. Bu değerlendirme sürecindeki birbiriyle ilişkili yüksek miktardaki veri nedeniyle veriyi analiz etmek, süreci daha verimli ve sonuçları daha doğru hale getirmek için bilgisayar algoritmalarina ve makine öğrenmesi yöntemlerine ihtiyaç duyulmaktadır. Bu çalışmada, gen ifade seviyelerini içeren veri kümelerinden öznitelik (gen) seçimi gerçeklestirilerek kanser teşhisi ve sınıflandırması için yeni hibrit yöntemler önerilmiştir. Önerilen yöntemlerde, Genetik Algoritma - K En Yakın Komşu (GA-KNN), Genetik Algoritma - Destek Vektör Makinesi (GA-DVM), Parçacık Sürü Optimizasyonu - K En Yakın Komşu (PSO-KNN) ve PSO-DVM yöntemleri Pearson Korelasyonu, Karşılıklı Bilgi veya Relief-F yöntemleriyle geliştirilmiştir. GA'nın çaprazlama işlemi gen seçimi için özelleştirilmiştir. 9 farklı veri kümesi kullanılarak önerilen yöntemlerin sınıflandırma performansları değerlendirilmiştir. Ayrıca, literatürdeki başlıca filtre yöntemlerin, boyut indirgeme yöntemlerinin, sarmal yöntemlerin ve başlıca sınıflandırma yöntemlerinin sınıflandırma sonuçlarına olan etkileri karşılaştırılarak incelenmiştir. Önerilen yöntemlerin sınıflandırma performansları diğer başlıca yöntemlerle ve diğer literatür çalışmalarıyla karşılaştırılmıştır. Sınıflandırma sonuçları, tüm veri kümeleri için tüm değerlendirme ölçütleri açısından önerilen yöntemlerle daha başarılı sonuçlar elde edildiğini göstermektedir.
Nowadays, cancer is the leading cause of death among the diseases. It is known that early and accurate diagnosis of cancer is significant in terms of cancer treatment, slowing the progression of cancer and increasing the survival rate. Therefore, genetic research has gained importance. Studies are carried out on subjects such as analysing the expression levels of thousands of genes and gene profiling of diseases with the development of microarray and RNA sequencing technologies, which enable the determination of gene expression levels. Cancerous and healthy tissue or subtypes of cancer can be distinguished by evaluation of gene expression levels. Due to the high amount of interrelated data in this evaluation process, computer algorithms and machine learning methods are needed to analyse the data and make the process more efficient and the results more accurate. In this study, new hybrid methods are proposed for cancer diagnosis and classification by performing feature (gene) selection from datasets containing gene expression levels. In the proposed methods, Genetic Algorithm - K Nearest Neighbour (GA-KNN), Genetic Algorithm - Support Vector Machine (GA-SVM), Particle Swarm Optimization - K Nearest Neighbour (PSO-KNN) and PSO-SVM methods are improved with Pearson Correlation, Mutual Information or Relief-F methods. The crossover operation of GA is specialized for gene selection. The classification performances of proposed methods are evaluated by using nine different datasets. In addition, the effects of the main filter methods, dimension reduction methods, wrapper methods and main classification methods on classification results are analysed. The classification performances of proposed methods are compared with the other main methods and other studies in the literature. Classification results have demonstrated that better results are obtained with the proposed methods in terms of all evaluation metrics for all datasets.