Tez No İndirme Tez Künye Durumu
787786
Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması / Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques
Yazar:FATMA AKALIN
Danışman: PROF. DR. NEJAT YUMUŞAK
Yer Bilgisi: Sakarya Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2023
170 s.
Kanser, vücudun herhangi bir yerindeki hücrelerin kontrolsüz çoğalması ile ortaya çıkan bir hastalıktır. Bu hastalık ile vücudun düzenli bir şekilde çalışan mekanizması yavaş yavaş bozulur ve erken teşhisin sağlanamaması ile düzeltilemeyecek bir duruma gelir. Bu süreç hastalığın türünün konulabilmesi ve tedavi yöntemlerinin belirlenebilmesi açısından önemlidir. Bu çalışmada kanser türleri arasında yer alan lösemi malignitesi irdelenmiştir. Çünkü lösemi, en sık rastlanan kanser türüdür. Tüm yaş gruplarında görülme ihtimali vardır. Hastalığın kişide seyretme durumuna göre akut veya kronik olarak iki grupta incelenir. Özellikle hastalığın aniden belirdiği ve vücut içerisinde yayılımın hızlı gerçekleştiği akut lösemi hastalarında uzun bir yaşam beklentisi için erken tanı şarttır. Bununla birlikte yaklaşık 40 yıl önce doktorlar tarafından löseminin temel alt türlerinden olan ALL ve AML tanısının konulduğu belli hasta tiplerinde karışık soy lösemisi (MLL) olarak tanımlanan bir lösemi türü keşfedilmiştir. MLL lösemi türünün yeni bir tür olarak keşfedilmesinden sonra lösemi hastalığının halen keşfedilebilecek yeni alt oluşumlar barındırdığı düşünülmektedir. Geniş bir çerçevede ele alınan lösemi kanserine ilişkin alt türlerin net bir şekilde ayırt edilmesi, doğru tanı sürecinin gerçekleşmesi ile birlikte doğru tedavi protokolünün uygulanmasını sağlayacaktır. Öte yandan tedaviye verilen yanıtın değerlendirilmesi ve sonraki tedaviler için uygulanacak protokolün netleştirilmesi açısından da hayatidir. Tıp dünyasında kesin sonuçlara ulaşmak için periferik kan yayması, kemik iliği aspirasyonu, kemik iliği biyopsisi, immünfenotipleme, çeşitli görüntülemeler ve testler kullanılmaktadır. Ancak bu yöntemler bazen belirsiz durumlar içermektedir. Örneğin, periferik kan yayma yönteminin manuel değerlendirme süreci doktorun bilgi, tecrübe, fiziksel yoğunluğu ve zihinsel yorgunluğu gibi parametrelere bağlıdır. Kanser hastası olan bir kişiden biyopsi yöntemi ile alınan parçada kanserli doku yer almayabilir. Löseminin tanısında ayıraç olan lenfosit hücre tipine ilişkin artış aynı zamanda hepatit virüsleri ve brusella hastalığı sonucunda da artabilir.Görüntüleme yöntemlerinin çeşitli tıbbi parametrelere bağlı olarak uygulanma başarısı ya da ulaşılan görüntülemelerin doktorlar tarafından değerlendirilmesi standart bir çıktı üretmeyebilir. Bu nedenle genetik temelli maligniteler üzerinde moleküler ve sitogenetik değerlendirme yapmak tanının doğruluğunu netleştirecektir. Ancak genom teknolojisindeki son gelişmeler DNA dizilimlerinde bir artışa neden olmuştur. Bu nedenle sitogenetik analiz doğrultusunda verilerin manuel olarak doğru ve hızlı bir şekilde yorumlanması güçleşmiştir. Öte yandan moleküler değerlendirme imkanı sunan mikrodizi teknolojisi değerlendirilmiştir. Ancak kanser araştırmalarında umut kaynağı olan mikrodizi teknolojisinin analiz işlemi, genleri temsil eden özellikler üzerinden sağlandığı için yüksek boyut sunar. Makine öğrenmesinde boyutluluğun laneti olarak bilinen bu durum sonucunda hesaplama yükü ve yanlış kararlar üreten gürültü oluşabilir. Tüm bu yöntemler kapsamında kişi üzerinde uygulanması planlanan tedavi yaklaşımlarının sayısı, maliyet parametresi çerçevesinde hasta üzerinde anksiyeteye neden olabilir. Aynı zamanda gereksiz radyasyon maruziyeti ve doktorlar için iş yükü ve zaman kaybı diğer olumsuz çıktılarıdır. Bu çalışmada daha az tıbbi yöntem ile erken tanının sağlanması amacıyla 7 ayrı kısımda bilgisayar destekli bir yapı inşa edilmiştir. Doktorlara fikir vermek amacı ile tasarlanan bu yapı ile 7 farklı amaç doğrultusunda lösemi hastalığı analiz edilmiştir. Sitogenetik değerlendirmenin sağlandığı ilk aşamada, löseminin temel türlerinden olan ALL ve KML malignitelerinin tanısında önemli bir ayıraç olan BCR-ABL genleri analiz edilmiştir. NCBI veri kümesinden tedarik edilen BCR-ABL genleri haritalama teknikleri kullanılarak sayısallaştırılmıştır. Ardından sayısallaştırılan dizilimler üzerinde canlılığa ilişkin kritik bilgiler içeren ekson bölgelerinin tespiti için sinyal işleme yaklaşımı kapsamında fourier dönüşümü ve kısa zamanlı fourier dönüşümü yöntemleri kullanılmıştır. Sinyal işleme yöntemleri ile DNA dizilimlerinden elde edilen spektral yoğunluk bilgileri EfficientNetB7 transfer öğrenme mimarisi ile sınıflandırılmıştır. Farklı DNA baz uzunluğuna ilişkin spektral yoğunluğun ifade edildiği görsel verilerin eğitim veri kümesinde yer alması sonucunda test veri kümesi üzerinde ulaşılan doğruluk oranı %100'dür. Bununla birlikte sadece belirli aralıkta yer alan DNA baz uzunluğuna ilişkin spektral yoğunluğun ifade edildiği görsel verilerin eğitim veri kümesinde yer alması sonucunda test veri kümesinde ulaşılan doğruluk oranı %50 - %70 arasındadır. Sitogenetik değerlendirmenin sağlandığı ikinci aşamada, NCBI veri kümesi vasıtasıyla ALL ve KML hastalarından elde edilen BCR-ABL genleri kullanılarak malignitelerin ayırt edilmesi sağlanmıştır. Bu süreç iki ayrı kısımda gerçekleşmiştir. İlk kısımda sayısallaştırılan DNA dizilimlerinin spektral yoğunluk bilgisi kısa zamanlı fourier dönüşümü ve sürekli dalgacık dönüşümü yöntemleri ile spektrogramlara yansıtılmıştır.Ardından zamansal ve uzaysal bilgi çıkarımı sağlayan DGCNN yöntemi ile spektrogramlar sınıflandırılmıştır. DNA baz uzunluğuna bağlı bir sınıflandırmanın gerçekleştiği bu kısımda hem kısa zamanlı fourier dönüşümü hem de sürekli dalgacık dönüşümü yöntemleri için ulaşılan maksimum doğruluk oranı %75 olarak elde edilmiştir. Diğer kısımda DNA baz uzunluğundan bağımsız bir çalışma gerçekleştirilmiştir. Bu doğrultuda Shannon entropi temelli haritalama tekniği kullanılarak sayısallaştırılan DNA dizilimlerinden istatistiksel ve yapısal özellikler çıkarılmıştır. Ardından bu özellikler adaptif bulanık mantık algoritmasına girdi olarak verilmiştir. DNA'nın bulanık konfigürasyon yapısına uygun olduğu düşünülen bu yöntem ile %80 doğruluk oranı elde edilmiştir. Moleküler değerlendirmenin sağlandığı üçüncü aşamada, bioinformatics laboratory vasıtasıyla temin edilen löseminin temel türleri olan ALL ve AML malignitelerine ait mikrodizi veri kümesi kullanılmıştır. İlk aşamada parçacık sürü optimizasyon algoritması, karınca optimizasyon algoritması ve balina optimizasyon algoritması kullanılarak yüksek boyut sunan mikrodizi veri kümesinden potansiyel genler seçilmiştir. Ardından her bir optimizasyon algoritması için seçilen genlere ilişkin spektral yoğunluk bilgisi sürekli dalgacık dönüşümü yöntemi ile spektrogramlara yansıtılmıştır. Son olarak ALL ve AML kategorilerinin eşleştirildiği spektrogramlar DGCNN yöntemi ile sınıflandırılmıştır. Maksimum başarı oranı karınca optimizasyon algoritması kullanılarak seçilen potansiyel genlerin DGCNN yöntemi ile sınıflandırılmasının sonucunda %93.33 doğruluk oranı elde edilmiştir. Moleküler değerlendirmenin sağlandığı dördüncü aşamada bioinformatics laboratory vasıtasıyla temin edilen ALL, AML ve MLL lösemi türlerine ilişkin mikrodizi veri kümesi kullanılmıştır. Yüksek boyut sunan mikrodizi veri kümesinden balina optimizasyon algoritması kullanılarak seçilen genler LSTM sinir ağı mimarisine girdi olarak verilmiştir. Seçilen genlerin birbiri ile ilişkisini hatırlama eylemleri ile dinamik tutma yetisine sahip olan LSTM mimarisinin farklı seed değerleri ile oluşturulan 100 farklı veri kümesindeki ortalama doğruluk oranı %89.883 olarak bulunmuştur. Patolojik değerlendirmenin sağlandığı beşinci aşamada Acute Lymphoblastic Leukemia Image Database vasıtasıyla temin edilen ALL-IDB1 ve ALL-IDB2 periferik kan yayma görüntüleri kullanılmıştır. Löseminin temel türü olan ALL malignitesinin tanısında önemli bir ayıraç olan blast hücrelerinin tespitine ve sayım bilgisinin üretilmesine ilişkin gerçek zamanlı bir çıktı üreten bu çalışmanın eğitimi YOLOv4 algoritması tarafından gerçekleştirilmiştir. Modele verilen girdi için 3-4 saniye içerisinde çıktı üreten bu sistemin doğruluk oranı %98.87 olarak bulunmuştur. Moleküler ve immünfenotipik değerlendirmenin sağlandığı altıncı aşamada bioinformatics laboratory vasıtasıyla temin edilen lenfoblast hücre türlerine ilişkin T-ALL, B-ALL ve T-LL malignitelerine ait mikrodizi veri kümeleri kullanılmıştır. İlk olarak yüksek boyut sunan mikrodizi veri kümelerinden balina optimizasyon algoritması kullanılarak seçilen potansiyel genler ANFIS yapısı ile sınıflandırılmıştır. Böylece bulanık çıkarımlar elde edilmiştir. Ardından bulanık mantığın çıkarım gücü ile yapay zekanın veriler üzerindeki öğrenme gücünü birleştiren ANFIS yapısındaki üyelik fonksiyonuna ilişkin parametre optimizasyonu sırasıyla ABC ve PSO optimizasyon algoritmaları ile iyileştirilmiştir. Son olarak ANFIS, ANFIS+ABC ve ANFIS+PSO yapılarından gelen 3 farklı bulanık çıktı, kolektif öğrenme yaklaşımı kapsamında lojistik regresyon algoritması ile sınıflandırılmıştır. Ulaşılan doğruluk oranı %86.6 olarak elde edilmiştir. Patolojik değerlendirmenin sağlandığı yedinci aşamada Raabin Health veri kümesi vasıtasıyla temin edilen bazofil, eozinofil, lenfosit, monosit ve nötrofil beyaz kan hücrelerine ilişkin dijitalleştirilmiş periferik kan yayma görüntüleri kullanılmıştır. Lösemi hastalığının tanısında önemli bir ayıraç olan lenfosit hücre tipinin tanıma oranını geliştirmek için önerilen YOLOv5x yaklaşımı ve hibrit yapı sunulmuştur. Önerilen YOLOv5x yaklaşımı ile lenfosit tanıma oranı ve genel tespit doğruluğuna ilişkin tanıma oranı için sırasıyla 0.133 ve 0.006 doğruluk oranında bir iyileşme sağlanırken hibrit yapı için %3,44 ile %14,7 doğruluk oranında bir iyileşme sağlanmıştır. Bu çalışmada farklı alt türlere sahip olan lösemi hastalığının bilgisayar destekli sistemler ile tanı ve tedavi sürecine ilişkin sitogenetik, moleküler, moleküler ve immünfenotipik, patolojik değerlendirmelerin yer aldığı bütünsel bir analiz yapılmıştır. Güncel bir araştırma alanı olan ve halen non-invaziv ya da alternatif yaklaşımların keşfi üzerinde çalışmalar yapılan lösemi kanserine ilişkin sunulan 7 ayrı değerlendirme ile karar destek sistemi inşa edilmiştir. Doktorlara fikir vermek amacıyla tasarlanan bu sistem vasıtasıyla doğru ve erken tanı ile başlayan başarılı tedavilerin gerçekleşmesi hedeflenmektedir.
A cell is a unit containing structural and functional properties related to life. It has the ability of controlled divisibility. Thus, injured tissues are repaired or dead cells are renewed. However, genetic or environmental parameters can negatively affect this division process. In such a case, malignancies occurrences can happen. Malignancies are described as malignant tumors. It is formed by the uncontrolled proliferation and spread of cells in a particular tissue or organ. Cancer is a malignancy that occurs with the uncontrolled proliferation of cells in any part of the body. With this disease, the body's regular working mechanism gradually deteriorates and becomes irremediable if an early diagnosis is not provided. This process is important in terms of determining the type of disease and deciding the treatment methods. In this study, leukemia malignancy, which is among the cancer types, was examined. Because leukemia is the most common type of cancer. It can be seen in all age groups. According to the course of the disease in the person, it is examined in two groups as acute or chronic. Early diagnosis is essential for a long life expectancy, especially in patients with acute leukemia, where the disease appears suddenly and spreads rapidly throughout the body. However, about 40 years ago, a type of leukemia, defined by doctors as mixed lineage leukemia (MLL), was discovered in certain types of patients diagnosed with ALL and AML, which are the main subtypes of leukemia. After the discovery of the MLL leukemia type as a new species, it is thought that the leukemia disease still contains new sub-formations that can be discovered. Clearly distinguishing the subtypes of leukemia cancer, which is considered in a wide framework, will ensure the implementation of the correct treatment protocol together with the realization of the correct diagnosis process. On the other hand, it is also vital in terms of evaluating the response to treatment and clarifying the protocol to be applied for subsequent treatments. Peripheral blood smear, bone marrow aspiration, bone marrow biopsy, immunophenotyping, and various imaging and tests are used to reach definitive results in the medical world. However, these methods sometimes involve uncertain situations. For example, the manual evaluation process of the peripheral blood smear method depends on the doctor's knowledge, experience, physical intensity and mental fatigue. Cancerous tissue may not be present in the part taken by the biopsy method from a person with cancer. The increase in lymphocyte cell type, which is an indicator in the diagnosis of leukemia, may also increase as a result of hepatitis viruses and brucella disease. The success of applying imaging methods depending on various medical parameters or the evaluation of the achieved imaging by doctors may not produce standard output. Therefore, molecular and cytogenetic evaluation of genetic-based malignancies will clarify the accuracy of the diagnosis. However, recent advances in genome technology have led to an increase in DNA sequences. For this reason, it has become difficult to manually interpret data accurately and quickly in line with cytogenetic analysis. On the other hand, microarray technology, which offers the possibility of molecular evaluation, was evaluated. However, the analysis process of microarray technology, which is a source of hope in cancer research, offers a high dimension because it is provided through features that represent genes. This situation, known as the curse of dimensionality in machine learning, can result in computational burden and noise that produces wrong decisions. In the scope of all these methods, the number of treatment approaches planned to be applied to the person may cause anxiety in the patient within the framework of the cost parameter. At the same time, unnecessary radiation exposure and workload and time loss for doctors are other negative outcomes. In this study, a computer-aided structure was built in 7 separate sections in order to provide an early diagnosis with fewer medical methods. With this structure, which was designed to give an idea to doctors, leukemia disease was analyzed for 7 different purposes. In the first stage, where cytogenetic evaluation is achieved, BCR-ABL genes, which are an important indicator in the diagnosis of ALL and CML malignancies, which are the main types of leukemia, were analyzed. BCR-ABL genes supplied from the NCBI dataset were digitized using mapping techniques. Then, fourier transform and short-time fourier transform methods were used in the scope of the signal processing approach to detect exon regions containing critical information about life on the digitized array. Spectral density information obtained from DNA sequences with signal processing methods was classified with EfficientNetB7 transfer learning architecture. With the visual data expressing the spectral density of different DNA base lengths included in the training dataset, the accuracy rate reached on the test dataset is 100%. The accuracy rate achieved in the test dataset is between 50% and 70% for visual data expressing the spectral density of DNA base length in a certain range in the training dataset. In the second stage, where cytogenetic evaluation is achieved, malignancies were differentiated by using BCR-ABL genes obtained from ALL and CML patients via the NCBI dataset. This process took place in two separate parts. In the first part, the spectral density information of the digitized DNA sequences was reflected to the spectrograms with short-time fourier transform and continuous wavelet transform methods. Then, the spectrograms were classified with the DGCNN method, which provides temporal and spatial information extraction. In this part, where a classification based on nucleotide base length takes place, the maximum accuracy rate achieved for both short-time fourier transform and continuous wavelet transform methods was obtained as 75%. In the other part, a study independent of nucleotide base length was performed. In this direction, statistical and structural features were extracted from digitized DNA sequences using Shannon entropy-based mapping technique. Then, these features are given as input to the adaptive fuzzy logic algorithm. With this method, which is thought to be suitable for the fuzzy configuration structure of DNA, a accuracy rate of 80% was achieved. In the third stage, where molecular evaluation is achieved, the microarray dataset of ALL and AML malignancies, which are the main types of leukemia, obtained by the bioinformatics laboratory, was used. In the first step, potential genes were selected from the high-dimensional microarray dataset using the particle swarm optimization algorithm, ant optimization algorithm and whale optimization algorithm. Then, the spectral density information of the selected genes for each optimization algorithm was reflected in the spectrograms with the continuous wavelet transform method. Finally, spectrograms matching ALL and AML categories were classified by the DGCNN method. The maximum accuracy rate was obtained as 93.33% as a result of the classification of the potential genes selected using the ant optimization algorithm with the DGCNN method. In the fourth stage, where molecular evaluation is achieved, a microarray dataset of ALL, AML and MLL leukemia types supplied by the bioinformatics laboratory was used. Genes selected from the high-dimensional microarray dataset using the whale optimization algorithm were given as input to the LSTM neural network architecture. The average accuracy rate in 100 different datasets created with different seed values of the LSTM architecture, which has the ability to keep dynamic with the actions of remembering the relationship of the selected genes with each other, was found to be 89.883%. In the fifth step, where pathological evaluation is achieved, ALL-IDB1 and ALL-IDB2 peripheral blood smear images obtained from the Acute Lymphoblastic Leukemia Image Database were used. The training of this study, which produces a real-time output for the detection of blast cells and the production of count information, which is an important indicator in the detection of ALL malignancy, which is the main type of leukemia, was carried out by the YOLOv4 algorithm. The accuracy rate of this system, which produces an output within 3-4 seconds for the input given to the model, was found to be 98.87%. In the sixth stage, where molecular and immunophenotypic evaluation is achieved, microarray datasets of T-ALL, B-ALL and T-LL malignancies related to lymphoblast cell types obtained by the bioinformatics laboratory were used. First, potential genes selected from high-dimensional microarray datasets using the whale optimization algorithm were classified with the ANFIS structure. Thus, fuzzy inferences were obtained. Then, the parameter optimization of the ANFIS structure, which combines the inference power of fuzzy logic and the learning power of artificial intelligence on data, is provided by ABC and PSO optimization algorithms, respectively. Finally, 3 different fuzzy outputs from ANFIS, ANFIS+ABC and ANFIS+PSO structures were classified by logistic regression algorithm within the scope of the ensemble learning approach. The achieved accuracy rate is 86.6%. In the seventh stage, where pathological evaluation is achieved, digitized peripheral blood smear images (basophil, eosinophil, lymphocyte, monocyte, and neutrophil white blood cells) were supplied through the Raabin Health dataset. The proposed YOLOv5x approach and hybrid structure were presented to improve the recognition rate of lymphocyte cell type, which is an important indicator in the diagnosis of leukemia disease. With the proposed YOLOv5x approach, an improvement of 0.133 and 0.006 was achieved for the recognition rate for lymphocyte recognition rate and overall detection accuracy, respectively, while an improvement of 3.44% and 14.7% was achieved for the hybrid structure. In this study, a wide analysis including cytogenetic, molecular, molecular and immunophenotypic, pathological evaluations related to the diagnosis and treatment process of leukemia, which has different subtypes, was performed with computer-aided systems. A decision support system was built with 7 separate evaluations presented on leukemia cancer, which is a current research area and is still being studied for the discovery of non-invasive or alternative approaches. It is aimed to realize successful treatments that start with accurate and early diagnosis through this system, which is designed to give an idea to doctors for leukemia, which reduces the quality of life of the person, causes loss of workforce loss and is life-threatening.