Tez No İndirme Tez Künye Durumu
655266
Medical data analysis and model development based on machine learning using apache spark technology / Apache spark teknolojisi kullanılarak sağlık verilerinin analizi ve makine öğrenimine dayalı modelin geliştirilmesi
Yazar:ANAR TAGHIYEV
Danışman: PROF. DR. ADEM ALPASLAN ALTUN
Yer Bilgisi: Selçuk Üniversitesi / Fen Bilimleri Enstitüsü / Bilişim Teknolojileri Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2021
162 s.
Bu çalışma, sağlık kurumları için değer yaratmak ve büyük veri teknolojisini uygulamaya yönelik stratejileri tanımlamak için makine öğrenimi yöntemlerinin (Apache Spark teknolojisine dayalı) nasıl kullanılacağına odaklanmaktadır. Tezde büyük veri teknolojisinin mevcut durumunu tanımlamaya, genel bir bakış açısı sunmaya ve sağlık hizmetlerinde Apache Spark teknolojisi uygulamasının temel amaç ve hedeflerini vurgulanmıştır. Başka bir deyişle, bu çalışma sağlık hizmetlerinde verileri analiz etmek için kullanılan yöntemlerin bilimsel ve teknolojik gelişiminin yörüngesini araştırmaktadır. Bu fikirden yola çıkarak, çalışmanın ana amacı olan Apache Spark teknolojisini kullanarak hastalıkların nedenlerini belirlemek için lojistik regresyon yöntemi uygulanmıştır. Çalışmanın ilk aşamasında, lojistik regresyon analizini gerçekleştirmek için UCI Makine Öğrenimi Deposunda (repozitorisinde) çevrimiçi olarak bulunan bir veri setini kullanıldı; buradan, tip 2 diyabetli hastalarda HbA1c'ni etkileyen faktörleri belirlemek için yeni bir tek aşamalı model geliştirildi. Bu çalışmada lojistik regresyon analizini kullanmanın amacı, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi belirlemek için en uygun ve makul olan bir istatistiksel model oluşturmak için bir yöntem tercih etmektir. Tek aşamalı modelde bağımsız değişkenler, sürekli ve kategorik değerlere sahiptir ve bağımsız değişkenlerin ikili etkileşimleri ortak değişken olarak dahil edildi. Pratik örneklerle elde edilen sonuçların yorumlanma ilkeleri de ayrıntılı olarak açıklanmıştır. Lojistik regresyon analizine dayalı olarak geliştirilen tek aşamalı sınıflandırma modeli, zayıf kontrollü diyabet ve iyi kontrol edilen diyabet hastaları için daha doğru ve etkili bir yaklaşım gösterdi. Çalışmanın ikinci aşamasında, Türkiye bölgesinde 18 yaş ve üzeri kadınlara anket çalışması yapılmasına ve ayrıca araştırmaya tabi tutulan katılımcılarımızın tıbbi verilerinin Aksaray Sultanhanı Aile Sağlık Merkezi Elektronik Sağlık Kayıtları veri tabanından çıkarılmasına karar verildi. Ardından bu verilere dayanarak lojistik regresyon yöntemiyle hastalarda obezitenin nedenlerini belirlemeyi amaçlandı. Türkiye bölgesinde obezite sorununu incelemenin amacı, son yıllarda obezite sorununun uluslararası öneme sahip olmasıdır. Çünkü Dünya Sağlık Örgütü'nün verilerine bakıldığında 18 yaş ve üzeri yaklaşık 600 milyon (% 13) yetişkin obez; yılda en az 2,8 milyon insan obezite ve aşırı kilo nedeniyle ölmektedir. Türkiye'de obezite prevalansı yetişkin erkeklerde % 20,5; kadınlarda % 41'dir. Bu nedenle tezde, Türkiye bölgesinde 18 yaş ve üzeri kadınlarda obezitenin nedenlerini belirlemek için hibrit bir model geliştirilmiştir. Bu çalışmada kullanılan veriler, Mart-Kasım 2019 döneminde Aksaray Sultanhanı Aile Sağlığı Merkezi'nden toplanmıştır ve ardından tıbbi veriler incelenmiştir. Böylece, tıbbi verilerin ve anketlerin yapısı göz önüne alınarak, 18 yaş ve üzeri kadınlarda obezitenin nedenlerini belirlemede daha iyi sonuçlar elde etmek için iki aşamalı bir model geliştirmeye karar verildi. İlk aşama, karar ağaçları yöntemiyle özelliklerin (yani en iyi değişkenlerin) seçilme fazıdır, ikinci aşama ise lojistik regresyon yöntemiyle yapılan sınıflandırmadır. Önerilen iki aşamalı hibrit yaklaşımın etkinliği, diğer geleneksel tek aşamalı sınıflandırıcılarla karşılaştırılmıştır. Tezde, önerilen tek aşamalı ve iki aşamalı modellerin performansı, doğruluk, özgüllük ve duyarlılık, kesinlik, Fmeasure gibi ölçümler kullanılarak iki yöntemle: holdout validation ve five-fold cross validation'ile doğrulama setinde değerlendirilmiştir. Sonuç olarak, önerilen hibrit sistemin diğer tek aşamalı sınıflandırıcılardan daha iyi olan %91 doğruluk payı olduğu vurgulamıştır. Böylece, önerilen hibrit sistem, obez hastaların daha doğru sınıflandırılmasını ve obeziteyi etkileyen faktörlerin değerlendirilmesinde pratik bir yaklaşım sağlar. Bu tezde, önerilen yöntemin nihai çıktıları/bulguları, obeziteye neden olan daha etkili faktörlerin olasılık oranı elde edilmiştir ve tüm faktörler ayrıntılı olarak tartışılmıştır. Bulgulara göre kadınlara obezitenin riskleri ve olası sağlık sorunları konusunda eğitim ve danışmanlık verilmelidir. Kadınlara hamilelikte almaları gereken kilo, hamilelik sonrası nasıl kilo vermeleri gerektiği konusunda bilgi verilmeli, beslenme ve fiziksel aktivite ile ilgili önerilerde bulunulmalıdır. Sağlığı korumak, sürdürmek ve iyileştirmek için obeziteyi etkileyen faktörleri kontrol etmek ve birinci basamak sağlık çalışanlarına (aynı zamanda uzmanlara) yönelik sağlık eğitim programları hazırlamak çok önemlidir. Birinci basamak sağlık çalışanları bu konular hakkında daha iyi bilgilendirilmelidir.
This study focuses on how to use machine-learning methods (based on Apache Spark technology) to create value for healthcare institutions and define strategies for applying big data technology. In the thesis, an attempt was made to describe the current state of big data technology, to give a general perspective, and to emphasize the main goals and objectives of the application of Apache Spark technology in healthcare. In other words, this study explores the trajectory of the scientific and technological development of the techniques used to analyze data in healthcare. Inspired by this idea, an attempt was made to use the logistic regression method to identify the causes of diseases using the Apache Spark technology, which is the main purpose of the study. In the first phase of the study, a logistic regression analysis was performed using a dataset available online in the UCI Machine Learning Repository, and a new single-stage model was developed to identify the causes of HbA1c in patients with type 2 diabetes. The purpose of using logistic regression analysis in this study was to establish a method for creating a statistical model that is most appropriate and reasonable for determining the relationship between dependent and independent variables. The independent variables had continuous and categorical values in the classification model, and binary interactions of independent variables were included as a common variable. The interpretations of the results obtained by practical examples are also described in detail. The single-stage classification model developed based on logistic regression analysis, showed a more accurate and effective approach for patients with poorly controlled diabetes and well-controlled diabetes. In the second phase of the study, an attempt was made to conduct a questionnaire survey in the region of Turkey in females aged 18 years and above, as well as to extract medical data of our study participants from the database of Electronic Health Records of Aksaray Sultanhani Family Health Center, and then to conduct a logistic regression analysis to identify the causes of obesity in patients. The motivation for studying obesity in the region of Turkey was that the obesity issue has international relevance in recent years. Because referring to the data of the World Health Organization, approximately 600 million (13%) adults aged 18 years and above are obese; at least 2.8 million people die annually from obesity and overweight. In Turkey, the prevalence of obesity is 20.5 percent among adult men and 41 percent among women. The aim of this study is to develop a hybrid model to identify the causes of obesity in the region of Turkey in females aged 18 years and above. The data used in this study was collected from Aksaray Sultanhani Family Health Center, in the period from March to November 2019, followed by a medical data analysis. Given the structure of medical data and questionnaires, an attempt was made to develop a two-stage model to achieve better results in identifying the causes of obesity in females aged 18 years and above. The first stage is the selection of features (i.e., the best variables) through the decision trees method, while the second stage is classification performed by the logistic regression method. The effectiveness of the proposed two-stage hybrid approach has been compared with traditional single-stage classifiers such as decision trees and logistic regression. In the thesis, the performance of the proposed single-stage and two-stage models have been was evaluated by two validation methods: namely holdout validation and five-fold cross-validation using the measurements, such as accuracy, specificity and sensitivity, precision, and Fmeasure. In conclusion, it should be emphasized that the proposed hybrid system gives %91 accuracy (mean), which is better than other single-stage classifiers. Thus, the proposed hybrid system provides a more accurate classification of obese patients and a practical approach to evaluating the factors affecting obesity. In this thesis, the final outputs/findings of the proposed method are to get the odds ratio of the more effective factors that cause of obesity that is discussed in detail. According to the findings, women should be provided with training and counseling on the risks of obesity and possible health problems. Women should be informed about the weight they should gain during pregnancy, how to lose weight after pregnancy, and recommendations should be related to nutrition and physical activity. In order to protect, maintain, and improve health, it is important to control the factors that affecting obesity and to prepare health education programs for primary healthcare professionals (as well as experts/specialists). Primary healthcare professionals should be better informed about these issues.