Tez No İndirme Tez Künye Durumu
482416
Use of data mining techniques to determine presence of coronary artery disease and deriving a risk score by employing risk factors / Veri madenciliği tekniklerinin kullanılarak koroner arter hastalığının varlığının belirlenmesi ve risk faktörlerinin kullanılmasıyla bir risk skor sisteminin oluşturulması
Yazar:JALE BEKTAŞ
Danışman: DOÇ. DR. TURGAY İBRİKÇİ ; PROF. DR. İSMAİL TÜRKAY ÖZCAN
Yer Bilgisi: Çukurova Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Yapay sinir ağları = Artificial neural networks
Onaylandı
Doktora
İngilizce
2017
116 s.
Bu çalışma, öncelikle Koroner Arter Hastalığı (KAH) hakkında eksik veriler içeren bir veri seti üzerinde makine öğrenme algoritmaları uygulanarak sınıflandırma sorunlarına odaklanmakta ve dört sınıflı bir veri kümesinden oluşan bir risk puan tahmin sistemini önermektedir. Üç adet veri seti doldurma yöntemi uygulanır: K-ortalamalar, çok katmanlı perseptron (ÇKP), ve öz örgütlenmeli harita (ÖÖH). ÇKP ile test edilmiş ÇKP doldurma metodu, 0.90 duyarlılık ve 0.18 özgüllük ile bu çalışmada araştırılan diğer yöntemler arasındaki en iyi metottur. ÇKP metoduyla doldurulmuş veri seti dört sınıflı bir yapıya dönüştürülerek ele alınır. YSA yönteminin yüksek seviyede örnekleme ve Relief-f ile birlikte kullanımında önceki sonuçlar %72,3 doğruluk değerine sahipken işlemlerden sonra %84,1 doğruluk, 0.84 duyarlılık ve 0.94 özgüllük değerlerine ulaşılmıştır. Bu çalışma ayrıca iki farklı veri kümesinde LR ile DVM kullanan bir karma sınıflandırma prosedürü sunmaktadır. Sonuçlar, karma yaklaşımın, problemi bir defada tüm dengesiz veri kümesi eğitimiyle çözen etkili bir algoritma geliştirmeye izin verdiğini göstermektedir.
This study focuses primarily on the problems of collaborative classification with missing data on Coronary Artery Disease (CAD) by applying machine learning algorithms and proposes a risk score prediction system consisting of a 4-classes dataset. Three imputation methods are applied: K-means, multilayer perceptron (MLP), and self-organizing maps (SOMs). The MLP imputation method is obviously the best method among those investigated with the metric values for sensitivity (0.90), and for specificity (0.18). Dataset imputed with MLP method is employed by transforming into a 4-classes structure. Using the feature selection and the sampling methods with the NN substantially improves the evaluation metrics. The results before the pre-process operations were detected as follows; 72.3% accuracy; after the operations, 84.1% accuracy were achieved with 0.84 sensitivity 0.94 specificity. This study also presents a hybrid classification procedure that uses Support Vector Machine (SVM) with LR on two distinctive datasets. The results show that the hybrid approach allows developing an efficient algorithm, which solves the problem with all imbalanced dataset training at one time.