Tez No İndirme Tez Künye Durumu
495349
Veri madenciliği yöntemleriyle hayvan hastalıklarında teşhis, prognoz ve risk faktörlerinin belirlenmesi / Determination of diagnosis, prognosis and risk factors in animal diseases using by data mining methods
Yazar:PINAR CİHAN
Danışman: PROF. DR. OYA KALIPSIZ ; DOÇ. DR. ERHAN GÖKÇE
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2018
101 s.
İstatistik bilimi veri analizinde yüzyıllardan beri kullanılmaktadır. Ancak veri miktarındaki devasa artış, geçmiş veri içerisinden ilgi çekici (önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı) bilginin gelecekteki eğilimini kestirmek ya da sonraki aşamalarda analiz etme ihtiyacı, temeli istatistiğe dayanan veri madenciliği kavramını ortaya çıkarmıştır. Veterinerlik alanındaki çalışmalarda hayvanlardan elde edilen veri setleri genellikle istatistiksel yöntemlerle analiz ediliyor olsa da veri madenciliği, veri analizinde gün geçtikçe popülerliğini ve işlevini arttıran bir alan olarak karşımıza çıkmaktadır. Veri madenciliği, bilgilerin analiz edilmesi ve yorumlanacak bilgiler edinmeyi sağlayan bir süreçtir. Veri yığınları içinde açık olmayan fakat anlamlı gizli örüntüleri ve işe yarar bilgileri bulmak bu yöntemler ile gerçekleştirilir. Bu tez çalışmasında, veri madenciliği yöntemleriyle hayvan hastalıklarında teşhis, prognoz ve risk faktörlerinin belirlenmesi amaçlanmaktadır. Veri setindeki eksik değerleri tamamlamak için en başarılı eksik değer tamamlama yöntemi belirlenmiştir. Bunun için ortalama, ortanca, k en yakın komşu, mice, missforest ve geliştirilen yapay arı koloni (YAK) yöntemleri ortalama karesel hatanın karekökü (OKHK) sonuçlarına göre karşılaştırılmıştır. Karşılaştırma sonucunda en başarılı yöntem YAK olarak belirlenmiştir. Verilerin normalizasyonu aşamasında; minimum-maksimum, ondalık ölçeklendirme, z-değeri ve sigmoid normalizasyon yöntemleri karşılaştırılmıştır. K-ortalama kümeleme sonucunda 0.735 saflık ve 0.86 entropi ile en başarılı yöntemin sigmoid olduğu tespit edilmiştir. Verilerin sınıflandırılması aşamasında; karar ağaçları (KA), saf bayes (SB), k-en yakın komşu (KEYK), yapay sinir ağları (YSA) ve rastgele orman (RO) algoritmaları karşılaştırılmıştır. Doğruluk=0.8427, dengeli doğruluk=0.7132, seçicilik=0.91, duyarlılık=0.5164, kappa=0.4304 sonuçlarıyla en başarılı yöntemin Saf bayes olduğu belirlenmiştir. Ayrıca 0.765 eğri altında kalan alan (EAKA) değeriyle yine en başarılı yöntemin saf beyes olduğu görülmüştür. Bilgi kazancı yöntemi ile özellik seçimi yapıldıktan sonra, özellik sayısı 14'den 4'e düşürüldüğünde sınıflandırma başarısının %4 yükseldiği görülmüştür. Ortak bilgi yöntemine göre neonatal dönemde ölümler için eşik seviyesi immunoglobulin-G (IgG) < 500, Gamma-Glutamyl transferase (GGT) < 500, Lactoferrin (LT) 1201-1600, Total Protein (TP) 31-40 ve Albümin (ALB) < 35 olarak belirlenmiştir. Ayrıca veteriner hekime yardımcı mobil ve masaüstü uygulama geliştirilmiştir.
Statistics has been used for centuries in data analysis. But the increase in the amount of data reveals, to predict the future trend of interesting information (Insignificant, hidden, unknown, potentially useful) from past data or to analyze at a later stage, the concept of data mining which is based on statistics, was found. In the field of veterinary research, data sets obtained from animals are often analyzed using statistical methods, regardless of data mining field's day by day increasing popularity and function in data analysis. Data mining is a process that allows information to be analyzed and acquired. Finding the hidden secret patterns and information which are not clear in data stacks is carried out using these methods. The aim of this thesis is to determine the diagnosis, prognosis and risk factors in animal diseases using data mining methods. In order to complete missing values in the data set, the most successful missing value imputation method has been determined. For this purpose; mean, median, nearest neighbors, mice, missForest and developed artificial bee colony (ABC) imputation methods were compared according to the root mean square error (RMSE). According to the conducted comparison results, ABC method with the lowest RMSE was determined as the most successful method. During the normalization of the data; min-max, decimal scaling, z-values, and sigmoid normalization methods are compared. It is determined that the most successful method is sigmoid normalization method with 0.735 purity and 0.86 entropy. In the process of classifying the data; decision trees (DT), naive bayes (NB), k-nearest neighbors (KNN), artificial neural networks (ANN) and random forest (RF) algorithms are compared. It was determined that the most successful method was NB with 0.8427 accuracy, 0.7132 balanced accuracy, 0.91 specificity, 0.5164 sensitivity, 0.5226 f-measure and a 0.4304 for kappa. It was also found that the most successful method with a value of 0.765 AUC is naive bayes. After conducting feature selection using information gain method, the classification accuracy increased when the number of features was reduced from 14 to 4. According to the Mutual Information method, the threshold level for deaths in the neonatal period was determined as immunoglobulin-G (IgG) < 500, Gamma-Glutamyl transferase (GGT) < 500, Lactoferrin (LT) 1201-1600, Total Protein (TP) 31-40 and Albumin (ALB) < 35. In addition, an application for both mobile and desktop platforms have been developed for veterinary medicine.