Tez No İndirme Tez Künye Durumu
733011
Radon anomaly classification and missing data imputation: A methodology based on stacking and automatic anomaly indication function / Radon anomali sınıflandırması ve eksik veri tahmini: Yığınlama ve otomatik anomali gösterge fonksiyonuna dayalı bir metodoloji
Yazar:ADIL ASLAM MIR
Danışman: PROF. DR. FATİH VEHBİ ÇELEBİ
Yer Bilgisi: Ankara Yıldırım Beyazıt Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Anomaliler = Anomalies ; Makine öğrenmesi = Machine learning ; Radon = Radon ; Rastgele ormanlar = Random forests ; İstifleme = Stacking
Onaylandı
Doktora
İngilizce
2022
78 s.
Teknolojinin ilerlemesiyle birlikte, anormal davranışları yakalamak için zaman serisi verilerinde tahmin ve anormallik tespiti yapan dünya çapında çeşitli çalışmalar yapılmıştır. Anormalliklerin tespiti, deprem, tayfun, sel vb. için erken uyarı sistemleri yapmak için kullanılabilir. Bu çalışma, öncelikle eksik veri ataması gibi veri ön işleme ve bir anormallik/aykırı değer tespit metodolojisinin geliştirilmesi ile ilgilidir. Çeşitli eksiklik senaryolarında eksik veya aralıklı olarak örneklenmiş çok değişkenli zaman serisi verilerini verimli bir şekilde atamak için Naive Bayes gibi herhangi bir makine öğrenimi algoritmasını temel öğrenici olarak kullanabilen bir metodoloji olan Özellik önemine göre Imputation'ı (IBFI) öneriyoruz. rastgele değil (MNAR), rastgele tamamen eksik (MCAR) ve rastgele eksik (MAR) gibi. Çok değişkenli zaman serisi verilerindeki eksik özelliklerin yeniden yapılandırılmasında, önerilen metodoloji, tahmine dayalı ortalama eşleştirme, medyan, ortalama, mod ve hot-deck gibi yaygın olarak uygulanan atama yöntemlerine karşı değerlendirilir. Önerilen metodoloji, belirli örneklerde birden fazla özelliğin eksik olduğu senaryolarda avantajlıdır. Herhangi bir temel öğrenme algoritması (bu çalışmada XGBoost) kullanan önerilen metodoloji, özniteliklerin birbirleri arasındaki öneminden yararlanır ve ilgili taramalarda örneklerdeki eksik özellikleri yeniden oluşturur. Ayrıca, otomatik anormallik gösterge işlevine ve kümeleme topluluğu öğrenmesine dayalı bir anormallik algılama çerçevesi de önerdik. Çerçeve, zaman serisi verilerindeki tüm anormallikleri veya aykırı değerleri doğru bir şekilde sınıflandırabilir. Radon Zaman Serileri (RTS) için veriler 1 Mart 2017 ile 28 Şubat 2018 arasında kaydedildi. Çalışma süresi boyunca dört anormallik veya deprem olayı meydana geldi.
With the advancement of technology, several studies have been conducted across the globe that performs forecasting and anomaly detection in time-series data to capture anomalous behavior. The detection of anomalies can be utilized to make early warning systems such for earthquakes, typhoons, floods, etc. This study is primarily concerned with data preprocessing such as missing data imputation and the development of an anomaly/outlier detection methodology. We propose Imputation by feature importance (IBFI), a methodology that is capable of utilizing any machine learning algorithm as a base learner, such as Naïve Bayes or Support Vector Machine, to efficiently impute missing or intermittently sampled multivariate time series data across various missingness scenarios, such as missing not at random (MNAR), missing completely at random (MCAR), and missing at random (MAR). In the reconstruction of missing features in multivariate time series data, the proposed methodology is evaluated against commonly applied imputation methods such as predictive mean matching, median, mean, mode, and hot-deck. The proposed methodology is advantageous in scenarios where more than one feature is missing in certain samples. Employing any base learning algorithm (XGBoost in this study), the proposed methodology takes advantage of the importance of features amongst each other and reconstructs missing features in the samples in respective scans. Moreover, we also proposed an anomaly detection framework based on automatic anomaly indication function and stacking ensemble learning. The framework can accurately classify all the anomalies or outliers in the time series data. Data for the Radon Time Series (RTS) was recorded from the 1st of March 2017 to the 28th of February 2018. During the study period, there were four anomalies or earthquake events.