Tez No İndirme Tez Künye Durumu
626341
Öznitelik seçim metotlarının akarsu akış tahmininde araştırılması ve uygulanması / Investigation and application of feature selection methods in streamflow forecasting
Yazar:OSMAN SELVİ
Danışman: DOÇ. DR. İLHAM HÜSEYİNOV
Yer Bilgisi: İstanbul Aydın Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Çalışma Ekonomisi ve Endüstri İlişkileri = Labour Economics and Industrial Relations
Dizin:
Onaylandı
Doktora
Türkçe
2020
744 s.
Bu çalışmada büyük bir su havzasındaki akış istasyonlarının veri odaklı modellerinin oluşturulması istenildiğinde, havzada bulunan farklı türlerden pek çok istasyon içerisinden giriş değişkeni seçimi – öznitelik seçimi – problemine yoğunlaşılmıştır. Mevcut literatürde kullanılan yöntemler ile sınırlı sayıda istasyonun modellenmesinde (<4), yine sınırlı sayıda (<20) özniteliğin bulunduğu bir veri kümesi içerisinden seçim yapılmaktadır. Çalışılmış problemin çözümünde kullanılmaları durumunda ise, ciddi anlamda zaman ve hesaplama maliyeti gerektirmektedirler. Dolayısıyla, büyük bir havzanın modellenmesi istenilen bir durumda, öznitelik seçimi için yetersiz kalmaktadırlar. Çalışmada istasyonlar arasındaki coğrafi mesafenin bir metrik olarak kullanılması fikrine dayanan "Baloncuk Seçimi" isminde yeni bir öznitelik seçim algoritması önerilmiştir. Algoritmanın performansının değerlendirilebilmesi için, Avusturya' ya ait 540 akış istasyonunu yapay sinir ağları kullanılarak modellenmiştir. Öznitelik seçim algoritmasının her bir modellenecek istasyon için akış, su seviyesi, yağış, yeni kar ve toplam kar derinliği türünden 2412 istasyona ait gözlemlenmiş değerlerin birer günlük gecikmeli değerleri arasından seçim yapması gerekmektedir. Önerilen algoritma yardımı ile öznitelik kümesinin kardinalitesi önemli ölçüde azaltılmıştır (<22). Baloncuk seçimi algoritması, sıralı ileri yönlü (sequnetial forward selection) algoritması ile etkileşimli bir biçimde çalışması ile de öznitelik seçim işlemi gerçekleştirilmiştir. Hibrit yöntemin tahmin edici performansı ile karşılaştırılabilmek için Filtre Sıralama (Filter Rank) metodu seçilmiştir. Her iki yöntemin performanslarının karşılaştırılabilmesi için determinasyon katsayısı, Nash-Sutcliffe Efficiency ve percent bias performans ölçer olarak kullanılmıştır. Sonuçlar önerilen hibrit algoritmanın filtre sıralama algoritmasına üstünlüğünü göstermektedir. Tez yeni bir öznitelik seçim algoritması önermenin yanı sıra, büyük bir havzanın seçilmiş bir makine öğrenmesi metodunun ile modellenebilmesi için bir yöntem sunar ve bu şartlar altında bir öznitelik seçim algoritmasının sahip olması gereken bazı becerileri ortaya koyar.
This study focuses on input variable selection – feature selection – methods when desired to create data-driven models for streamflow stations in a large watershed that have have a variety of numerous stations. In the current literature, the selection is made among a dataset with a limited number of features (<20) for a limited number of stations (<4). In the case of employing them for the case problem, it arises a significant computing cost and time. Hence, the current methods are inadequate for feature selection in modeling a large basin with a data-driven approach. The paper proposes a novel feature selection algorithm—Bubble Selection—based on the idea of utilizing geographic distance as a metric. Evaluation of the performance of the algorithm is carried out by applying the Bubble Selection, to the case study of modeling Austria's water resources of 540 stations with artificial neural networks in a single run mode. The aim is to select features for each station among 2412 stations, streamflow, precipitation, snow, snow depth, and water level measurements are available. The proposed algorithm allows considerably reducing the dimension of features (<22). The Bubble Selection algorithm is further combined with the Sequential Forward Selection algorithm. The performance of the hybrid model is compared with the performance of the Feature Ranking method in terms of the coefficient of determination, Nash–Sutcliffe Efficiency, and percent bias. The results show the superiority of the proposed hybrid algorithm over the Feature Ranking. The paper introduces a methodology to model a large basin and it reveals some skills that a feature selection algorithm should have.