Tez No İndirme Tez Künye Durumu
779182
Privacy-preserving horizontal federated learning methodology through a novel boosting-based federated random forest algorithm / Yeni bir güçlendirmeye dayalı birleşik rastgele orman algoritmasıyla gizliliği koruyan yatay birleşik öğrenim yöntemi
Yazar:MERT GENÇTÜRK
Danışman: PROF. DR. FEHİME NİHAN ÇİÇEKLİ
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Makine öğrenmesi = Machine learning ; Makine öğrenmesi yöntemleri = Machine learning methods ; Veri gizliliği = Data privacy
Onaylandı
Doktora
İngilizce
2023
158 s.
Bu çalışmada, yatay olarak bölümlenmiş veriler için Güçlendirmeye Dayalı Birleşik Rastgele Orman (BOFRF) adı verilen, yalnızca tüm katılımcıların tahminleme gücünü artırmakla kalmayıp aynı zamanda başarısız yerel modellere sahip katılımcıların tahmin gücü üzerinde önemli ölçüde yüksek iyileştirme sağlayan yeni bir birleşik topluluk sınıflandırma algoritması önerilmiştir. Algoritma, iyi bilinen bir torbalama algoritması olan rastgele ormana artırma fikri uyarlanarak, onun bir birleşik öğrenme versiyonu olarak geliştirilmiştir. Entegrasyon adımında, iletişim ve hesaplama maliyetini artırmayan, yerel sınıflandırıcıların her bir katılımcının verisi üzerindeki sınıflandırma performansına dayalı yeni bir ağırlık hesaplama ve birleştirme metodolojisi sunulmuştur. Çalışmada ayrıca, önerilen algoritma aracılığıyla oluşturulan birleşik modellerin tahmin gücünü artırmak için, her bir katılımcının BOFRF'in hiper parametrelerine yerel olarak ince ayar yaptığı ve kendi veri kümesinde daha iyi performans gösteren bir birleşik model oluşturduğu kişiselleştirilmiş bir BOFRF algoritması sunulmuştur. Ek olarak, katılımcıların algoritmayı çalıştırmadan önce veri dağılımı benzerliklerine veya farklılıklarına göre kümelenmesini sağlayan bir uzantı da önerilmiştir. Son olarak, güvenlik ihlallerinin oluşmasını önlemek ve mahremiyet seviyesini artırmak için BOFRF için güvenilir bir üçüncü taraf ile merkezileştirilmiş uygulama ve güvenli toplam protokolü kullanılarak merkezi olmayan uygulama olmak üzere iki farklı uygulama önerilmiştir. BOFRF'in performansı, sağlık sektöründen dört ayrı veri seti kullanılarak kurulan farklı federe ortamlarda değerlendirilmiştir. Sonuçlar, BOFRF algoritmasının ve uzantılarının, her durumda yerel rastgele orman modellerinin tahmin gücünü geliştirdiğini göstermiştir. Önerilen metodolojinin avantajı, başarısız yerel modellere sahip katılımcılar için sağladığı iyileştirme seviyesinin mevcut çözümlere kıyasla önemli ölçüde yüksek olmasıdır.
In this thesis, a novel federated ensemble classification algorithm for horizontally partitioned data called Boosting-based Federated Random Forest (BOFRF) is proposed, which not only increases the predictive power of all participating sites, but also provides significantly high improvement on the predictive power of sites having unsuccessful local models. In this regard, a federated version of random forest, which is a well-known bagging algorithm, is implemented by adapting the idea of boosting to it. In the integration step, a novel aggregation and weight calculation methodology is introduced that assigns weights to local classifiers based on their classification performance at each site instead of proportioning them with the sample size or site index without increasing the communication or computation cost. To increase the predictive power of the federated models built through the proposed algorithm, a personalized implementation is presented where each participant fine-tunes the hyperparameters of BOFRF locally and come up with a better-performing federated model on their own datasets. In addition, a clustered extension is proposed where participants are clustered according to their data distribution similarities or differences prior to running the algorithm. Finally, to prevent security breaches from happening and increase the level of privacy, two different implementations are proposed for BOFRF, which are centralized implementation with a trusted third party and decentralized implementation using secure sum protocol. The performance of the proposed solution was evaluated in different federated environments that were set up by using four healthcare datasets. The empirical results show that the BOFRF algorithm and its extensions improve the predictive power of local random forest models in all cases. The advantage of the proposed methodology is that the level of improvement it provides for sites having unsuccessful local models is significantly high unlike existing solutions.