Tez No İndirme Tez Künye Durumu
632553
Bayesian approaches for privacy preserving data sharing / Mahremiyeti koruyan veri paylaşımında bayesçi yöntemler
Yazar:BEYZA ERMİŞ
Danışman: PROF. DR. ALİ TAYLAN CEMGİL
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2020
180 s.
Bu tezde, farklı kaynaklardan toplanan matrisler ve yüksek mertebeli tensörler şeklinde depolanan heterojen verilerin birlikte analiz edilmesi ve veri füzyon problemine yoğunlaşıyoruz. Problemin çözümünde ise bağlaşımlı matris ve tensör ayışımı modelleri kullanmaktayız. Bu yöntem, paylaşılan modlardan ortak gizli faktörleri çıkararak matrislerin ve tensörlerin aynı anda bileşenlerine ayrılmasını sağlar. Biz de burada eksik bağlantı tahmini problemi için bağlaşımlı tensör modelleri geliştirerek, çeşitli model topolojileri ve çeşitli ıraksaylar kullanarak başarılı deneysel sonuçları rapor etmekteyiz. Çoğu zaman, veri matrisleri ve tensörler değişik taraflar arasında dağıtılır. Bu taraflar arasında bilgi paylaşımı gizlilik ve mahremiyeti koruma gereksinimini getirir, bu nedenle ele aldığımız ikinci sorun dağıtılmış ve heterojen veri kümelerinin mahremiyetini korumaktır. Dağıtık bir ortamda bireylerin gizliliğini sağlayan pratik bir mekanizma geliştirecek ve bu mekanizmayi çesitli gerçek veriler kullanarak değerlendirecegiz. Bu mekanizma için Bayesçi cıkarım ve diferansiyel mahremiyet arasındaki bağlantıdan faydalanarak etkili bir bağlaşımlı tensör ayrışım yöntemi geliştireceğiz. Yöntemlerimizin mahremiyet garantisi sağlarken sentetik ve gerçek veri kümelerinde iyi tahmin doğruluğu sağlayabildiğini deneysel olarak göstereceğiz. Son olarak, tensör ayrışımı ve yapay sinir ağları arasındaki bağlantıyı göstererek, yapay sinir ağlarının kullandığı verilerinin gizliliğini korumak için bir yaklaşım önereceğiz.
In this thesis, we focus on the data fusion problem where we have heterogeneous data which is collected from different sources and stored in the form of matrices and higher-order tensors and propose coupled matrix and tensor factorization models to be able to jointly analyze these relational datasets. This method performs simultaneous factorization of matrices and tensors by extracting the common latent factors from the shared modes. We develop coupled models using various tensor models and cost functions for the missing link prediction problem and report the successful empirical results. Most of the time, the data matrices and tensors are distributed between several parties. Sharing information across those parties brings the privacy protection requirement, therefore the second problem we handle is protecting the privacy of distributed and heterogeneous datasets. We develop and evaluate a practical mechanism that ensures the privacy of individuals in a distributed setting, in which N data sites jointly estimate the parameters of a statistical model conditioned on all the data without sharing their input datasets. We exploit the connection between differential privacy and sampling from a Bayesian posterior to derive an efficient coupled tensor factorization algorithm. We empirically show that our methods are able to provide good prediction accuracy on synthetic and real datasets while providing provable privacy guarantee. Finally, we propose an approach to preserve the privacy of the neural network's training data due to the connection between tensor factorization and neural networks. We introduce a dropout technique that provides an elegant Bayesian interpretation to dropout, and show that the intrinsic noise added can be exploited to obtain a degree of differential privacy.