Tez No İndirme Tez Künye Durumu
310334
Privacy-preserving collaborative filtering on arbitrarily partitioned data / Gizliliği koruyarak rastgele bölünmüş veri tabanlı ortak süzgeçleme
Yazar:İBRAHİM YAKUT
Danışman: DOÇ. DR. HÜSEYİN POLAT
Yer Bilgisi: Anadolu Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğruluk = Accuracy ; Gizlilik = Privacy ; Performans = Performance
Onaylandı
Doktora
İngilizce
2012
150 s.
Ortak süzgeçleme amacıyla toplanan veriler iki firma hatta rakip şirketler arasında rastgele şekilde bölünmüş olabilir. Sanal alışveriş siteleri yetersiz kullanıcı oylarına sahip olabilirler. Yetersiz veri, hatalı ve güvenilir olmayan öneriler üretmeye sebep olabilir. Güvenilir öneriler sağlamak için bu şirketlerin parçalanmış tercih verileri üzerinden işbirliği yapmaları bir çözüm olabilir. Bununla birlikte gizlilik endişelerinden dolayı, e-ticaret sitelerinin bu şekilde dağılmış veri üzerinden daha iyi ortak süzgeçleme hizmetleri sağlamaları ciddi bir sorun teşkil etmektedir. Gizlilik sağlanmadığı takdirde, bu şirketlerin idari süreçlerinde ciddi hukuki ve finansal çıkmazlarla karşı karşıya gelmesi durumu söz konusudur.Bu çalışma iki sanal alışveriş sitesinin gizliliklerini tehlikeye atmadan rastgele bölünmüş veri üzerinden nasıl öneri üretebileceklerini incelemeyi amaçlamaktadır. Ürün-tabanlı, güven-tabanlı ve basit Bayes sınıflandırıcı-tabanlı algoritmalar kullanılarak rastgele bölünmüş veriler üzerinden nümerik ve ikili öneriler üreten gizlilik korumalı yöntemler önerilecektir. Çalışmada ayrıca çapraz bölünmüş verilere sahip iki şirketin hibrit ortak süzgeçleme algoritmaları kullanarak nasıl öneriler üreteceği ele alınmıştır. Önerilen her bir metod gizlilik açısından irdelenecektir. Ayrıca, önerilen yöntemler ilave hesaplama, haberleşme ve saklama yükleri açısından da incelenecektir. İşbirliğinin öneri kalitesini nasıl artırdığını ve gizlilik ölçütlerinin doğruluğu nasıl etkilediğini göstermek için gerçek verilerle deneyler yapılacaktır. Bütün incelemeler ve deney sonuçları önerilen çözümlerin rastgele bölünmüş veriler üzerinden e-ticaret sitelerinin gizliliklerini ihlal etmeden ve etkin bir şekilde daha kaliteli öneriler üretmek için tercih edilebileceğini göstermiştir.
Data collected for collaborative filtering purposes might be arbitrarily partitioned between two parties, even rival companies. Online vendors might have insufficient user ratings. Scarce data then might cause offering inaccurate and unreliable recommendations. In order to supply trustworthy and dependable predictions, one solution for such companies might be cooperation on partitioned user preference data. However, it is still a challenge to convince e-commerce sites cooperate on partitioned data so that they can provide richer collaborative filtering services, due to privacy concerns. Unless confidentiality is protected, such companies are expected to face with serious legal and financial deadlocks in managerial operations.This study aims to scrutinize how to estimate predictions based on arbitrarily partitioned data configurations between two e-commerce companies without deeply jeopardizing their privacy. Privacy-preserving schemes are proposed to offer numerical or binary recommendations using item-based, trust-based, and naïve Bayesian classifier-based prediction algorithms on arbitrarily partitioned data. Along the study, how two parties ended up with cross partitioned data can provide CF services using hybrid CF algorithm is also investigated. It is shown that each proposed method does not intensely violate data owners? confidentiality. The proposed schemes are also investigated in terms of supplementary computation, communication, and storage overheads. Experimental trials are conducted using real data sets to show how the quality of the predictions improves due to collaboration and privacy measures affect accuracy. All appraisements demonstrate that the proposed solutions are preferable for estimating higher quality predictions efficiently on partitioned data while preserving data holders? privacy.