Tez No İndirme Tez Künye Durumu
512702
Büyük veride etkin gizlilik koruması için yazılım tasarımı / Software design for efficient privacy preserving in big data
Yazar:CAN EYÜPOĞLU
Danışman: PROF. DR. AHMET SERTBAŞ ; DR. ÖĞR. ÜYESİ MUHAMMED ALİ AYDIN
Yer Bilgisi: İstanbul Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2018
158 s.
Büyük veri konusuna son yıllarda giderek artan bir ilgi vardır. Büyük verinin ortaya çıkışı, verilerin paylaşılması ve işlenmesi için gerekli olan veri gizliliği için kullanılan koruma modelleri açısından yeni zorluklara yol açmaktadır. Yayınlanan veri setinin kullanılabilirliğini sürdürürken bireylerin hassas bilgilerini korumak, gizliliğin korunmasındaki en önemli zorluktur. Bu bağlamda, verilerin kimlik ifşası ve bağlantı saldırılarına karşı korunması için veri anonimleştirme yöntemleri kullanılmaktadır. Bu tez çalışmasında, kaos ve pertürbasyon temelli yeni bir veri anonimleştirme algoritması, büyük veride gizlilik ve kullanılabilirlik koruması için önerilmiştir. Ayrıca önerilen algoritma kullanılarak gizliliği korunan büyük veri setleri Hadoop üzerinde dağıtıklaştırılmıştır. Önerilen algoritmanın performansı Kullback-Leibler uzaklığı, olasılıksal anonimlik, sınıflandırma doğruluğu, F-ölçütü, yürütme süresi ve Impala sorguları açısından değerlendirilmiştir. Deneysel sonuçlar, önerilen algoritmanın, etkin ve aynı veri setini kullanan mevcut algoritmaların çoğundan üstün olduğunu göstermektedir. Verilerin karıştırılması için kaosun uygulanması sonucu ortaya çıkan bu başarılı algoritma, gizlilik korumalı veri madenciliği ve veri yayınlama alanlarında kullanılmada gelecek vadetmektedir.
The topic of big data has attracted increasing interest in recent years. The emergence of big data leads to new difficulties in terms of protection models used for data privacy, which is of necessity for sharing and processing data. Protecting individuals' sensitive information while maintaining the usability of the data set published is the most important challenge in privacy preserving. In this regard, data anonymization methods are utilized in order to protect data against identity disclosure and linking attacks. In this study, a novel data anonymization algorithm based on chaos and perturbation has been proposed for privacy and utility preserving in big data. Besides, the big data sets which are privacy preserved using the proposed algorithm are distributed on Hadoop. The performance of the proposed algorithm is evaluated in terms of Kullback-Leibler divergence, probabilistic anonymity, classification accuracy, F-measure, execution time and Impala queries. The experimental results have shown that the proposed algorithm is efficient and superior to most of the existing algorithms using the same data set. Resulting from applying chaos to perturb data, such successful algorithm is promising to be used in privacy preserving data mining and data publishing.