Ulusal Tez Merkezi

Tez No	İndirme	Tez Künye	Durumu
512702		Büyük veride etkin gizlilik koruması için yazılım tasarımı / Software design for efficient privacy preserving in big data Yazar:CAN Danışman: PROF. DR. AHMET SERTBAŞ ; DR. ÖĞR. ÜYESİ MUHAMMED ALİ AYDIN Yer Bilgisi: İSTANBUL ÜNİVERSİTESİ / FEN BİLİMLERİ ENSTİTÜSÜ / BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI / Bilgisayar Mühendisliği Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Anahtar Kelime:	Onaylandı Doktora Türkçe 2018 158 s.

Büyük veri konusuna son yıllarda giderek artan bir ilgi vardır. Büyük verinin ortaya çıkışı, verilerin paylaşılması ve işlenmesi için gerekli olan veri gizliliği için kullanılan koruma modelleri açısından yeni zorluklara yol açmaktadır. Yayınlanan veri setinin kullanılabilirliğini sürdürürken bireylerin hassas bilgilerini korumak, gizliliğin korunmasındaki en önemli zorluktur. Bu bağlamda, verilerin kimlik ifşası ve bağlantı saldırılarına karşı korunması için veri anonimleştirme yöntemleri kullanılmaktadır. Bu tez çalışmasında, kaos ve pertürbasyon temelli yeni bir veri anonimleştirme algoritması, büyük veride gizlilik ve kullanılabilirlik koruması için önerilmiştir. Ayrıca önerilen algoritma kullanılarak gizliliği korunan büyük veri setleri Hadoop üzerinde dağıtıklaştırılmıştır. Önerilen algoritmanın performansı Kullback-Leibler uzaklığı, olasılıksal anonimlik, sınıflandırma doğruluğu, F-ölçütü, yürütme süresi ve Impala sorguları açısından değerlendirilmiştir. Deneysel sonuçlar, önerilen algoritmanın, etkin ve aynı veri setini kullanan mevcut algoritmaların çoğundan üstün olduğunu göstermektedir. Verilerin karıştırılması için kaosun uygulanması sonucu ortaya çıkan bu başarılı algoritma, gizlilik korumalı veri madenciliği ve veri yayınlama alanlarında kullanılmada gelecek vadetmektedir.

The topic of big data has attracted increasing interest in recent years. The emergence of big data leads to new difficulties in terms of protection models used for data privacy, which is of necessity for sharing and processing data. Protecting individuals' sensitive information while maintaining the usability of the data set published is the most important challenge in privacy preserving. In this regard, data anonymization methods are utilized in order to protect data against identity disclosure and linking attacks. In this study, a novel data anonymization algorithm based on chaos and perturbation has been proposed for privacy and utility preserving in big data. Besides, the big data sets which are privacy preserved using the proposed algorithm are distributed on Hadoop. The performance of the proposed algorithm is evaluated in terms of Kullback-Leibler divergence, probabilistic anonymity, classification accuracy, F-measure, execution time and Impala queries. The experimental results have shown that the proposed algorithm is efficient and superior to most of the existing algorithms using the same data set. Resulting from applying chaos to perturb data, such successful algorithm is promising to be used in privacy preserving data mining and data publishing.