Tez No İndirme Tez Künye Durumu
478660
Privacy preserving publishing of hierarchical data / Hiyerarşik verilerde mahremiyetin korunması
Yazar:İSMET ÖZALP
Danışman: PROF. DR. YÜCEL SAYGIN ; DOÇ. DR. MEHMET ERCAN NERGİZ
Yer Bilgisi: Sabancı Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2017
103 s.
Günümüzde bir çok uygulama kısmi belirli verilerin saklanması ve yönetimi (XML veritabanları ve belge odaklı veritabanları gibi) üzerine kurulmuştur. Bu veriler çoğu zaman güvenilmeyen üçüncü şahıs ve kurumlarla paylaşılmaktadır. Bu durum bireylerin veri mahremiyetine yönelik temel sorunları da beraberinde getirmektedir. Bu çalışmada, hiyerarşik verilerde kullanılmak üzere geliştirilmiş anonimleştirme teknikleri gösterilmektedir. Ayrıca bu çalışma ile hiyerarşik verilerin anonimleştirilmesi için günümüz tekniklerinin kolaylıkla çözemeyeceği veri mahremiyeti sorunlarına genelleştirme ve anatomlaştırma tekniklerine dayalı yenilikçi çözümler getirilmektedir. Veri genelleştirmesi, verilerin neredeyse düşük seviye değerlerini (ör: grip) daha yüksek seviye kavramlara (ör: solunum yolu hastalığı) dönüşmesini ihtiva eder. Veri değerlerine genelleme ve silme yapılarak, iki önemli mahremiyet standardı $k$-anonimleme (fertleri $k$ tane elemanlı gruplara koyarak saklar) ve $\ell$-çeşitlilik (bir kişinin, herhangi bir mahrem bilgiyle ilişkilendirilebilme ihtimalini limitler) revize edilmiş ve hiyerarşik verilere uygulanmıştır. Bu standartları destekleyen fayda duyarlı algoritmalar sunulmuştur. Algoritmaların ve buluşsal yöntemlerin değerlendirmesi için iki farklı üniversite veri setiyle, biri sentetik diğeri gerçek veri seti olmak üzere, deneyler yapılmıştır. Deney sonuçlarına göre karşılaştırılabilir gizlilik garantileri sağlayan ilgili yöntemlerden önemli ölçüde daha iyi performans elde edilmiş ve gösterilmiştir. Veri anatomlaşlaştırması, belirteç verilerle, mahrem veriler arasındakı bağlantıyı maskeler ve genelleme zorunluluğunu ortadan kaldırır. Bu sayede daha yüksek verim sağlamaya imkan tanır. Hiyerarşik verilerde yüksek boyutluluk sebebiyle verim sağlamanın ciddi endişe kaynağı olmasına rağmen anatomlaştırma avantajı hiyerarşik verilerde bu güne kadar önerilmemiştir. Bu tezde, anatomlaştırma işleminin hiyerarşik verilere nasıl uygulanağını tanımlanmış ve gösterilmiştir. Ayrıca klasik l-çeşitlilik yöntemi geliştirilerek yeni bir mahremiyet standardı (p,m)-gizliliği önerilmiştir. (p,m)-gizliliği, m tane herhangi bir mahrem verinin bir kişiyle ilişkilendirilme ihtimalini p ile limitler. Deneyler sonucunda daha zor mahremiyet standartlarında bile örnek teşkil edecek performans sağladığını gözlemlenmektedir.
Many applications today rely on storage and management of semi-structured information, e.g., XML databases and document-oriented databases. This data often has to be shared with untrusted third parties, which makes individuals' privacy a fundamental problem. In this thesis, we propose anonymization techniques for privacy preserving publishing of hierarchical data. We show that the problem of anonymizing hierarchical data poses unique challenges that cannot be readily solved by existing mechanisms. We addressed these challenges by utilizing two major privacy techniques; generalization and anatomization. Data generalization encapsulates data by mapping nearly low-level values (e.g., influenza) to higher-level concepts (e.g., respiratory system diseases). Using generalizations and suppression of data values, we revised two standards for privacy protection: kanonymity that hides individuals within groups of k members and `-diversity that bounds the probability of linking sensitive values with individuals.We then apply these standards to hierarchical data and present utility-aware algorithms that enforce the standards. To evaluate our algorithms and their heuristics, we experiment on synthetic and real datasets obtained from two universities. Our experiments show that we significantly outperform related methods that provide comparable privacy guarantees. Data anatomization masks the link between identifying attributes and sensitive attributes. This mechanism removes the necessity for generalization and opens up the possibility for higher utility. While this is so, anatomization has not been proposed for hierarchical data where utility is a serious concern due to high dimensionality. In this thesis we show, how one can perform the non-trivial task of defining anatomization in the context of hierarchical data. Moreover, we extend the definition of classical `-diversity and introduce (p,m)-privacy that bounds the probability of being linked to more than m occurrences of any sensitive values by p. Again, in our experiments we have observed that even under stricter privacy conditions our method performs exemplary.