Tez No İndirme Tez Künye Durumu
309428
Suppressing microdata to prevent classification based inference / Veriyi bastırmak suretiyle sınıflandırma tabanlı çıkarımın engellenmesi
Yazar:AYÇA AZGIN HİNTOĞLU
Danışman: DOÇ. DR. YÜCEL SAYGIN
Yer Bilgisi: Sabancı Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Elektronik Mühendisliği ve Bilgisayar Bilimi Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Veri madenciliği = Data mining
Onaylandı
Doktora
İngilizce
2011
126 s.
İnternet devrimi ve bilgisayar teknolojisinin ilerlemesi ile birlikte, kurumların dahaönce benzeri görülmemiş miktarda kişisel veri toplaması mümkün olmuştur. Yaygınlaşanveri toplama aktiviteleri, artan veri paylaşma ihtiyacı ile birleştiğinde veri mahremiyetiile ilgili endişeleri tetiklemiştir. Ayrıca kurumların oldukça büyük veri setlerindenönceden bilinmeyen ancak stratejik olarak faydalı bilgileri bulmasını sağlayan veri madenciliği tekniklerinin yaygınlaşması da mahremiyetle ilgili endişeleri arttırmıştır.Veri paylaşımı esnasında mahremiyeti sağlamanın bir yolu gizlenmesi gereken verialanlarının tek tek saklanması ya da genellenmesidir. Ancak, veri madenciliği teknikleri ile kötü niyetli kullanıcıların verinin geri kalanını kullanarak,saklanmış ya da genellenmiş veri alanlarını tahmin etmesi mümkün olmaktadır.Bu tez kapsamında popüler tahminsel veri madenciliği tekniklerinden biri olansınıflandırmaya odaklanılarak, verilen bir veri setini gerek veri alanlarını silerek gereksegenelleyerek güncelleyen, olasılıksal ve karar ağacı kökenli sınıflandırma tekniklerinedayalı çıkarımları önleyen algoritmalar önerilmektedir.Önerilen algoritmaların performansları gerçek veri setleri kullanılarak test edilmiştir.Test sonuçları, önerilen algoritmaların veri setlerini başarı ile baskıladığını ve hem olasılıksalhem de karar ağacı kökenli sınıflandırma tekniklerine dayalı çıkarımları engellediğini göstermiştir.Algoritmalarınaynı anda hem olasılıksal hem de karar ağacı kökenli sınıflandırma tekniklerine dayalıçıkarımları önleyen melez sürümleri, gizli verileri çok daha az yan etki ile saklamayıbaşarmıştır. Benzer şekilde, algoritmaların birden fazla gizli veri alanını saklamayıhedefleyen gelişmiş sürümlerinin, yan etkileri %50 civarında azalttığı gözlenmiştir.
The revolution of Internet together with the progression in computer technologymakes it easy for institutions to collect unprecedented amount of personal data. Thispervasive data collection rally coupled with the increasing necessity of sharing of itraised a lot of concerns about privacy. Widespread usage of data mining techniques,enabling institutions to extract previously unknown and strategically useful informationfrom huge collections of data sets, and thus gain competitive advantages, has alsocontributed to the fears about privacy.One method to ensure privacy during disclosure is to selectively hide or generalizethe confidential information. However, with data mining techniques it is now possiblefor an adversary to predict hidden or generalized confidential information using the restof the disclosed data set. We concentrate on one such possible threat, classification,which is a data mining technique widely used for prediction purposes, and proposealgorithms that modify a given microdata set either by inserting unknown values (i.e.deletion) or by generalizing the original values to prevent both probabilistic and decisiontree classification based inference.To evaluate the proposed algorithms we experiment with real-life data sets. Resultsshow that proposed algorithms successfully suppress microdata and prevent bothprobabilistic and decision tree classification based inference. The hybrid versions of thealgorithms, which aim to suppress a confidential data value against both classificationmodels, block the inference channels with substantially less side effects. Similarly, theenhanced versions of the algorithms, which aim to suppress multiple confidential datavalues, reduce the side effects by nearly 50%.