Tez No İndirme Tez Künye Durumu
774329
Privacy preserving data analysis for information systems / Bilgi sistemleri için gizliliği koruyan veri analizi
Yazar:BARIŞ YILDIZ
Danışman: PROF. DR. RECEP ALP KUT
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Birliktelik kural madenciliği = Association rule mining ; Kişisel veri = Personal data ; Veri gizliliği = Data privacy ; Veri madenciliği = Data mining
Onaylandı
Doktora
İngilizce
2022
78 s.
Veri toplama ve işlemedeki ilerleme, veri madenciliğini son yıllarda kuruluşlar arasında popüler bir araç haline getirmiştir. Şirketler arasında bilgi paylaşımı, bu aracı her bir taraf için daha faydalı hale getirebilir. Ancak, hassas bilgilerin ifşa edilmesi riski vardır. Paylaşılan veriler, hassas ilişkilerin gizleneceği şekilde değiştirilmelidir. Sık öğe kümelerinin keşfi, firmaların kullandığı en etkili veri madenciliği araçlarından biri olduğundan, sık öğe kümesi madenciliğine devam etmek için gizliliği koruyan teknikler gereklidir. Algoritmik olarak iki tür yaklaşım vardır: sezgisel ve kesin. Bu çalışma, veritabanında yan etkiler ve minimum bozulma açısından daha iyi bir çözüm için kısıtları kullanan kesin bir öğe kümesi gizleme yaklaşımı sunar. Yaklaşımımız gizleme işleminden önce sık sık öğe kümesi madenciliği yapılmasını gerektirmez. Bu, yaklaşımımıza toplam çalışma süresinde bir avantaj sağlar. Sonuçlarımız, gizleme yaklaşımımızın etkinliğini ve öğe kümelerinin önceki madenciliğinin ortadan kaldırılmasının zaman açısından verimli olduğunu göstermektedir. Ayrıca, kişilerin kişisel verilerinin hassasiyeti konusundaki farkındalıklarını anlamak için bir anket gerçekleştirdik. Sonuçlar, katılımcıların mümkün olduğunca mahremiyetlerini koruma eğiliminde olduklarını ve farklı durumlarda farklı bir duyarlılık tutumuna sahip olduklarını göstermektedir. Ayrıca katılımcıların kendilerini rahat hissetmediklerinde yanıltıcı bilgi verme eğiliminde oldukları gözlemlenmiştir. Bu çalışma, insanların hassas bilgilerinin toplanılmasından çok üçüncü taraflarla paylaşmaktan rahatsız olduklarını göstermektedir.
Data collection and processing progress made data mining a popular tool among organizations in the last decades. Sharing information between companies could make this tool more beneficial for each party. However, there is a risk of sensitive knowledge disclosure. Shared data should be modified in such a way that sensitive relationships would be hidden. Since the discovery of frequent itemsets is one of the most effective data mining tools that firms use, privacy-preserving techniques are necessary for continuing frequent itemset mining. There are two types of approaches in the algorithmic nature: heuristic and exact. This study presents an exact itemset hiding approach, which uses constraints for a better solution in terms of side effects and minimum distortion on the database. The proposed approach does not require frequent itemset mining executed prior to the hiding process. This gives our approach an advantage in total running time. We give an evaluation of our algorithm on some benchmark datasets. Our results show the effectiveness of our hiding approach and elimination of prior mining of itemsets is time efficient. In addition, we conducted a survey to understand the awareness of people regarding the sensitivity of their personal data. The results show that participants tend to protect their privacy whenever possible and have a different attitude of sensitivity in different situations. In addition, it has been observed that participants tend to give misleading information when they do not feel comfortable. This study shows that people are uncomfortable with sharing sensitive information with third parties rather than collecting it.