Tez No İndirme Tez Künye Durumu
598810
Aykırı veri yönelimli fayda temelli büyük veri anonimleştirme modeli / Outlier oriented utility based big data anonymization model
Yazar:YAVUZ CANBAY
Danışman: PROF. DR. ŞEREF SAĞIROĞLU ; DR. YILMAZ VURAL
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
203 s.
Veri mahremiyeti, mahremiyet seviyesi ile veri faydası arasındaki en iyi dengeyi bulmaya çalışan, zor ve güncel bir problemdir. Her ne kadar ilk bakışta veri sahiplerinin mahremiyetini korumak olarak anlaşılsa da, sadece bununla sınırlı olmayıp verinin fayda boyutunu da veri mahremiyeti koruma sürecine dâhil eder. Veri faydası, veri mahremiyeti sürecindeki en önemli unsurlardan biri olup, mahremiyeti korunmuş veri üzerinde yapılacak analizlerin ve geliştirilen modellerin doğruluğunu doğrudan etkiler. Veri mahremiyeti kapsamında, toplam veri faydasını düşüren veri grubu olarak tanımlanan aykırı verilerin mahremiyet koruma sürecinde yönetilmesi gerekir. Literatürde veri mahremiyeti kapsamında aykırı verileri dikkate alan ve bunları yöneten çeşitli çalışmalar mevcuttur. Ancak bu çalışmalar, aykırı verileri kısmen veya tamamen veri kümesinden çıkardığı veya aykırı verilerin değerini değiştirdiği için hem veri faydası hem de veri güvenilirliği açısından yeterli çözüm sunamamaktadır. Bu tezde, aykırı verileri yöneterek toplam veri faydasını arttıran geleneksel mimari tabanlı iki yeni anonimleştirme modeli (u-Mondrian ve u-Canon), Mondrian modelinden daha üstün yeni bir anonimleştirme modeli (Canon) ve büyük veri mimarisinde SMondrian modeline aykırı veri konsepti uygulayarak daha yüksek veri faydası sunan yeni bir anonimleştirme modeli (Su-Mondrian) ilk defa önerilmiş, geliştirilmiş, uygulanmış ve test edilmiştir. Elde edilen test sonuçlarına göre; DM, GCP ve AECS metrikleri için u-Mondrian modelinin Mondrian modeline göre sırasıyla %15,30-%49,75, %16,02-%44,50 ve %13,76-%48,98 aralıklarında daha yüksek veri faydası sunduğu; u-Canon modelinin Canon modeline göre ise sırasıyla %15,30-%49,08, %5,18-%32,43 ve %13,76-%48,99 aralıklarında daha yüksek veri faydası sunduğu, Canon modelinin Mondrian modeline göre GCP metriği için %43,01-%45,47 aralığında daha yüksek veri faydası sunduğu ve son olarak Su-Mondrian modelinin SMondrian modeline göre DM, GCP ve AECS metrikleri için sırasıyla %25,55-%33,12, %22,83-%29,16 ve %9,29-%17,29 aralıklarında daha yüksek veri faydası sunduğu görülmüştür.
Data privacy is a difficult tradeoff problem between privacy and utility. Although it is understood as preserving the privacy of data owners at first glance, it has the utility dimension of data in privacy preserving processes. Data utility directly affects the accuracy of the analysis and models which are made and developed on the privacy preserved data. In the context of data privacy, outliers are defined as the data group that reduces total data utility and they need to be managed in the privacy preserving processes. In the literature, there exist various studies which focus on outliers and outlier management. Because these studies remove outliers partially or completely from the dataset or change the real values of outliers, they do not present sufficient solutions in terms of data utility and data reliability. In this thesis, two traditional architecture based anonymization models (u-Mondrian and u-Canon) which propose to increase total data utility by managing outliers, a new anonymization model (Canon) which is better than Mondrian and a new big data based anonymization model (Su-Mondrian) which manages outliers and presents higher data utility than SMondrian were proposed, developed, applied and tested. According to the experimental results, for DM, GCP and AECS metrics, it was seen that u-Mondrian presents higher data utility than Mondrian in the ranges of %15.30-%49.75, %16.02-%44.50 and %13.76-%48.98; u-Canon presents higher data utility than Canon in the ranges of %15.30-%49.08, %5.18-%32.43 and %13.76-%48.99 respectively; Canon presents higher data utility than Mondrian in the range of %43.01-%45.47 for GCP metric and finally Su-Mondrian presents higher data utility than SMondrian in the ranges of %25.55-%33.12, %22.83-%29.16 and %9.29-%17.29 for DM, GCP and AECS metrics respectively.