Tez No İndirme Tez Künye Durumu
759663
Sosyal medya ortamlarında veri mahremiyeti duyarlı farkındalık modelleri geliştirme / Developing data privacy sensitive awareness models in social media enviroments
Yazar:SALİH ERDEM EROL
Danışman: PROF. DR. ŞEREF SAĞIROĞLU ; DR. MUSTAFA UMUT DEMİREZEN
Yer Bilgisi: Gazi Üniversitesi / Bilişim Enstitüsü / Adli Bilişim Ana Bilim Dalı / Adli Bilişim Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Dil modelleri = Language models ; Kişisel veri = Personal data ; Mahremiyet = Privacy ; Sistemler = Systems
Onaylandı
Doktora
Türkçe
2022
149 s.
Veri boyutunun büyüdüğü, kişisel olarak üretilen veri çeşitlerinin hızla arttığı ve veriden değer üretmenin yaygınlaştığı günümüz dijital dünyasında en büyük veri üretim ortamları sosyal medya ve çevrimiçi internet uygulamalarıdır. Bahse konu ortamlarda kullanıcıların profil verileri ve paylaşımları başta olmak üzere çok farklı kişisel, hassas ve nitelikli veriler ifşa edilmektedir. Kişisel veri ifşalarının önüne geçilmesi ve kullanıcı gizliliğinin sağlanması için en etkili yöntem farkındalığın artırılmasıdır. Bu nedenle, öncelikle sosyal medya ve gizlilik kavramı detaylı şekilde ele alınmış, sosyal medyada gizlilik farkındalığının ölçülmesine yönelik literatürde yer alan yöntemler ile sosyal veri kullanılarak gerçekleştirilen uygulama çalışmaları detaylı olarak incelenmiştir. Kullanıcı mahremiyet ve gizlilik farkındalığını tespit etmek için Twitter ortamından açık veriler toplanarak etiketlenmiş, Zemberek kütüphanesi kullanılarak doğal dil işleme süreçlerinden geçirilmiş, fastText yaklaşımı kullanılarak oluşturulan dil modelleri ile %75-91 arasında, BERT transformer yaklaşımları ile oluşturulan dil modellerinde %90-95 arasında doğruluk değerleri ile kişisel veri ifşa riski barındıran paylaşımlar tespit edilmiştir. Kullanıcıların farkındalığının tespiti ve arttırılması maksadıyla, kişisel veri ifşa riski olan paylaşımların otomatik olarak tespiti ve renklendirilerek kullanıcıya bir arayüz üzerinden sunulması ile kişisel profil analizine imkân sağlayan T-PII Hunter adı verilen bir sistem geliştirilmiştir. Çalışmanın; kullanıcı gizlilik/mahremiyet farkındalığı ve Türkçe kişisel veri ifşalarının tespitine yönelik gerçekleştirilen ilk çalışma olması, veri toplama süreçlerine referans oluşturacak şekilde Türkçe arama kelimelerinin ilk kez hazırlanması, kişilerin kanunlarla güvence altına alınmaya çalışılan tüm verilerine yönelik bütüncül bir yaklaşım sunması, 40.000 civarı Türkçe tivitin (tweet) etiketlenmesi ile oluşturulan kişisel bilgi veri kümesinin araştırmacılara açık olarak yayımlanması, kabul edilebilir başarım yüzdelerine sahip dil modellerinin oluşturulması ve kullanıcı farkındalığının analiz edilebilmesi için gerçek zamanlı bir sistem önerilmesi gibi yönleriyle literatüre katkı sağlayacağı; kişisel veri ifşalarının azaltılmasının adli bilişim vakaları arasında yer alan kimlik hırsızlığı, dijital dolandırıcılık, kişilik haklarına saldırı, kişisel verilerin ifşası gibi olayların önceden belirlenmesine ve önlem alınmasına katkılar sağlayacağı değerlendirilmektedir.
Social media and online internet applications are the biggest data production environments in today's digital world where the size of data is growing, the types of personally produced data are increasing rapidly and generating value from data is becoming widespread. In these environments, various personal, sensitive and qualified data, especially profile data and sharing of users, are disclosed. For this reason, first of all, the concept of social media and privacy was discussed in detail, and the methods in the literature for measuring privacy awareness in social media and application studies using social data were investigated in depth. In order to detect user privacy and privacy awareness, open data was collected from the Twitter environment and labelled. The obtained data were preprocessed through Zemberek natural language processing library, and with the language models created using fastText approach, tweets that have the risk of personal data disclosure were detected with accuracy values between 75-91% and between 90-95% in the language models created with the BERT transformer approaches. In order to measure and increase the privacy awareness of the users, the system called as T-PII Hunter, which allows personal profile analysis, was developed, and an interface was created to display the shares with the risk of personal data disclosure by coloring them. It is considered that this study will contribute to the literature in terms of being the first study in Turkish language to identify personal data disclosures, determining Turkish search words as a reference to data collection processes for personal data, applying a holistic approach to all data of individuals that are tried to be secured by law unlike the studies conducted on specific personal data frequently seen in the literature, publishing the personal information dataset created by tagging around 40,000 Turkish tweets, open to researchers, creating language models with acceptable success percentages, and proposing a real-time system to analyze user awareness. It is also thought that reduced disclosure of personal data can be used as a proactive measure to prevent many incidents such as identity theft, digital fraud, attack on personal rights, disclosure of personal data, which are among the forensic cases.