Tez No İndirme Tez Künye Durumu
418660
Efficient and secure document similarity search over cloud utilizing mapreduce / Mapreduce ile bulut üzerinde dokümanlar için verimli ve güvenli benzerlik hesaplama
Yazar:MAHMOUD ALEWİWİ
Danışman: PROF. DR. ERKAY SAVAŞ
Yer Bilgisi: Sabancı Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2015
133 s.
Dokumanlar arasında benzerlik bulunmasının gerçek hayatta tekrarlayan web sayfalarını veya intihalleri bulmak gibi önemli uygulama alanı vardır. Her ne kadar $k$-benzerlik algoritması gibi temel teknikler literatürde uzun zamandır mevcut olsa da, özellikle çok büyük boyutlardaki verilerle çalışmanın gerektiği büyük veri uygulamalarında bu tür basit teknikler yavaş ve yetersiz kalırlar. Özellikle dokümanları ikili olarak bir ortak terimi içeriyor mu diye karşılaştırmak çok yüksek depolama ve hesaplama gücü gereksinimleri doğurur. Bulut bilişimin hızla yaygınlaşması, kullanıcıların bu ihtiyaçlarına cevap vermektedir. Veriyi bu tür bulut servis sağlayıcılar üzerinden paylaşmak, verinin erişilebilirliğini garanti etse de, verinin mahremiyeti ve gizliliği garanti edilemez. Bu durum, özellikle hassas verilerin mahremiyetini koruma problemini ortaya çıkarmıştır. Geleneksel dokümanlar arası benzerlik bulma algoritmaları çoğunlukla sorgulanan dokümanı veri tabanındaki diğer tüm dokümanlarla karşılaştırmayı gerektirir. Bizim önerdiğimiz sistemde ise, açık (şifrelenmemiş) metin verileri üzerinde gerekli olan karşılaştırma sayısını önemli oranda azaltan yeni bir filtreleme tekniği kullanımı önerilmiştir. Bu sistem açık veriler üzerindeki benzerlik karşılaştırmalarında çok verimli olarak çalışmaktadır. Bu sistemin yanı sıra, mahremiyeti de sağlayacak üç güvenli benzerlik arama algoritması da (Secure Sketch Search, Secure Minhash Search ve Secure ZOLIP) tasarlanmıştır. Bunlardan ilki dokümanlar arasındaki kosinüs benzerliğini konum hassasiyetli özütleme (locality sensitive hashing) teknikleri kullanarak yapar. İkinci yöntem MinHash algoritmalarını kullanırken üçüncüsü ise öncelikle açık metinler için tasarladığımız ZOLIP imzalarının şifrelenmiş hallerini kullanarak benzerlik hesaplaması yapar. Önerdiğimiz yöntemleri gerçeklerken büyük veriler için de ölçeklenebilir olması için, Hadoop dağıtımlı dosya sistemleri ve MapReduce paralel programlama modelinden yararlanıyoruz. Gerçek veriler üzeride yaptığımız deneyler, önerilen yöntemlerin literatürde var olan diğer sistemlerden daha az sayıda birleştirme/karşılaştırma işlemine ihtiyaç duyduğunu, ve dolayısıyla daha hızlı olduğunu göstermiştir.
Document similarity has important real life applications such as finding du- plicate web sites and identifying plagiarism. While the basic techniques such as k-similarity algorithms have been long known, overwhelming amount of data, being collected such as in big data setting, calls for novel algorithms to find highly similar documents in reasonably short amount of time. In particular, pairwise comparison of documents sharing a common feature, necessitates prohibitively high storage and computation power. The wide spread availability of cloud computing provides users easy access to high storage and processing power. Furthermore, outsourcing their data to the cloud guarantees reliability and availability for their data while privacy and security concerns are not always properly addressed. This leads to the prob- lem of protecting the privacy of sensitive data against adversaries including the cloud operator. Generally, traditional document similarity algorithms tend to compare all the documents in a data set sharing same terms (words) with query docu- ment. In our work, we propose a new filtering technique that works on plain- text data, which decreases the number of comparisons between the query set and the search set to find highly similar documents. The technique, referred as ZOLIP algorithm, is efficient and scalable, but does not provide security. We also design and implement three secure similarity search algorithms for text documents, namely Secure Sketch Search, Secure Minhash Search and Secure ZOLIP. The first algorithm utilizes locality sensitive hashing tech- niques and cosine similarity. While the second algorithm uses the Minhash Algorithm, the last one uses the encrypted ZOLIP Signature, which is the secure version of the ZOLIP algorithm. We utilize the Hadoop distributed file system and the MapReduce parallel programming model to scale our techniques to big data setting. Our experi- mental results on real data show that some of the proposed methods perform better than the previous work in the literature in terms of the number of joins, and therefore, speed.