Tez No İndirme Tez Künye Durumu
627237
Büyük hacimli görüntü veri tabanlarında hızlı görüntü arama / Fast image search on high dimensional image database
Yazar:OSMAN DURMAZ
Danışman: DOÇ. DR. HASAN ŞAKİR BİLGE
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2019
97 s.
Bu tez çalışmasında, büyük hacimli görüntü veri tabanları üzerinde hızlı ve doğru bir şekilde görüntü arama yapılabilmesi için geliştirilen RDH (Randomized Distributed Hashing) yöntemi sunulmuştur. Büyük görüntü veri tabanlarında sorgulanan görüntülere yakın örneklerin bulunabilmesi için genellikle ANN (Approximate Nearest Neighbor) yöntemleri kullanılmaktadır. Bu yöntemlerde aranan örneklere benzer en yakın gerçek örneklerin bulunması yerine yakın olması muhtemel örnekler bulunmaktadır. Çoğu zaman özetleme yöntemleriyle gerçeklenen bu yöntemlerin kullanılmasıyla arama zamanı ciddi oranda azaltıbilmektedir. ANN arama yöntemleri genellikle merkezi olarak uygulanmaktadır. Ancak gerçek dünya uygulamalarında veriler genellikle dağıtık bir şekilde saklanmaktadır. Bu durum ANN arama yöntemlerinin dağıtık bir şekilde uygulanabilmesini gerektirmektedir. Bu amaçla önerdiğimiz yaklaşımda LSH (Locality Sensitive Hashing) dağıtık bir şekilde uygulanmıştır. Veri bir küme içindeki farklı düğümlere dağıtılmış sonrasında her bir düğümde aynı özet fonksiyon kümesi kullanılarak veri özetlenmiştir. Sorgu aşamasında sorgu örneği her bir düğümde yerel olarak aranmaktadır. Paralel sorgulardan faydalanıldığında sorgu süresi önemli oranda düşmüştür. Deneysel çalışmalarda 10 düğüm kullanıldığında sorgu hızı yaklaşık olarak 10 kat artırılmıştır. Sistemin başarısını değerlendirmek için kullanılan MAP (Mean Average Precision) değeri literatürdeki çalışmalarla kıyaslanabilecek ölçüde yüksek çıkmıştır. Bu çalışmada aynı zamanda düğümlerde aynı özet fonksiyonların kullanılması yerine farklı özet fonksiyonların ve seçilmiş özet fonksiyonların kullanımıyla LSH yönteminin dağıtık kullanımı detaylı bir şekilde irdelenmiştir. Seçilmiş özet fonksiyonları indeksleme yapılmadan önce veriyi bölme özelliğine göre oluşturulmuştur. LSH yöntemi veri bağımsız bir yöntem olduğundan düğümlerde aynı özet fonksiyonu kullanıldığında alınan sonuçlara benzer sonuçlar elde edilmiştir. Alınan sonuçlar son zamanlarda yayınlanan ve dağıtık özetleme konusunda farklı yöntemlere ait sonuçlar içeren bir çalışma ile karşılaştırılmıştır. Önerilen yöntem dağıtık olarak büyük boyutlu veri kümelerinde görüntü arama için umut vermektedir.
In this thesis, RDH (Randomized Distributed Hashing) method which is developed for fast and accurate image search on large scale image databases is presented. ANN (Approximate Nearest Neighbor) approaches are usually used to find the nearest samples to the queried images in large scale image databases. In these methods approximate nearest samples are found instead of finding the real nearest samples. Using these methods, which are often implemented by hashing methods, can significantly reduce the query time. ANN search methods are generally applied in centralized manner. However in real-world applications, data are often stored in a distributed manner. This situation requires to implement ANN search methods in a distributed manner. For this purpose in our proposed approach, LSH (Locality Sensitive Hashing) method is applied in a distributed way. Data are distributed to different nodes within a cluster, and then the data are hashed on each node using the same hash function set. In query phase, the query instance is searched locally on each node. By exploiting from parallelism, the query time is significantly decreased. In the experimental studies, we have a speed up of 10 for the query performance in the distributed scheme with 10 nodes. The level of MAP (Mean Average Precision) scores that are used to evaluate system performance are quite high which are comparable to other methods in literature. We have also investigated the usage of different and selected randomized hash functions in different nodes rather than using same indexing. By this way the distributed usages of LSH are scrutinized. We create selected hash functions according to their data division property before indexing. Since LSH is data independent method, we have obtained similar results with using same hash functions. We compared our experimental results with state-of-the-art methods given in a recent study. The proposed distributed scheme is promising for searching images in large datasets with multiple nodes.