Tez No İndirme Tez Künye Durumu
416446
Effective & efficient methods for web search result diversification / Web arama cevaplarının çeşitlendirilmesinde etkin ve verimli yöntemler
Yazar:AHMET MURAT ÖZDEMİRAY
Danışman: YRD. DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2015
150 s.
Arama sonuçlarının çeşitlendirilmesi, web kullanıcılarının muğlak veya eksik belirtilmiş bilgi ihtiyaçlarıyla baş edilmesi için kullanılan anahtar tekniklerden biridir. Son yıllarda, sorgu cephelerinin açıkça bilinmesine dayanan stratejiler, sorgu sonuçlarının çeşitlendirilmesinde çok etkili yöntemler olarak kullanılmaya başlamıştır. Bu çalışmada, öncelikle açıkça bilinen sorgu cephelerine dayanan modern çeşitlendirme stratejilerinden birini detaylı bir şekilde değerlendirerek onun zayıf noktalarını tespit ediyoruz. Bu zayıflıklara çözüm getirmek ve algoritmanın performansını artırmak için basit ama daha önce uygulanmamış optimizasyonlar öneriyoruz. İkinci katkı olarak, mevcut çeşitlendirme stratejilerinin aday dokümanların sorgu cephelerine yakınlığından faydalanmasından ilham alarak, çeşitlendirme problemini sıralama birleştirme problemine benzeştiriyoruz. Bu amaçla, aday dokümanların her bir sorgu cephesi için oluşturulmuş sıralamasını kullanmayı ve bu sıralamaları skor tabanlı ve sıra tabanlı birleştirme yöntemlerini adapte ederek birleştirmeyi öneriyoruz. Üçüncü olarak, literatürde ilk defa sorgu sonrası performans tahmincileri (QPP) kullanarak, her sorgu cephesi için aday doküman kümesinin performansını kestirip, bu bilgiyi kullanarak sorgu cephelerinin ağırlıklarını belirliyoruz. Literatürde iyi bilinen QPP'lerin kullanımının yanında, gerçek arama motorları tarafından çevrimiçi sorgu işleme sırasında kullanılabilecek skor dağılımına dayalı üç yeni QPP daha tanımlıyoruz. Son katkı olarak da, performans tahminleri belirli eşiğin altında olan sorgu cephelerini, sorgu cephesinin kendi sonuçlarını kullanarak genişletiyoruz. Yogun deneysel değerlendirmelerimiz gösteriyor ki, bakığında belirli sıralama birleştirme yöntemleri, açıkça bilinen sorgu cephelerine dayanan modern çeşitlendirme stratejilerinden çeşitlendirme etkinliği açısından daha iyi performans sağlıyor. Ayrıca, bu sıralama birleştirme yöntemleri, mevcut çeşitlendirme yöntemlerinden daha az işlem güçlüğü gerektiriyor. Ayrıca, QPP'lerin sorgu cephelerinin ağırlığını bulmak için kullanılması neredeyse tüm modern çeşitlendirme stratejilerinde eşit ağırlıklandırmaya nazaran daha iyi sonuç veriyor. Bunun yanında, önerilen QPP'ler de aspekt ağırlıklandırma açısından mevcut QPP'lerle kıyaslandığında benzer ya da daha iyi sonuç veriyorlar. Son olarak, genişletilecek sorgu cephelerinin QPP yöntemleri ile belirlenmesi ile elde edilen sonuçlar genişletilmemiş veya tamamı genişletilmiş sorgu cephelerine göre daha iyi çeşitlendirme performansı sunuyor.
Search result diversification is one of the key techniques to cope with the ambiguous and/or underspecified information needs of the web users. In this study we first extensively evaluate the performance of a state-of-the-art explicit diversification strategy and pin-point its weaknesses. We propose basic yet novel optimizations to remedy these weaknesses and boost the performance of this algorithm. Secondly, we cast the diversification problem to the problem of ranking aggregation and propose to materialize the re-rankings of the candidate documents for each query aspect and then merge these rankings by adapting the score(-based) and rank(-based) aggregation methods. As a third contribution, for the first time in the literature, we propose using post-retrieval query performance predictors (QPPs) to estimate, for each aspect, the retrieval effectiveness on the candidate document set, and leverage these estimations to set the aspect weights. In addition to utilizing well-known QPPs from the literature, we also introduce three new QPPs that are based on score distributions and hence, can be employed for online query processing in real-life search engines. For the last contribution, we use retrieval performance predictions of query aspects to selectively expand those aspects that perform below some threshold, using the top retrieved documents of the aspect's own results. Our extensive experimental evaluations show that, despite having lower computational complexity than the state-of-the-art diversification strategies, certain ranking aggregation methods are superior to the existing explicit diversification strategies in terms of the diversification effectiveness. Furthermore, using QPPs for aspect weighting improves almost all state-of-the-art diversification algorithms in comparison to using a uniform weight estimator and also the proposed QPPs are comparable or superior to the existing predictors in the context of aspect weighting. Lastly, using QPP methods to selectively expand the query aspects provide better diversification performance compared to unexpanded or fully expanded aspects, for most of the diversification strategies.