Tez No İndirme Tez Künye Durumu
657690
Advanced methods for diversification of results in general-purpose and specialized search engines / Genel-amaçlı ve özelleşmiş arama motorlarında sonuç çeşitlendirme için ileri yöntemler
Yazar:SEVGİ YİĞİT SERT
Danışman: DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE ; PROF. DR. ÖZGÜR ULUSOY
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2020
153 s.
Arama sonuçlarının çeşitlendirilmesi, kullanıcıların olası farklı isteklerine hitap eden belgeleri ortaya çıkararak daha fazla kullanıcıyı memnun etmek için kullanılan yaygın bir bilgi erişim mekanizmasıdır. Belirsiz ve kapsamlı sorgular için mümkün olduğunca hem ilgili hem de çeşitli bir sonuç listesi oluşturulması amaçlanır. Bu sorgular, arama sonucu çeşitlendirme algoritmalarının dikkate alması gereken farklı alt konulara (diğer bir deyişle yönlere) sahiptir. Bu tezde, ilk olarak, sorguya cevap olarak önerilen sonuç sıralamasında sorgunun tüm olası yönlerini kapsamayı sağladığından, arama sonucu çeşitlendirilmesi ararken öğrenmeyi destekleyen yararlı bir yöntem olarak ele alınmaktadır. Eğitsel bir arama motorunda, konuya ilişkin belirsizliğe ek olarak belge içeriğinin farklı eğitim düzeylerine uygunluğu ve belgenin türü dahil olmak üzere farklı birden çok boyutta arama sonuçlarının çeşitlendirilmesinin uygun olduğu tartışılmaktadır. Olasılıksal yöntemlere ve denetimli öğrenmeye dayanan cevap çeşitlendirme yöntemlerini, sıralama sırasında birden çok bağımsız boyutun alt konularını dikkate alabilecek şekilde genişleten bir çerçeve sunulmakta ve yeni geliştirilen test koleksiyonunda önerilen yöntemlerin etkinliği gösterilmektedir. Bu tezin ikinci özgün katkısı olarak, sorgu alt konularının çeşitlendirme sırasında bilindiğini varsayan dolaysız arama sonucu çeşitlendirmesinin etkinliğini artırmak için denetimli öğrenme yöntemlerinden yararlanan üç farklı çerçeve önerilmektedir. Ayrıca, literatürde ilk kez, sorgu başarım tahmincilerinden (SBT'ler) yararlanarak sorgu alt konularının öneminin öğrenilmesi önerilmektedir. Kapsamlı deneylerimizi yaygın olarak kullanılan bir karşılaştırmalı değerlendirme veri kümesi üzerinde gerçekleştirmekte ve dolaysız arama sonucu çeşitlendirme performansının, büyük eğitim kümeleri veya yüksek hesaplama kapasitesi gerektirmeden denetimli öğrenme yöntemleri kullanılarak önemli ölçüde iyileştirilebildiğini göstermekteyiz. Son olarak, statik indeks budamanın çeşitlendirme performansı üzerindeki etkisi incelenmektedir. Belgelerin konusal çeşitliliğini hesaba katan ve indeksi budarken farklı alt konulara sahip belgeleri koruyan iki yeni strateji sunulmaktadır. Önerilen budama stratejilerimizin çeşitlendirme etkinliği açısından mevcut yaklaşımlardan daha iyi performans sergilediği gösterilmektedir.
Diversifying search results is a common mechanism in information retrieval to satisfy more users by surfacing documents that address different possible intentions of users. It aims to generate a result list that is both relevant and diverse when ambiguous and/or broad queries appear. Such queries have different underlying subtopics (a.k.a., aspects or interpretations) that search result diversification algorithms should consider. In this thesis, we first address search result diversification as a useful method to support search as learning, since diversification ensures to cover all possible aspects of the query in the final ranking. We argue that, in a search engine for the education domain, it is appropriate to diversify results across multiple dimensions, including the suitability of the content for different education levels and the type of the document in addition to topical ambiguity. We introduce a framework that extends the probabilistic and supervised methods for diversification that can consider the aspects of multiple independent dimensions during ranking, and demonstrate its effectiveness on a newly developed test collection. As our second contribution, we propose three different frameworks that exploit supervised learning methods to improve the effectiveness of explicit search result diversification, which presumes that query aspects are known during diversification. We also, for the first time in the literature, propose to learn the importance of aspects by leveraging query performance predictors (QPPs). We conduct our exhaustive experiments on a commonly used benchmark dataset and show that explicit diversification performance can be considerably improved using supervised learning methods without requiring large training sets or high computing capabilities. As a third contribution of this thesis, we examine the impact of static index pruning on diversification performance. We introduce two novel strategies that take into account the topical diversity of documents and preserve documents relevant to different aspects while pruning the index. We show that our proposed pruning strategies outperform the existing approaches in terms of various diversification measures.