Tez No İndirme Tez Künye Durumu
776467
Sıralamayı öğrenme algoritmalarında kullanılmak üzere SEO-tabanlı özniteliklerin türetilmesi ve değerlendirilmesi / Construction and evaluation of SEO-based features for to use in learning to rank algorithms
Yazar:AHMET AYDIN
Danışman: DOÇ. DR. AHMET ARSLAN
Yer Bilgisi: Eskişehir Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Bilimleri Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Bilgi erişim = Information access
Onaylandı
Doktora
Türkçe
2022
107 s.
Web belgesi koleksiyonlarını hedefleyen bilgi erişimi üzerine yapılan geçmiş çalışmalar, web belgelerinin kalitesini ölçen ve sadece belgelere dayalı (sorgu-bağımsız) ölçütlerin veya ön belge özelliklerinin (PageRank vb.) bir bilgi erişim sistemine dahil edilmesinin, sistem etkinliğini artırdığını göstermektedir. Bu çalışmada Arama Motoru Optimizasyonu tekniklerinden ilham alınarak yeni ön belge özellikleri tanıtılmaktadır. Tanıtılan bu özellikler sıralamayı öğrenme algoritmalarında öznitelik olarak kullanılarak etkinlikleri test edilmektedir. Deneyler iki standart web belge koleksiyonunda gerçekleştirilmektedir: 500 milyon belge içeren ClueWeb09 ve 733 milyon belge içeren ClueWeb12 koleksiyonları. Deneylerde sorgu kümesi olarak bu koleksiyonları hedef alan ve toplam 1,204 sorgu içeren TREC ve NTCIR sorgu kümeleri kullanılmaktadır. Önceki çalışmalarda tanıtılan standart öznitelikler kullanılarak güçlü bir referans öznitelik kümesi oluşturulmuş ve bu çalışmada tanıtılan özniteliklerin etkisi referans öznitelikler ile deneysel olarak karşılaştırılarak incelenmiştir. Deney sonuçları, bu çalışmada tanıtılan özniteliklerin bilgi erişim sistemi başarımını kullanılan test koleksiyonlarında istatistiksel olarak anlamlı derecede artırdığını göstermiştir (örneğin, ClueWeb09 veri setinde %18'lik ortalama nDCG@10 puan artışı). Ayrıca tanıtılan öznitelikler fonksiyonel özelliklerine göre 5 farklı gruba ayrılmış ve grupların sistem başarımına katkısı detaylı olarak analiz edilmiştir.
The past work on information retrieval targeting web document collections shows that incorporating a measure that is solely based on documents (query-independent) and measures the quality of web documents, or rather the document prior (e.g., PageRank), into an information retrieval system improves the retrieval effectiveness. In this study, we introduce new document priors, inspired by Search Engine Optimization techniques. We also empirically investigate their effect by employing them as features in a learning to rank deployment. The experiments are performed on the two standard Web Information Retrieval test collections: the ClueWeb09 and the ClueWeb12 datasets, which include 500 and 733 million web documents, respectively. TREC and NTCIR query sets, which target those collections and contain a total of 1,204 queries, are used as query sets in the experiments. A strong baseline is formed by using standard features introduced in the previous works, with respect to which the effect of newly introduced features in this study is empirically compared. The experimental results reveal that the features introduced in this work led to statistically significant improvements in retrieval performance on the test collections in use (e.g., for the ClueWeb09 dataset, 18% improvement on average nDCG@10 score). The introduced features are classified into 5 groups with respect to functional properties and the contribution of each group to retrieval performance is also analyzed in detail.