Tez No İndirme Tez Künye Durumu
285226
Bilgi erişim sistemlerinde istatistiksel bağımsızlık esasında indeks terim ağırlıklandırma / Index term weighting based on statistical independence for information retrieval systems
Yazar:İLKER KOCABAŞ
Danışman: PROF. DR. BAHAR KARAOĞLAN ; YRD. DOÇ. DR. BEKİR TANER DİNÇER
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Uluslararası Bilgisayar Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2011
146 s.
Bu tezde bilgi erişim (kıs. BE) sistemlerinde indeks terim ağırlıklandırma (kıs. İTA) işlemi için iki farklı yaklaşımda özgün modeller geliştirilmiştir. Bağımsızlıktan sapma (İng. Divergence From Independence, kıs. DFI) ve Luhn-tabanlı modeller olarak adlandırılan bu iki yaklaşım, sırasıyla: `istatistiksel bağımsızlık fikri' ve `Luhn'un kelime frekansı ile kelime önemi ilişkisi hakkındaki iddiasını' temel almaktadır.Luhn'un iddiasının BE açısından geçerliliği detaylıca incelenmiş ve destekleyici bulgulara ulaşılmıştır. Luhn'un iddiasını nicel olarak gösteren ve `Terim Frekansı ? Ters Belge Frekansı' (İng. Term Frequency ? Inverse Document Frequency, kıs. TF ? IDF) şemasınını temel alan İTA formülleri: z puanları tabanlı ve medyan tabanlı olmak üzere iki farklı yöntemle oluşturulmuştur. Ortaya konulan modellere uygun İTA formüllerinin BE başarımları TREC (İng. Text Retrieval Conference) 6, 7 ve 8 anlık sorgu izi veri kümelerinde test edilmiştir. Bu testlerde elde edilen BE başarımları ile sunulan istatistiksel yaklaşımların indeks terim ağırlıklandırma probleminin çözümü için kullanılabileceği sonucuna varılmıştır.Bu tez kapsamında geliştirilen DFI ile ağırlıklandırma kullanan BE sistemi ile aktif olarak TREC-2009 ve TREC-2010'a katılınmıştır. Türkiye'den ilk defa katılınan 2009 yılındaki TREC'te yalnızca ağırlıklandırma ile bile ortalama bir başarım elde edilmiştir. BE işlemindeki temel bazı yöntemlerin DFI üzerine eklenmesi ile gerçekleştirilen yürütümler ile TREC-2010 web izi anlık sorgu görevinde en iyi sistemler arasına girilmiştir.
In this thesis, two novel models are developed for index term weighting (ITW) process in information retrieval (IR) systems: one of these is based on statistical independence notion and named as divergence from independence model (DFI) and the other is based on Luhn?s claim on the relation between term frequency and term importance.Luhn?s claim?s validity in the scope of IR has been investigated elaborately and supporting findings are reached. In order to express Luhn?claim quantitatively, ITW formulas based on Term Frequency ? Inverse Document Frequency (TF ? IDF) schema are constructed by means of z scores and median approaches. The IR perfomances of ITW formulas of the developed models are tested on TREC (İng. Text Retrieval Conference) 6, 7 and 8 adhoc track datasets. IR perfomance analysis shows that presented statistical approaches can be used in the solution of index term weighting problem.Active participations in TREC-2009 and TREC-2010 have been carried out with the IR system which was developed around the idea of DFI weighting in the scope of this thesis. In TREC-2009, the IR system developed achieved average performance even it was using only ITW, and was actually the first participation from Turkey. The addition of some fundemantal methods on DFI have raised the performance of the IR system to the level of those ranking at the top in TREC-2010 web track adhoc task.