Tez No İndirme Tez Künye Durumu
558828
A semantic vector space model using Euclidean distance based relatedness / Öklid uzaklığını kullanarak anlamsal yakınlık hesaplayan bir vektör uzayı modeli
Yazar:ÇAĞATAY NEFTALİ TÜLÜ
Danışman: DOÇ. DR. UMUT ORHAN
Yer Bilgisi: Çukurova Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2019
128 s.
Bu tezde, kelimelerin anlamsal ilişkilerini ölçmek için etkili bir yöntem geliştirilmesi amaçlanmaktadır. Her ne kadar bilgisayar tabanlı çalışmalar bu konuda yaklaşık otuz yıl boyunca iyi sonuçlar elde etse de insan sezgisine yakın bir ilişki ölçümü üretmeyi başaramamışlardır. WordNet, çizge uyarlı modele sahip olduğu için bu çalışmada WordNet tabanlı bir yaklaşım tercih edilmiştir. Ayrıca, kelime prototiplerinin düşük boyutlu vektör uzayındaki yoğun temsiline dayanan kelime gömme denen modelden esinlenilmiştir. Önerilen model ile, başlangıçta büyük boyutlu uzaya rasgele konumlandırılmış kelime prototipleri, WordNet ilişki ağırlıkları ile prototip konumlarını aynı anda optimize eden yinelemeli bir öğrenme algoritması ile vektörel uzayda uygun pozisyonlara yerleştirilmesi sağlanmıştır. Prototiplerin çok boyutlu uzayda uygun konumu bulması için Öklid uzaklığına bağlı bir anlamsal yakınlık fonksiyonu kullanılmıştır. Yapılan kıyaslama testlerinde ise elde edilen sonuçlar bu çalışmanın daha önceki kelime seviyesindeki anlamsal benzerlik çalışmalarına göre daha başarılı sonuçlar ürettiğini göstermiştir. Bu yaklaşımın sadece anlamsal benzerlik değil, daha başka birçok doğal dil problemine çözüm getirmede farklı bir bakış açışısı sunacağı öngörülmektedir.
In this thesis, it is aimed to develop an efficient method to measure the semantic relatedness of the words. Although computer-based studies have achieved good results on this subject for nearly three decades, they have not succeeded to produce relatedness measurement close to human intuition. In this study, a WordNet-based approach is preferred, because WordNet has a graph adapted model. In addition, it is inspired by the so-called word embedding model, which is based on the dense representation of word prototypes in the low-dimensional vector space. Through proposed model, randomly positioned word prototypes are located into appropriate positions in multidimensional vector space with help of iterative learning algorithm that optimizes WordNet relation weights and word prototype positions that use Euclidean distance based relatedness. Both the positions of the words in the vector space and the weight of the semantic relations that connect the words on WordNet are determined effectively through the proposed model. The results obtained in the benchmark tests show that the new proposed model produces more successful results than the previous word-level semantic similarity studies. This approach might present a different perspective not only on semantic similarity studies but also on solving many other natural language problems.