Tez No İndirme Tez Künye Durumu
378406
Corpus-driven semantic relations extraction for Turkish language / Derlem tabanlı anlamsal sözlük oluşturma
Yazar:TUĞBA YILDIZ
Danışman: DOÇ. DR. BANU DİRİ
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Dilbilim = Linguistics
Dizin:
Onaylandı
Doktora
İngilizce
2014
137 s.
Anlamsal ilişkilerin çıkarılması, Doğal Dil İşleme uygulamaları için büyük önem taşır. Bu uygulamalardan biride ontoloji/sözlük oluşturmaktır. Günümüzde sıkça kullanılan WordNet, insanlar tarafından elle oluşturulan bir sözlüktür. Birçok çalışmaya kaynak olan WordNet, ne kadar güvenilir ve etkili olsa da zahmetli ve zaman alıcıdır. Bu yüzden anlamsal ilişkilerin büyük elektronik dokümanlardan (derlem, sözlük, gazete, etc.) otomatik olarak çıkarılması önemli hale gelmiş, örüntü-tabanlı, dağılım benzerliği, makine öğrenmesi algoritmaları ya da hibrit yöntemler kullanılarak çözümler sunulmuştur. Bu çalışmada, tam ve yarı otomatik yöntemler kullanılarak, isimler için alt/üst, parça/bütün ve eş anlamlılık ilişkileri Türkçe dilinde, derlem kullanılarak çıkarılmaya çalışılmış ve birkaç model sunulmuştur. Alt/üst kavram ilişkisi için sunulan metot, sözlük-yapısal örüntülere ve anlamsal benzerliğe dayanır. Örüntüler, derleme uygulanarak aday alt kavramlar çıkarılmıştır. Sonrasında ise kesinliği arttırmak için benzerlik ölçütleri kullanılarak eleme yapılmıştır. Anma değerini arttırmak için farklı bir model olan istatistik tabanlı genişleme yöntemi kullanılmış, farklı skorlama ve ağırlıklandırma fonksiyonları modele dahil edilmiştir. Parça/bütün ilişkisi için, örüntü yaklaşımı kullanılmış ve Türkçe derleme uygulanmıştır. İki farklı örüntü yapısı kullanılmıştır. İlki literatürde daha önceden tanımlı olan örüntülerin Türkçe'ye çevrilmesi ile gerçekleştirilmiştir. Diğer ise önyükleme metodu ile otomatik olarak belirlenmiştir. Tanımlı örüntüler, Genel ve Sözlük tabanlı olarak iki sınıfa ayrılmıştır. Bu örüntüler derleme uygulandıktan sonra, çıkan durumlar üzerinden birbirleri ile kaç defa çıktığı bilgisi kullanılmıştır. Diğer metot da ise önceden belirlenen kelime çiftleri kullanılarak, derlemdeki örüntüler bulunmuş ve örüntülerin güvenilirliği hesaplanmıştır. Güvenli örüntüler yardımıyla yeni çiftler bulunmuş ve kelime çiftlerinin güvenilirliği hesaplanmıştır. Bazı ölçütler (bilgi kazancı, T-score gibi) kullanılarak karşılaştırma yapılmıştır. Son olarak bu örüntülerin ve metodun sistem doğruluğunu nasıl geliştirdiği incelenmiştir. Eş anlamlılık ilişkisi için kullanılan yaklaşım, eş anlamlı olan çiftlerin benzer anlamsal ve sözdizimsel karakterlere sahip olmasıdır. Bu çiftler aynı alt/üst ve parça/bütün ilişkilerini paylaşırlar. Eş anlam ilişkisini, alt/üst ya da parça/bütün ilişkisindeki gibi örüntüler kullanarak derlem içinden yakalamak Türkçe için zordur. Bu yüzden bağımlılık ilişkileri (nesne/özne, etc.) kullanılmıştır. Çalışmanın ilk amacı modeli geliştirecek sözdizimsel ve anlamsal özellikleri çıkarmaktır. Bunun için herbir özellik çapraz doğrulama yöntemi ile değerlendirilmiştir. Model, özelliklerin birleşimi ile başarılı sonuçlar vermiştir. Bu yaklaşıma ek olarak, WordNet ve tek/iki dilli sözlükler kullanılarak verilen bir kelimenin eş anlamlısı derlemden çıkarılmıştır. Çalışmadaki en büyük katkı, Türkçe derlem üzerinde alt/üst kavram, parça/bütün ve eş anlamlılık ilişkisinin yarı ve tam otomatik olarak çıkarılmasıdır. İkinci katkı, WordNet, sözlük gibi birçok kaynağın adapte edilmesi ile oluşturulan birleşik bir modelin kullanılmasıdır.
Identification of semantic relations is the core problem in many Natural Language Processing tasks. One of the important tasks is to build up ontology or to construct thesaurus/lexicon. The most popular and widely used lexical database, WordNet is developed by manually. So it is used as source and also comparable work for most of the studies. Although these types of lexicons are reliable and effective, their production can be troublesome and time-consuming in some cases. So acquisition of semantic relation automatically from large amount of electronic documents (corpora, dictionaries, newspapers, newswires, etc.) becomes more important. In this study, automatic and semi-automatic acquisition system for acquisition of hyponym/hypernym, meronym/holonym and synonym relations are handled from large corpus in Turkish Langage for nouns. For this purpose, some sort of methods is proposed to realize the model. The method for hyponym/hypernym relation relies on lexico-syntactic pattern and semantic similarity. Once the model has extracted the items using patterns, it applies similarity based elimination of the incorrect ones in order to increase precision. Second model is based on similarity based expansion in order to increase recall. Several scoring functions are within bootstrapping algorithm are applied. For meronym/holonym, lexico-syntactic patterns are utilized and adopted again to a Turkish huge corpus. Two different approaches are proposed to prepare patterns; one is based on pre-defined patterns that are taken from literature, second automatically produces patterns by means of bootstrapping method. Pre-defined patterns are categorized into two clusters; General and Dictionary-based patterns. Once these patterns help the system to extract matched cases, it proposes a list of part-whole pairs depending on their co-occur frequencies. For latter, bootstrapping model takes manually prepared unambiguous seeds to induce syntactic patterns and estimates their reliabilities. Then, system extracts pair instances then ranks them by instance reliability scoring. Additional, statistical selection is used on global data obtaining from all results of entire patterns, where global data refers to a whole-by-part matrix on which several association metrics such as information gain, T-score etc. are measured and compared Finally, how these patterns and statistical method improve the system accuracy especially within corpus-based approach and distributional feature of words is evaluated. For synonym relation, the main assumption is that synonym pairs show similar semantic and syntactic characteristics by the definition. They share same meronym/holonym and hypernym/hyponym relations. Contrary to synonymy, hypernymy and meronymy relations can be easily acquired by applying lexico-syntactic patterns to a corpus. Such acquisition might be utilized and ease detection of synonymy. Likewise, some particular syntactic relations are utilized such as object/subject of a verb etc. Machine learning algorithms were applied on all these acquired features. The first aim is to find out which syntactic and semantic features are the most informative and contributes most to the model. Performance of each feature is individually evaluated with cross validation. The model that combines all features shows promising results and successfully detects synonymy relation. Another model is proposed to extract synonym relation with using integration of some sort of sources such as WordNet, bilingual on-line dictionary and monolingual on-line dictionary. The main contributions of the study is considered as being first major attempt for Turkish hyponym/hypernym, meronym/holonym and synonym identification based on corpus-driven approach for Turkish Language. Second contribution is to use integrated approaches such as pattern-based method with statistical elimination and expansion, bootstrapping patterns, etc. for extracting relations. Third contribution is to use multiple resources such as WordNet, mono/bilingual on-line dictionaries, etc. and to integrate them.