Tez No İndirme Tez Künye Durumu
421061
Türkçe sözcük anlam belirsizliği giderme / Word sense disambiguation for Turkish
Yazar:BAHAR İLGEN
Danışman: PROF. DR. EŞREF ADALI ; YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2015
140 s.
Doğal dillerde yaygın olarak gözlenen "Anlam Belirsizliği" kavramı bir sözcüğün birden fazla anlama sahip olması durumudur. Sözcük Anlam Belirsizliği Giderme (SABG) işlemi, birden fazla anlama sahip sözcüğün kullanıldığı bağlamda en uygun anlamının belirlenmesi olarak tanımlanmaktadır. İnsanlar arası iletişimde, önceki deneyimler ve karmaşık insan bilişsel süreçlerinin yardımıyla çözümlenen anlam belirsizliği, bilişim ve Doğal Dil İşleme (DDİ) alanlarında da ele alınmakta olan önemli ve güncel konular arasında yer almaktadır. Bir sözcüğün anlamının belirginleştirilmesi DDİ alanındaki uygulamaların tamamına yakınında başarıma katkı sağlayan ve gereksinim duyulan bir adımdır. Bu uygulamalar, Bilgiye Erişim (BE), Bilgisayarlı Çeviri (BÇ), Anlamsal İşaretleme (Aİ), Soru Cevaplama (SC) gibi pek çok alanı içine almaktadır. Günümüzde Bilgisayarlı Dilbilim (BD) çalışmalarına internet ve diğer alanlarda duyulan gereksinim büyük boyutlara ulaşmıştır. Bu gereksinim sonucunda, sözü edilen DDİ uygulamaları kapsamında çeşitli yöntem ve algoritmalar geliştirilmiştir. Bu çalışmalarda, dillerin yapısı, mevcut kaynak ve kısıtlar, uygulamanın gereklilikleri gibi unsurların önemli rolü olduğu ve yöntemlerin bu doğrultuda geliştirildiği bilinmektedir. SABG alanındaki çalışmalar göz önünde bulundurulduğunda, bilgi, derlem tabanlı ve melez yöntemler olmak üzere üç yaklaşımın öne çıktığı görülmektedir. Bilgi tabanlı yöntem ailesinde sözlük, eş anlamlılar sözlüğü ve ontolojiler kullanılan temel kaynakları oluşturmaktadır. Derlem tabanlı yaklaşımlarda bilgi derlemlerden öğrenilmektedir. Derlem tabanlı yöntemler kendi içinde denetimli, denetimsiz ve yarı denetimli alt sınıflarına ayrılmaktadır. SABG alanında yapılan ilk çalışmalarda ağırlıklı olarak anlam işaretli derlemlere gereksinim duyulan denetimli yöntemler üzerinde durulmuştur. Denetimli yöntemlerle anlam belirsizliği yüksek doğrulukla giderilse de Türkçe gibi kaynak ve derlemlerin kısıtlı olduğu dillerde yarı denetimli ve denetimsiz yöntemler yakın zamanda yapılan çalışmalarda önem kazanmıştır. Denetimsiz ve yarı denetimli yöntemleri tercih edilir kılan bir diğer sebep ise derlem anlam işaretlemelerinin emek yoğun bir süreç olmasıdır. İşaretli derlemlerin yetersiz olduğu ya da kullanılmadığı çalışmalarda sözlük anlamlarına bağımlılık ortadan kalkmakta ve derlemler sözcüğün anlamlarını kendi bulmaktadır. Melez yöntemlerde ise bilgi ve derlem tabanlı yöntemlerden birlikte faydalanılmaktadır. Kullanılan denetim seviyesinin yanında SABG alanı için yapılan bir diğer sınıflandırma, probleme olan yaklaşımın kapsamı ile ilgilidir. Sözü edilen sınıflandırma; 10 Seçilmiş Sözcük Yaklaşımı (SSY) ve 20 Tüm Sözcükler Yaklaşımlarını (TSY) içine almaktadır. İlk yaklaşımda, önceden saptanan bir hedef sözcüğe ilişkin örneklerdeki belirsizlik giderilmektedir. SSY yaklaşımında sözcük ve anlam kümeleri sınırlı olduğundan anlam belirsizliği giderilmesinde genellikle denetimli makine öğrenmesi yöntemlerinin kullanımı tercih edilmektedir. Anlam etiketli örnekler sınıflandırıcının eğitilmesinde kullanılmaktadır. Anlam belirsizliğine sahip bir sınama örneğinin anlam ataması eğitilen sınıflandırıcı ile gerçekleştirilmektedir. TSY yaklaşımında ise belirli bir metin içerisindeki tüm sözcüklerin belirsizliğinin giderilmesi hedeflenmektedir. TSY yaklaşımı ile sözcük türü etiketleme arasında benzerlik bulunmakla birlikte, TSY yaklaşımında gereksinim duyulan etiket kümesi diğerine göre çok daha büyük olmaktadır. Etiket kümesinin büyüklüğü ise her sözcük için yeterli miktarda örnek bulmadaki zorluktan ötürü veri seyrekliği sorununa yol açmaktadır. Sözlük ya da derlemlerden elde edilen bilgi, anlam belirsizliği gidermede en temel bileşendir. Bilgi kaynakları, görünüm bilgisi ya da öğrenilmiş bilgi sınıflarına ayrılmaktadır. İlk grup sözcük anlam sıklıkları, kavram ağaçları, seçimsel öncelikler, sözcük etiketleri gibi bilgi türlerini içine alırken, öğrenilmiş bilgi sınıfları ise belirtici sözcükler, sözdizimsel özellikler, alana özgü bilgiler ve paralel derlemler gibi alt sınıflardan oluşmaktadır. Yapılan çalışmalarda öğrenilmiş bilgi türlerinin daha çok denetimli yöntemlerde, görünüm bilgisinin ise denetimsiz yöntemler dahilinde kullanıldığı gözlenmiştir. Uygulamada ise bilgi kaynaklarının çeşitli kombinasyonları SABG çalışmalarında kullanılmaktadır. Makine öğrenmesi yöntemleri derlem tabanlı SABG yöntemleri dahilinde anlam belirsizliği giderme bilgisinin otomatik olarak çıkartılmasında kullanılmaktadır. Bir SABG uygulamasında genellikle kullanılan kaynaklar; anlam işaretli derlemler, çevrimiçi sözlükler ve doğal dillere ilişkin geniş ölçekli kaynaklardan oluşmaktadır. Bir SABG uygulamasında kullanılacak özellik kümeleri ve öğrenme aşamasında kullanılan algoritma seçimi iki önemli unsurdur. Bir çok DDİ uygulamasında makine öğrenmesi yöntemleri ile elde edilen bilgiden faydalanılmaktadır. SABG alanında kullanılan denetimli yöntemler model ya da kuralların oluşturulma biçimine göre sınıflara ayrılmaktadır. Bu yaklaşımlar istatistiksel yöntemler (Naïve Bayes), benzerlik tabanlı yöntemler (k- En Yakın Komşu algoritması), konuya özgü özellikler (Bir söz öbeği/bağlam için bir anlam), ayrıştırıcı kural yöntemleri (karar listeleri, karar ağaçları, kural birleşimine dayalı yöntemler), doğrusal sınıflandırıcılar ve Kernel yöntemlerinden oluşmaktadır. Sözcük etiketleme ve sözdizimsel analiz gibi DDİ alanındaki diğer çalışma konularına kıyasla SABG konusu bir takım zorlukları içermektedir. Her sözcük bir anlam ile eşleşeceğinden tam bir eğitim verisinin oluşturulabilmesi için çok büyük miktarda örnek gereksinimi ortaya çıkmaktadır. Dildeki veri seyrekliği problemini aşmanın bir yolu eğitim algoritmasında kullanılacak özelliklerin doğru seçilmesinden geçmektedir. Bu özellikler, yerel ya da geniş ölçekte bulunabilmektedir. Makine öğrenmesi yönteminin uygulanmasından önce tüm örneklerin öğrenme algoritması tarafından anlaşılacak şekilde kodlanması gerekmektedir. Konumsal Özellikler (KÖ) ve Sözcük Kesesi (SK) özellikleri SABG çalışmalarında ele alınan hedef sözcüğün komşularından elde edilen iki önemli özellik grubudur. Yapılan çalışmaların tamamına yakınında belirsizliği giderilmek istenen sözcüğün merkezde olduğu bir "n" pencere aralığından faydalanılmaktadır. Konumsal özellikler ile hedef sözcüğün sol ve sağ komşularına ilişkin bilgiler kullanılmaktadır. Kullanılan bilgiler, sözcük gövde biçimleri ve sözcük türleri gibi bileşenlerden oluşmaktadır. İkinci grup olan SK özelliklerinde ise sözcükler herhangi bir sıra ya da konum gözetilmeksizin ele alınmaktadır. Benzerlik ölçütü olarak seçili penceredeki sözcüklerin konum gözetmeksizin bulunup bulunmama durumlarına ve sıklıklarına bakılmaktadır. Doğal dillerdeki kısıtlı kaynaklar göz önünde bulundurulduğunda, faydalanılacak bilginin doğru seçilmesi ve etkin özelliklerin kullanılması derlemlerdeki doğru anlamların belirlenmesinde özellikle önemlidir. Bu çalışma kapsamında yapılan özgün çalışmalar ve katkılar aşağıda açıklanmıştır: • Hedef Sözcük Derlemi (HSD): Her bir paragrafı hedef sözcük içeren metinlerden oluşan bir derlem hazırlanmıştır. Derlemin hazırlanması sırasında önce Türkçede belirsizlik derecesi yüksek olan isim ve eylemler belirlenmiştir. Ardından seçilen sözcükler için dengeli olarak metinler toplanmıştır. Daha sonra bu sözcükler oylayıcılar tarafından Türk Dil Kurumu (TDK) sözlüğündeki anlamlar ile işaretlenmiştir. • Etkin Özelliklerin Bulunması: Etkin özelliklerin bulunmasında iki yöntem denenmiştir: 10 Konumsal Özellikler , 20 Sözcük Kesesi Özellikleri. • Bir sözcüğün belirsizliğinin giderilmesinde etkin özelliklerin ortaya çıkartılabilmesi için denetimli yöntemler üzerinde çalışılmıştır. Bu çalışmanın sonunda hedef sözcüğün öncesinde ve sonrasında yer alan sözcüklerin etkin özellikleri çıkartılmış ve bu özelliklerin belirsizlik gidermeye katkıları ortaya konulmuştur. Bu çalışmalar yapılırken pencere boyu sabit tutulmuştur. Çalışma kapsamında sözcük kök ve eklerinin oluşturduğu biçimbilimsel analiz çıktılarının hedef sözcük ve komşuları ile birlikte değerlendirmeye alındığı konumsal özellikler sınanmıştır. • Etkin özellikleri belirlemede sözcük kesesi yönteminin katkısı da incelenmiştir. Etkin özelliklerin bulunmasında en uygun kese boyu belirlenmiştir. Bu çalışma hedef isim ve eylemler için gerçekleştirilmiştir. Kese içinde bulunan sözcüklerin hedef sözcüğün ne kadar yakınında araştırılması gerektiği ortaya konmuştur. • Konumsal özellikler ile sözcük kesesi yöntemlerinin sonuçları karşılaştırılmış, konumsal özelliklerin anlam belirsizliği gidermedeki etkisinin daha yüksek olduğu gösterilmiştir. Her iki yöntem birlikte kullanıldığı takdirde daha iyi sonuç bulunmuştur. • Denetimli yöntemlerle belirsizlik giderme çalışmasını sürdürebilmemiz için Türkçeyi yetkin biçimde temsil eden ve sözcüklerin anlamları işaretlenmiş derlem gerekmektedir. Böyle bir derlemin Türkçe için olmadığı ve yapılmasının çok emek yoğun olacağı bilindiği için çalışmamızı denetimsiz yöntemlere yöneltmiş bulunmaktayız. • Denetimsiz yöntem olarak DDİ alanında çok az kullanıldığına tanık olduğumuz çizge tabanlı yöntem Türkçe için geliştirilmiştir. İlk aşamada yöntemi gerçekleştirmek üzere gerekli program hazırlanmıştır. İkinci aşamada yöntemi etkin kılmak için çizge parametrelerinin etkisi değerlendirilmiştir. Denetimsiz yöntemin çizgesini oluşturmak ve başarımı ölçmek için HSD kullanılmıştır. • Sonuç olarak geliştirdiğimiz denetimsiz yöntem ile Türkçe sözcüklerinin belirsizliğinin giderilebileceği ortaya konmuştur. Ancak yöntemimizin en son aşamasında merkez düğümlerin anlamları işaretlenmiş derlemden yararlanarak belirlenmiştir. Geliştirdiğimiz yöntemin başarımı denetimli yöntemlere yakın ölçülmüştür.
As being one of the pervasive characteristics of the natural languages, the research on word sense ambiguity aims at resolving the problem of having more than one sense. A Word Sense Disambiguation (WSD) task is defined as automatic assignment of the most appropriate meaning to a polysemous word within a given context. The problem of word sense ambiguity, which can be resolved during human communication by using previous experiences and complex cognitive processes, is also one of the active topics in computer science and Natural Language Processing (NLP) area. The identification of word meanings is required in almost all applications of the NLP area to provide them proper functioning. These applications include the areas such as Information Retrieval (IR), Machine Translation (MT), Semantic Annotation (SE), Question Answering (QA) and many others. From this aspect, WSD is an important intermediate step for all these applications that increases their performances. There is a huge need in NLP related fields and internet environment for the development of Computational Linguistics (CL) methods. As a result, several algorithms have been developed for the different fields of the NLP area. In the scope of these works, the properties such as nature of the languages, available resources and constraints, application requirements play important role to develop methods. The WSD methods are classified under three broad categories: knowledge-based, corpus-based and hybrid methods. The family of knowledge-based methods primarily relies on dictionaries, thesauri, ontologies and lexical knowledge bases. Corpus-based methods are further classified into supervised, unsupervised and semi-supervised methods (or minimally supervised). Previous efforts on WSD have mainly focused on supervised approaches that require sense annotated corpora. There are also alternative approaches of unsupervised and semi-supervised methods that try to lower the sense-annotated portion of the texts. Although sense ambiguity can be resolved in supervised systems with high accuracy, usage of semi-supervised and unsupervised methods has gained attention recently since the sense annotation scheme is labor intensive and expensive. In some of the studies, word senses are extracted from corpus itself where sense-annotated corpora are insufficient or not used. Recently, the extraction of word senses from corpus is preferred by the researchers since the pre-defined sense definitions of dictionaries may be too limited. On the other hand, the adaptation of solutions and methods to new domains may be difficult because of the dynamic nature of word senses. In the scope of hybrid methods, knowledge-based and corpus-based methods are combined. WSD can also be classified according to the scope of approach to the problem. The level of supervision is the first criterion to classify the methods. A secondary classification for generic WSD can be made by considering two variants. These options of WSD can be selected from: 10 Lexical Sample (LS) task and, 20 All-words (AW) task. The former approach disambiguates the occurrences of a small sample of target word that has been determined previously. Since the words and the set of senses are limited, supervised Machine Learning (ML) methods are usually used to handle LS tasks. Hand-labeled examples are used to train the classifier. Then unlabeled test portion of the target words can be labeled by using trained classifier. In contrast, AW approach comprises the disambiguating all the words in a running text. All the entries in a given system are required to be disambiguated. There is a similarity between AW task and Part of Speech (POS) tagging. The only difference is that the former needs much larger set of tags. This larger set of tags resulted in data sparseness problem since it is hard to find adequate training data for each word. Knowledge is the fundamental component for a WSD system which can be acquired from dictionaries or learned from a training corpus. The sources can be classified into "lexical knowledge" and "learned world knowledge" categories. The lexical knowledge category includes the knowledge sources such as "sense frequency", "concept trees", "selectional restrictions", "subject code" and the POS information. The latter category includes the usage of "Indicative words", "syntactic features", "domain specific knowledge" and "parallel corpora". It is usually observed that the unsupervised systems need lexical knowledge sources while supervised systems use world knowledge. But in practice the combinations of these sources have been used in WSD systems. ML techniques are used to automatically acquire disambiguation knowledge in the scope of corpus-based WSD methods. A typical WSD system may utilize sense-tagged corpora, online dictionaries and large scale linguistic resources as components. The set of features to be used and the learning algorithm are two of the important decisions that have to be considered for the design of a WSD system. Many NLP systems rely on linguistic knowledge acquired from hand-labeled training text data and ML methods. The supervised methods of the WSD can be classified according to the induction principle they use to acquire model or rules. These methods consist of probabilistic models (e.g., Naïve Bayes), similarity based methods (e.g., k-Nearest Neighbor algorithm), methods based on discursive properties (e.g., one sense per discourse/collocation, attribute redundancy), methods of discriminative rules (e.g., decision lists, decision trees or methods based on rule combination), linear classifiers and Kernel-based methods. Compared to the other subjects in NLP such as POS determination and syntax parsing, a WSD problem introduces extra difficulties. Since each word is associated with unique meaning, complete training set requires a huge number of examples. This language sparsity problem is dealt with by selecting features used in training algorithms. These features can be found in local or wider context. Before applying the ML algorithm, all the examples of a particular ambiguous word have to be encoded in a way the learning algorithm can handle. Collocational and Bag-of-Words (BoW) features are two important classes of features that are generally extracted from neighboring contexts in WSD tasks. Almost all of these approaches are employed by defining a window of "n" content words around the word to be disambiguated in the corpus. Collocational features encode information about the lexical inhabitants of specific positions located to the left or right of the target word. The basic elements may consist of the word, its root form and the part of speech information. BoW is the second feature set in which the text is treated as an unordered bag of words. Within this approach, similarity measures are calculated by looking at the semantic similarity between all the words in the window regardless of their positions. Considering the limited resources available for natural languages, it is especially important to select knowledge sources and the feature sets carefully to disambiguate senses. Overall results of this study can be summarized as follows: • Turkish Lexical Sample Corpus: In the scope of this study, a special corpus for Turkish has been prepared. For this task, the Turkish nouns and verbs have been determined by considering highly ambiguous ones among the dictionary of Turkish Language Association (TLA). Then samples have been collected for each ambiguous candidate word. Voters annotated the samples by using the sense definitions of the TLA dictionary. • Extracting Effective Features: Two approaches have been tested to extract effective features: 10 Collocational Features (CF), 20 Bag-of-Words. • Supervised methods have been used to extract effective features on disambiguating word senses. The effective features of neighbor words around ambiguous headword, have been determined. The contribution of these features on disambiguating word senses has been investigated. A fixed window size has been used along the experiments. In the scope of the study, collocational features which comprise the morphological analysis outputs of the word roots and suffixes have been investigated. • The contribution of using BoW features has also been investigated. The proper size for selected features has been determined. This work has been conducted for Turkish noun and verb sets. The optimal extent around headword to encode BoW features is determined. • The results of collocational and BoW features have been compared. It is shown that the collocational features are more effective than BoW features on resolving sense ambiguities. Better results are achieved by combining two feature sets. • Our research on supervised methods shows that a comprehensive and very large corpus that represents the language effectively is needed to be able to continue conducting research on WSD. There is no such a large corpus in Turkish. We focused our research on unsupervised methods since it is too labor-intensive to prepare such a corpus. • A graph-based unsupervised method which previously used in a few NLP related studies have been developed for Turkish. At the initial phase of the study, a program has been developed to implement the algorithm. Then the effect of supervised method findings is investigated to enhance the results. The Turkish lexical sample corpus has been used to generate graph and evaluate the accuracy results. • Our research show that sense ambiguities can be resolved by using unsupervised methods. We propose the gold standard evolution at the final stage and use annotated word senses of Turkish lexical sample corpus to map hub meanings. This method yielded nearly as reliable results with the supervised methods.