Tez No İndirme Tez Künye Durumu
178147
Türkçe metinlerdeki anlam belirsizliği olan sözcüklerin bilgisayar algoritmaları ile anlam belirginleştirmesi / Sense disambiguation of ambiguous words in Turkish texts by machine learning algorithms
Yazar:ZEYNEP ORHAN
Danışman: DOÇ. DR. SABRİ ARIK
Yer Bilgisi: İstanbul Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Anlam bilim = Semantics ; Doğal dil işleme = Natural language processing ; Öğrenme algoritmaları = Learning algorithms
Onaylandı
Doktora
Türkçe
2006
138 s.
Sözcük anlamı belirginlestirme, anlam belirsizliği olan sözcüğün belirli bir kullanım alanında en uygun anlamının kullanıldığı tümcedeki diğer elemanları da göz önüne alarak belirlenmesi islemidir. Bu çalısmada, Türkçe metinlerde anlam belirsizliği olan sözcüklerin anlamlarının belirginlestirilmesini sağlayacak en uygun algoritmaların ve özelliklerin belirlenmesi ele alınmıstır. Türkçe için SAB çalısmalarında kullanılabilecek sözcükler ve anlam sınıfları olusturulmus, algoritmalarda kullanılacak metinlerin elle isaretlenmesi gerçeklestirilmis ve kavramsal bir sözlük hazırlanarak bu alanda yapılacak arastırmalara önemli bir katkıda bulunulmustur. ?lk bölümlerde öncelikle doğal dil isleme çalısmaları genel olarak ele alınmıs ve buna paralel olarak Türkçe doğal dil isleme çalısmaları hakkında bilgi verilmistir. Doğal dil islemede SAB uygulama alanları, kullanılan bilgi tipleri ve kaynakları, uygulanan yöntemler ve karsılasılan problemler incelenmistir. Çalısma ile yakından iliskili olan Senseval projesinin amacı, uygulamaları ve elde edilen sonuçları ayrıntılı olarak irdelenmistir. Yapılan çalısmanın asamaları içerisinde Türkçe için derleme metin seçimi, sözcük anlamlarının olusturulması, sözcük anlamlarına etki eden özelliklerin seçimi, kullanılan yöntemler, yazılımlar ve değerlendirme kriterleri hakkında bilgi verilmistir. Son üç yıl içerisinde çalısmanın bütün asamalarında elde edilen sonuçlar grafikler ve tablolar seklinde sunulmustur. En son bölümde sonuçların ifade edildiği ve yorumlandığı, gelecekte yapılabilecek yeni çalısmalar üzerinde durulduğu genel bir değerlendirme bulunmaktadır.
Word sense disambiguation is the process of selecting the most suitable sense of an ambiguous word in the given sentence by considering the other contextual features In this study, determination of the most convenient algorithms and features that may lead to the successful disambiguation of the ambiguous words in Turkish texts have been discussed. Ambiguous words and their sense classifications that can be used for Turkish word sense disambiguation studies have been established, a limited ontology has been prepared and by providing manually sense tagged corpora, an important contribution has been achieved for the researches in this domain. In the first chapters of the thesis, a brief introduction for natural language processing has been given and in parallel to this topic, important work on Turkish have been summarized. Then, the application areas of word sense disambiguation in natural language processing, knowledge types and sources, approaches in the literature and the problems of word sense disambiguation have been examined in the following sections. The objectives, applications and the results of the Senseval project, which is closely related to the thesis topic, have been exhaustively scrutinized Corpora selection, sense classification, effective features determination, tested algorithms, software and evaluation criterion that have been utilized during the phases of the study have been explained. The results obtained in the last three years from all phases of the study have been presented by graphics and tables. In the last section, a general evaluation and conclusion have been provided for commenting on the results and future work.