Tez No İndirme Tez Künye Durumu
256758
Türkçe için tümleşik bir biçimbirim çözümleme ve sözcük türü tespit yöntemi / An integrated method for morphological analyse and part of speech tagging in Turkish
Yazar:TARIK KIŞLA
Danışman: PROF. DR. BAHAR KARAOĞLAN
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Uluslararası Bilgisayar Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji = Science and Technology ; Dilbilim = Linguistics
Dizin:Dil bilim = Linguistics ; Doğal dil = Natural language ; Doğal dil işleme = Natural language processing
Onaylandı
Doktora
Türkçe
2009
209 s.
Dillerin sayısal ortamlarda etkili bir şekilde temsilinin ve işlenmesinin sosyal, politik, kültürel ve bilimsel amaçlarla dilleri kullanan insanların desteklemesinde ve dillerin yaşamlarını sürdürmesinde oldukça önemli bir faktör olacağı şüphesizdir. Bu nedenle, çalışmamızın ana motivasyonu, Türkçe'nin sayısal ortamlarda temsilini ve işlenmesini güçlendirmek için doğal dil işleme uygulamalarına hizmet edebilecek temel yöntemler geliştirmektir.Çalışmamızda, doğal dil işleme sahasının ana problemlerinden olan biçimbirimsel çözümleme ve sözcük türü tespiti problemleri için özgün çözümler sunulmuştur. Eklemeli diller için karmaşıklığı teorik olarak NP-complete olarak bilinen biçimbirimsel çözümleme için, Türkçe'nin dilbilgisel özellikleri göz önünde tutularak basitleştirilmiş bir yöntem ortaya konmuştur. İstatistiksel ve kural tabanlı yaklaşımları bir arada kullanan yöntemimiz çözümleme sonucunda tek bir sonuç sunması ile belirsizliğin giderilmesini de sağlamaktadır. Buna ek olarak, önerilen yöntemin kapalı ve sınırlı bir sözlük kullanması, diğer yöntemlerden farklılaşan önemli bir özelliğidir. Tez kapsamında geliştirilen yöntemler deneysel çalışmalar ile test edilmiş ve elde edilen sonuçların önceki çalışmalardan daha yüksek bir başarı yüzdesine sahip olduğu gösterilmiştir.
There is no doubt that the languages which are effectively represented and processed digitally will sustain their existence more firmly than the others and strengthen the people who are using them in social, political, cultural and scientific platforms. The major motivation behind this study is to develop basic methods that will serve and enhance the natural language processing tasks for Turkish.Here, we present original solutions for the morphological analysis and part of speech tagging for Turkish which are fundamental tasks for natural language processing applications. The morphological analysis which has NP-complete complexity for agglutinative languages is simplified in methods for rooting, stemming and finding derivational and inflectional boundaries by taking into account some dependencies and features of the Turkish language. The methods employ both statistical and rule based approaches, and present a single result for the analysis avoiding the disambiguation problem. The reliability of the methods are high due to the fact that a closed and restricted vocabulary is used and unsuccessful analysis resulting from not being in the vocabulary are thwarted. The empirical tests of the methods on Turkish corpora have shown higher success ratios than the current methods that we have met in the literature.