Tez No İndirme Tez Künye Durumu
343000
Text conversion system between Turkic dialects / Türk lehçeleri arasında çeviri sistemi
Yazar:EMEL ALKIM
Danışman: PROF. DR. YALÇIN ÇEBİ
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Dilbilim = Linguistics
Dizin:Bilgisayar çevirisi = Computer translation ; Doğal dil işleme = Natural language processing ; Kırgızca = Kyrgyz language
Onaylandı
Doktora
İngilizce
2013
159 s.
Türk dilleri aynı kökenden gelmelerine rağmen yıllar içinde farklı topluluklarla olan etkileşimler nedeniyle farklılaşmışlardır. Farklı lehçelerde yazılmış metinlerin otomatik çevirisini yapan bir sistem, Türk topluluklarının iletişiminde ve kaynaşmalarında bir engel olan bu farklılaşmanın giderilmesinde ve kültür birliğinin geliştirilmesinde önemli bir adım olacaktır. Bu çalışmada, akraba diller olan Türk dilleri için geliştirilip; Türkiye Türkçesi, Kırgız Türkçesi ve Tatar (Kazan) Türkçesi üzerinde uygulanan kural tabanlı ve yarı eğitmenli bir bilgisayarlı otomatik çeviri sistemi tanıtılmaktadır. MT-Turk, sadece sözlük, ek ve kurallar tanımlayarak yeni bir lehçe eklenmesi ile genişletilebilen iki yönlü bir çeviri altyapısıdır. Ayrıca, öneriler yardımıyla da genişletilmeye açıktır. Çok dilli bir bilgisayarlı çeviri altyapısı hazırlamak için kural tabanlı yaklaşımın iki alt alanı olan aktarım temelli ve interlingua temelli yaklaşımlar, genişletilebilirliği ve birlikte çalışabilirliği sağlamak amacıyla birlikte kullanılmıştır. Çeviri işleminin başarısı BLEU ve NIST ölçekleri kullanarak değerlendirilmiştir. Ölçülen değerler farklı dil çiftleri ve çeviri yönleri için gözetimsiz çeviride BLEU 5,04 ve 15,12 arasında, NIST 3,12 ve 4,64 arasında, gözetimli çeviride ise BLEU 7,20 ve 21,71 arasında, 3,52 ve 4,77 arasında değişmektedir. Bu sonuçlara dayanarak, çeviri işleminin etkinliğinin sözlük ve kural tabanının boyutuna son derece bağlı olduğu gözlenmiştir. Anahtar Kelimeler: Bilgisayarlı çeviri, doğal dil işleme, kural tabanı bilgisayarlı çeviri, sözcük öbekleri, Türk lehçeleri, Türkiye Türkçesi, Kırgız Türkçesi, Tatar (Kazan) Türkçesi
Turkic communities come from a common culture; however the interaction with other communities over years caused diversion especially in written language. A system which can automatically translate documents written in different Turkic languages will be an important step towards eliminating the disunity of Turkic communities on written work of art over past ninety years and obtaining fusion of Turkic communities. In this study, a rule-based and semi-supervised machine translation system (MT-Turk), which is designed for closely related Turkic languages and implemented on Turkish, Kirghiz and Kazan Tatar, is presented. MT-Turk is an extensible bidirectional translation infrastructure in which new Turkic dialects can be added by just adding the lexicon of roots/stems, suffixes, and the rules. Furthermore, it is open to extension by suggestion. In order to form a multilingual machine translation infrastructure, two subsets of rule-based approach, the interlingual machine translation approach and transfer-based approach were used in combination to achieve extensibility and interoperability. The success of the translation process was evaluated using both BLEU and NIST metrics. The evaluated scores were between 5.04 and 15.12 for BLEU, between 3.12 and 4.64 for NIST in unsupervised translation and between 7.20 and 21.71 for BLEU, between 3.52 and 4.77 for NIST in semi-supervised translation for various language pairs and translation directions. Depending on these results, it was seen that the efficiency of the translation process is extremely dependent on the size of the lexicon and the rule base. Keywords: Machine translation, natural language processing, rule-based machine translation, multi-word expressions, Turkic dialects, Turkish, Kirghiz, Kazan Tatar