Tez No İndirme Tez Künye Durumu
608103
Rule-weight learning for Kazakh-Turkish machine translation /
Yazar:SEWALE MUSADAQ TAHA
Danışman: DR. ÖĞR. ÜYESİ SEFER KURNAZ ; DR. ÖĞR. ÜYESİ FRANCIS M. TYERS
Yer Bilgisi: Altınbaş Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2020
125 s.
Bilgisayarlı çeviri yapay zeka bilimin bir alt dalı ve Doğal dil işlemenin önemli konusudur. Bu alanlarda son zamanlarda kullanılan makineli çeviri metotlarını araştırdım. Doğal dil işleme konusunda genel bir araştırma yapıldı, Daha çok Türki diller ile yapılan çalışmalar incelendi. Kazakçadan Türkçeye çeviri yapılması için bir takım çeviri kuralları yazdık ve bu kuralları yazarak doğru çözümle seçilmesi gerekiyor her sözcük için . Kurallar yazarak XML ve HTML kullanılıyor ve bu kuraların yazma sebebi iki dilin farklı yapısıdır. Bu kuralları yazarak belirsiz kurallar problemi ortaya çıktı. Belirsiz kurallar: Aynı uzunlukta olan iki kuralın kaynak dilde aynı kelimeye uygulamasıdır yada bir uzun kuralın ve iki kıssa kuralın kaynak dilde aynı kelimeye uygulamasıdır. Bunun sonucu kaynak dildeki bir kelimenin hedef dilde iki farklı çevrisi olmasıdır. Apertium bu sorunu kurallar dosyasındaki konulan ilk ve uzun kuralı uygulayark çeviri elde ediyor. Apertium organizasyonu 2005 den beri ücretsiz/açık kaynak kodlu olan bir çeviri sistemidir. Biz bu sorunu metin bağlımına göre denetimsiz makine öğrenme yöntemleri uygulayark çözdük. Böylece ilk konulan yada en uzun kuralı uygulamak yerine, bize en doğru çeviri vern kuralı uyguladık. Bu probelmi çözerek açık kaynak kodlu olan Apertium'a yeni bir modül ekledik ve bu modülü Kazakça-Türkçe ve Esponyalca-İngilizce systemine uyguladık.
In rule-based machine translation systems (RBMT), transfer rules perform transformation of source language structure into its equivalent target language structure. The grammatical, syntactic, and systematic differences between two languages, have led to the creation of these rules. The rules are applied deterministically to the input left-to-right, according to longest match. In this thesis we describe experiments applied using a two of machine learning methods (maximum entropy and support vector machine) for learning a model to distinguish between ambiguous selection of structural transfer rules in a rule-based machine translation (MT) system. Herein, the transfer rules function by matching a source language pattern of lexical items and applying a sequence of actions. There can, however, be more than one potential sequence of actions for each source language pattern. Our model consists of a set of classifiers for either maximum entropy (or logistic regression) or a support vector machine, one trained for each source language pattern, which select the highest probability sequence of rules for a given sequence of patterns. We perform experiments on the Kazakh–Turkish language pair — a low-resource pair of morphologically-rich languages — and compare our model to two reference MT systems, a rule-based system where transfer rules are applied in a left-to right longest match manner and to a state-of-the-art system based on the neural encoder–decoder architecture. Our system out forms both of these reference systems in three widely used metrics for machine translation evaluation. We also found that the maximum entropy acquired the best achievement than support vector machine.