Tez No |
İndirme |
Tez Künye |
Durumu |
430917
|
|
Example based machine translation system between kazakh and turkish supported by statistical language model / Kazakça ve türkçe dilleri arasında örnek tabanlı ve istatistik model destekli makine çeviri sistemi
Yazar:GULSHAT KESSİKBAYEVA
Danışman: PROF. DR. İLYAS ÇİÇEKLİ
Yer Bilgisi: Hacettepe Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
|
Onaylandı
Doktora
İngilizce
2016
148 s.
|
|
Örnek Tabanlı Makine Çeviri Sistemi tercümenin paralel metinler kullanılarak elde edildiği benzerlik bazlı makine çeviri sistemi yöntemlerindendir. Makine çeviri sistemlerinin birden fazla çeşitleri mevcuttur ve tercümenin kalitesini arttırma adına metotlardan bir kaçının güçlü yönleri birleştirilerek hibrit yaklaşımların oluşturulması mümkündür. Genellikle hibrit yöntemlerin iki ana kısmından bahsedilir ki, bunlar güdümlü ve bilgi kısımlarıdır.
Bu çalışma Kazakça ve Türkçe dilleri arasında temelde Örnek Tabanlı Çeviri Sistemi sahip bir hibrit sistemdir. Her iki dilin biçim bilgisinin analizi ve ardından biçim bilgisi işlemcisinin oluşturulması sistemin önemli bileşenlerinden biridir. Biçim bilgisi işlemcisi kelimelerin yüzeysel biçiminden sözcük bazlı analiz biçimini elde etmek için ve aynı zamanda tercüme sonuçlarının sözcük bazlı analiz biçiminden yüzeysel kelimelerin elde edilmesinde kullanılır. Başka bir deyişle, tercüme kalıpları sözcük bazlı analiz seviyesinde tutulur ve işlenir. Yani, kaynak dilde sözcük bazlı analiz seviyesinde verilen cümle hedef dilde sözcük bazlı analiz seviyesinde sonuç üretir. Sistemde kullanılan paralel metinler yüzeysel kelime bazlı örnekler cinsinde tutulur ve her biri ilgili biçim bilgisi işlemcisinden sonra öğrenme modülüne yüklenir. Sonuç olarak Kazakça ve Türkçe dilleri arasındaki tercüme kalıpları sözcük bazlı analiz seviyesinde öğrenilir. Öğrenilen kalıpları kullanarak sistem çift yönlü tercüme yapmaktadır.
Sistem tarafından üretilen sonuçlar örnek kalıpları açısından güvenirlilik faktör değerine göre sıralanmaktadır. Diğer yandan sistem kaynak dil açısından istatistik model desteklidir. Bu üretilen sonuçların sadece örnek kalıpları açısından değil de aynı zamanda istatistiksel cümle olasılığının hesaplanması ve böylece kaynak dil açısından geçerliliğin göz önünde bulundurmasıdır. Bu da sonuçların kaynak dilde geçerli ve daha düzgün tercüme sonucu anlamına gelmektedir.
Bu çalışmada hibrit örnek tabanlı çeviri sistemin kullanılmasındaki temel amaç kaynak dilde öncesinden hesaplanmış istatistik modelleri kullanarak daha geçerli ve düzgün sonuç elde etmektir. Bahsedilen hibrit sistem önerisinin nedenlerinden birisi tek dilde erişebilen kaynakların paralel işlenmiş metinlerin elde edilmesinden daha kolay ve olanaklı oluşudur. Deney sonucu olarak ta tatmin edici neticelere ulaşıldığından örnek tabanlı çeviri sistemlerin istatistiksel modellerle desteklenmesi istinat edilebilir bulunmaktadır.
|
|
Example Based Machine Translation System(EBMT) is a analogy-based type of Machine Translation(MT), where translation made according to aligned bilingual corpus. Moreover, there are a lot of different methodologies in MT and hybridization is also possible between these methods which focused on compounding the strongest sides of more than one MT approaches to provide better translation quality. There are two parts of Hybrid Machine Translation (HMT) such as guided part and information part.
Our work is guided by EBMT and a hybrid example based machine translation system between Kazakh and Turkish languages is presented here. Analyzing both languages at morphological level, then constructing morphological processors is one of the most important part of the system. Their morphological processors are used to obtain the lexical forms of the surface level words and the surface level forms of translation results at lexical level. Translation templates are kept at lexical level and they translate a given source language sentence at lexical level to a target language sentence at lexical level. Our bilingual corpora hold translation examples at surface level and their words are morphologically analyzed by appropriate morphological analyzer before they are fed into the learning module.
Thus, translation templates are learned at morphological level from a bilingual parallel corpus between Turkish and Kazakh. Translations can be performed at both directions using these learned translation templates.
The system is supported by a statistical language model for the target language. Therefore, translation results are sorted according to both their confidence factors that are computed using the confidence factors of the translation templates used in those translations and statistical language model probabilities of those translation results. Thus, the statistical language model of the target language is used in the ordering of translation results in addition to translation template confidence factors in order obtain more precise translation results.
Our main aim with our hybrid example based machine translation system is to obtain more accurate translation results by pre-gained knowledge from target language resource. One of the reasons that we propose this hybrid approach is that monolingual language resources are more widely available than bilingual language resources. In this thesis, experiments show that we can rely on the combination of EBMT and SMT approaches, because it produces satisfying results. |