Tez No İndirme Tez Künye Durumu
305811
The regression model of machine translation / Otomatik çeviride regresyon modeli
Yazar:MEHMET ERGUN BİÇİCİ
Danışman: YRD. DOÇ. DR. DENİZ YURET
Yer Bilgisi: Koç Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Dilbilim = Linguistics ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering
Dizin:
Onaylandı
Doktora
İngilizce
2011
189 s.
Regresyon tabanlı otomatik çeviri (RegMT) yaklaşımı otomatik çeviriye öğrenme modellerini, öğrenme örnekleri seçimini, özellik gösterimini, ve çeviriyi yaratmayı ayıran bir ögrenme platformu sağlar. Transdüktif öğrenme platformu RegMT yaklaşımını sayısal olarak daha hesaplanabilir yapar ve her test cümlesi için bağımsız olarak model kurar. Geliştirdiğimiz öğrenme örnekleri seçim algoritmaları RegMT yaklaşımını sayısal olarak daha hesaplanabilir yapmanın yanında standart SMT sistemlerinin performansını arttırır. Paralel öğrenme cümlelerinden önceki işlerden daha iyi cümle seçme metodları geliştirerek daha doğru RegMT modellerini daha az öğrenme cümlesi kullanarak elde edebiliyoruz.Otomatik çeviri için L1 düzenli regresyon tekniğini L2 düzenli regresyon tekniğinden daha iyi bir model olarak sunuyoruz. Elde ettiğimiz sonuçlar seyrek regresyon modellerinin L2 düzenli regresyon modelinden hedef özellikleri tahmin ederken, kelime eşleşmelerini bulurken, kelime dizimi tabloları oluştururken, ve çeviri yaratırken daha iyi olduğunu göstermektedir. RegMT modelinin performansını ve çevirilerin kalitesini ölçmek için iyi ölçüm teknikleri gelistirdik. İngilizceye çevirileri ölçerken insanlar tarafından performansı iyi bulunan F1 ölçüsünü kullanıyoruz. F1 bizim RegMT modellerinin performansını hedef özellik tahmin vektörlerini veya öğrenilen katsayı matrislerini veya verilen bir SMT modelini kendi kelime dizimi tablolarını kullanarak, hesaplaması pahalı olabilen çeviri adımını uygulamadan ölçmemize olanak sağlar.Seyrek L1 düzenli regresyonun L2 düzenli regresyondan Almanca-İngilizce ve küçük öğrenme kümeleri kullanırken İspanyolca-İngilizce çevirisinde daha iyi olduğunu gösteriyoruz. Grafik tabanlı çeviri kelime dizimi tabanlı çeviriye az kelime hazineli çeviri işlerinde alternatif olabilir.
Regression based machine translation (RegMT) approach provides a learning framework for machine translation, separating learning models for training, training instance selection, feature representation, and decoding. We use transductive learning framework for making RegMT computationally more scalable and consider model building step independently for each test sentence. We develop better training instance selection techniques than previous work from given parallel training sentences for achieving more accurate RegMT models using less training instances.We introduce L1 regularized regression as a better model than L2 regularized regression for statistical machine translation. Our results demonstrate that sparse regression models are better than L2 regularized regression for statistical machine translation in predicting target features, estimating word alignments, creating phrase tables, and generating translation outputs. We develop good evaluation techniques for measuring the performance of the RegMT model and the quality of the translations. F1 allows us to evaluate the performance of RegMT models without performing the decoding step, which can be computationally expensive.We use graph decoding on the prediction vectors represented in n-gram counts space or we decode using Moses after transforming the learned weight matrix representing the mappings between the source and target features to a phrase table that can be used by Moses during decoding. We demonstrate that sparse L1 regularized regression performs better than L2 regularized regression in German-English translation task and in Spanish-English translation task when using small sized training sets. Graph based decoding can provide an alternative to phrase-based decoding in translation domains having low vocabulary.