Tez No İndirme Tez Künye Durumu
259035
A prototype English-Turkish statistical machine translation system / İngilizce-Türkçe istatistiksel bilgisayarlı çeviri sistemi prototipi
Yazar:İLKNUR DURGAR EL-KAHLOUT
Danışman: PROF. DR. KEMAL OFLAZER
Yer Bilgisi: Sabancı Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2009
115 s.
Bir dilin (yazı ya da konuşma) diğer bir dile bilgisayar ile otomatik olarakçevrilmesi bilgisayarlı çeviri olarak bilinmektedir. Bilgisayarlı çeviri doğal dil işlemeninçok eskiden bu yana ilgilendiği en ¨onemli ve aktif konulardan biridir. Son birkaç on yılda bilgisayarlı çeviri probleminde istatistiksel yaklaşımların kullanımındaartış gözlenmiştir. İstatistiksel yaklaşımlar sembolik yaklaşımlardan daha basitolmalarına rağmen yaklaşık sonuçları hiçbir dilbilimsel bilgiye ihtiyaç duymadanüretebilir. Istatistiksel yaklaşımda amaç, sistem parametrelerinin çok fazla zamanve insan gücüne ihtiyaç duyan, elle yazılan kurallar yerine otomatik olaraköğrenilmesidir.Istatistiksel bilgisayarlı çeviri bir çok farklı dil çiftleri icin uygulansa da, bualanda Türkçe - Ingilizce dil çifti için bir araştırma ve geliştirme çalışması bulunmamaktadır.Bu tezde, Ingilizce'den Türkçe'ye en gelişkin istatistiksel bilgisayarlı çeviriprototipinin araştırma ve geliştirilmesin sonuçları sunulmaktadır. Ingilizce'den Türk-çe'ye istatistiksel bilgisayarlı çeviri prototipi geliştirilmesi bir çok açıdan dikkatedeğer bir problemdir. En zorlayıcı kısmı, Ingilizce ve Türkçe'nin tipolojik olarakgörece uzak diller olmasıdır. Ingilizce çok limitli bir morfolojiye ve görece sabit birözne-Fiil-Nesne öğe sıralamasına sahipken, Türkçe Ingilizce'ye çevrildiğinde bir çoksözcüklü öbeğe karşılık gelen sözcük yapılarına sahip, çok zengin ve üretken türetimve çekimli bir morfolojisi olan çok esnek (özne-Nesne-Fiil egemen olmakla beraber)öğe sıralamalı eklemeli bir dildir.Araştırmamız başka diller için yapılan önceki araştırmalarda yeteri kadar çalışılmamış,Türkçe'nin morfolojik özelliklerini dikkate alarak son bilgisayarlı çeviri teknolojisinebilimsel katkılar yapmaya odaklanmıştır. Bu tezde; Hem Ingilizce hem deTürkçe tarafında morfolojinin morfem seviyesindeki farklı gösterimlerinin istatistikselçeviri sonuçları üzerinde nasıl etki yaptığını inceledik. Sözcük eşleşmelerineyardımcı olmak için, Türkçedeki isim formları ve karmaşık fiil formlarını ile aynısözcük sıralamasında olması için Ingilizce tamlama ve yardımcı fill komplekslerindelokal sözcük sıralaması deneyleri yaptık. Var olan paralel metinlerin azlığını hafifletmekiçin, eğitim verisini hem orjinal veriden elde edilen içerik sözcükler (isim,fiil, sıfat, zarf) ile hem de tekrarlı olarak bir önceki sözcük öbeği tabanlı sözcükeşleşmelerinden elde edilen yüksek güvenilirlikli sözcük öbeği çiftleri ile arttırdık.C¸ özümleme için kullanılan morfem bazlı dil modeline ek olarak n- en iyi listeleriniyeniden skorlaması için sözcük bazlı dil modelini kullandık, böylece hem lokal morfotaktikkısıtlamaları hem de lokal sözük sıralaması kısıtlamaları üzerine çalıştık.Son olarak çevirileri, iyileştirmek amacıyla eğitim verisi ve dil modeline göre sözcükdağarcığının dışında olan ve morfolojik yapısı hatalı olan çıktının sözcüklerini onarmakiçin bir prosedür sunduk. Ayrıca BLEU değerlendirme metriğinin bir uzantısıolan BLEU+ aracı ile elde edilen detaylı değerlendirme sonuçlarını ve elde edilebileceken yüksek skorlardan bazılarını ekledik.Tüm araştırma ve geliştirme sonucunda 19.77 BLEU skoru olan sözcük bazlıtemel modelimizi 7.83 BLEU skoru ya da %40'lık artışla 27.60 BLEU skorunageliştirdik.
Translating one natural language (text or speech) to another natural language automaticallyis known as machine translation. Machine translation is one of the major,oldest and the most active areas in natural language processing. The last decade anda half have seen the rise of the use of statistical approaches to the problem of machinetranslation. Statistical approaches learn translation parameters automaticallyfrom alignment text instead of relying on writing rules which is labor intensive.Although there has been quite extensive work in this area for some languagepairs, there has not been research for the Turkish - English language pair. In thisthesis, we present the results of our investigation and development of a state-of-theartstatistical machine translation prototype from English to Turkish. Developingan English to Turkish statistical machine translation prototype is an interestingproblem from a number of perspectives. The most important challenge is that Englishand Turkish are typologically rather distant languages. While English hasvery limited morphology and rather fixed Subject-Verb-Object constituent order,Turkish is an agglutinative language with very flexible (but Subject-Object-Verbdominant) constituent order and a very rich and productive derivational and inflectionalmorphology with word structures that can correspond to complete phrases ofseveral words in English when translated.Our research is focused on making scientific contributions to the state-of-the-artby taking into account certain morphological properties of Turkish (and possiblysimilar languages) that have not been addressed sufficiently in previous researchfor other languages. In this thesis; we investigate how different morpheme-levelrepresentations of morphology on both the English and the Turkish sides impactstatistical translation results. We experiment with local word ordering on the Englishside to bring the word order of specific English prepositional phrases andauxiliary verb complexes, in line with the corresponding case marked noun formsand complex verb forms, on the Turkish side to help with word alignment. Weaugment the training data with sentences just with content words (noun, verb, adjective,adverb) obtained from the original training data and with highly-reliablephrase-pairs obtained iteratively from an earlier phrase alignment to alleviate thedearth of the parallel data available. We use word-based language model in the rerankingof the n-best lists in addition to the morpheme-based language model usedfor decoding, so that we can incorporate both the local morphotactic constraintsand local word ordering constraints. Lastly, we present a procedure for repairingthe decoder output by correcting words with incorrect morphological structure andout-of-vocabulary with respect to the training data and language model to furtherimprove the translations. We also include fine-grained evaluation results and someoracle scores with the BLEU+ tool which is an extension of the evaluation metricBLEU.After all research and development, we improve from 19.77 BLEU points for ourword-based baseline model to 27.60 BLEU points for an improvement of 7.83 pointsor about 40% relative improvement.vii