Derin (yineleyen) yapay sinir ağları, karmaşık ve farklı uzunluktaki girdi - çıktı dizileri
arasındaki ilişkiyi modellemede son dönemde etkin bir yöntem olarak öne çıkmışlardır. Bu
modelleme, girdi dizisini kodlama, ve kodlanan dizinin çözümlemesi adımlarını izleyen
kodlama-çözümleme ağları ile mümkün hale gelmiştir. Bu tez, kodlama-çözümleme ağları
mimarisini bir ileri adıma taşıyarak, aynı anda birden fazla girdi - çıktı dizisi arasındaki
ilişkiyi modelleyebilen, çok girdi - çoklu çıktı yinelenen yapay sinir ağları modelini
önermektedir. Önerilen çoklu girdi - çoklu çıktı yapay sinir ağı mimarisi, tek bir
parametrik fonksiyon ile, farklı uzunluktaki birden fazla girdi dizisini, yine farklı
uzunluktaki birden fazla çıktı dizisine eşlemeyi etkin bir şekilde öğrenebilmektedir.
Bu karmaşık eşleme fonksiyonu, yine bu tez tarafından önerilen, ortak paylaşım alanı
(interlingua) sayesinde gerçeklenmekte olup, ortak paylaşım alanı olan dikkat yapay
sinir ağı da, bütün girdi-çıktı dizileri arasında paylaşılan parametrik bir fonksiyon
olarak sunulmaktadır. Çoklu girdi - çoklu çıktı dizi eşleme mimarisi, bu tez kapsamındaki
uygulama alanı olarak, çok-dilli makina çevirisi alanına uygulanmıştır.
Bu kapsamda, önerilen mimari, (1) büyük ölçekli makina çevirisi probleminde, aynı anda
on girdi-çıktı çiftini modelleyebilmekte, (2) yetersiz-veri rejiminde, transfer öğrenme
kabiliyetine sahip, (3) aynı anda birden fazla girdi dizisini, tek bir çıktı dizisine
eşleyebilen, ve bu maksatla girdi dizileri arasındaki tümleyici bilgiyi kullanabilmekte,
ve (4) hiç-veri rejiminde, aralarında hiç veri bulunmayan bir girdi ve çıktı dizisi
arasında da eşleme yapabilme kabiliyetine sahip bir model olarak önerilmektedir.
|
{Deep (recurrent) neural networks has been shown to successfully learn complex
mappings between arbitrary length input and output sequences, called sequence to sequence
learning, within the effective framework of encoder-decoder networks. This thesis
investigates the extensions of sequence to sequence models, to handle multiple sequences
at the same time within a single parametric model, and proposes the first large scale
connectionist multi-sequence modeling approach. The proposed multi-sequence modeling
architecture learns to map a set of input sequences into a set of output sequences
thanks to the explicit and shared parametrization of a shared medium, interlingua.
Proposed multi-sequence modeling architecture is applied to machine translation tasks,
tackling the problem of multi-lingual neural machine translation (MLNMT). We explore
applicability and the benefits of MLNMT, (1) on large scale machine translation tasks,
between ten pairs of languages within the same model, (2) low-resource language transfer
problems, where the data between any given pair is scarce, and measuring the transfer
learning capabilities, (3) multi-source translation tasks where we have multi-way
parallel data available, leveraging complementary information between input sequences
while mapping them into a single output sequence and finally (4) Zero-resource translation
task, where we don't have any available aligned data between a pair of source-target sequences. |