Doğal dili anlamak, uzun süredir insanlığın hayallerini süslemektedir. Eski bilim
kurgu filmleri, bu rüyanın şimdiye kadar gerçekleşmiş olacağını öngörse de, henüz
gerçeklememiştir. Doğal dili anlamanın halen çözülememiş sorunlar arasında
olmasının temel nedenlerini şu şekilde sıralayabiliriz: dildeki belirsizlikler, bağlamdan
kaynaklanan sorunlar, gerçek dünya ve sağduyu bilgisinin gerekliliği, sözcük ve tümce
yapılarındaki farklılık. Dolayısıyla doğal dili anlama çalışmaları, bu sorunları çözmeyi
amaçlayan ayrı araştırmalarla devam etmektedir.
Bu tez çalışmasında yüzeysel anlam ayrıştırıcı ya da diğer adıyla anlamsal görev
çözümlemesine (AGÇ) odaklanılmıştır. AGÇ, doğal dili anlama işini, tümcelerden
eylem içeren birimlerin ve bunların ögelerinin çıkarılmasına indirgemektedir. Böylece
tümcenin yapısından bağımsız olarak, farklı yapılardaki tümceler için aynı anlamsal
gösterim biçimi elde edilecektir. Örneğin Ekonomi %5 oranında büyümüştür ve
Ekonomideki büyüme %5'tir veya Cam taşla kırıldı ve Taş camı kırdı tümcelerinin
anlamsal gösterim biçimleri aynı olacaktır. Anlamsal görev çözümlemesinin çıktıları,
makine çevirisi, otomatik soru yanıtlama ve duygu analizi gibi değişik doğal dil işleme
alanlarına girdi olarak verildiğinde sonuçları iyileştirildiği gözlemlenmiştir.
Anlamsal görev çözümlemesini gerçekleyebilmek için, makine öğrenme yöntemlerini
yönlendirmek üzere eylem içeren birimlerin (Türkçe için yüklemlerin) anlamlarını
ve ögelerini içeren bir kaynak, diğer bir deyişle veri tabanı, gerekmektedir. Bu
veri tabanına yayınlarda Önerme Veri Tabanı ya da PropBank adı verilmektedir.
Böyle bir veri tabanı oluşturmak uzun zaman, büyük bütçe ve çok sayıda dil
uzmanı gerektirmektedir. Bu nedenle Türkçe için önerme veri tabanları henüz
oluşturulmamıştır. Bu tezde, yukarıda bahsedilen sorun, topluluk bilgisini önerme
veri tabanının oluşturulması sürecine katılarak çözülmüştür. Uzman sayısını en az
olacak şekilde tasarımı yapılan yeni iş modeli, uzmanlardan yalnızca şu durumlarda
yararlanmaktadır: (1) Önerme Veri Tabanının ilk ve önemli adımı olan anlamsal
görev çerçevelerinin oluşturulması, (2) kalite kontrol sürecinde belli miktarda soru
ve yanıtın elle işaretleme ve (3) işaretleyicilerin üzerinde anlaşamadıkları yanıtların
doğru olanlarına karar verme aşamasında. Önerme Veri Tabanının oluşturulmasında
karşılaşılan diğer bir zorluk ise Türkçenin eklemeli dil olması, Türkçedeki eklerin
çok sayıda olması ve Türkçe sözcüklerin peş peşe çok sayıda ek alması dolayısıyla,
Türkçenin kuramsal olarak sonsuz sayıda eylem içeren sözcük üretebilmesidir. Bunun
için tüm eylem içeren türetilmiş sözcüklerin, kök çerçevesi kullanılarak karşılanmasına
karar verilmiştir. Bu yaklaşımla etiketlenen Önerme Veri Tabanının yüksek nitelikli
olduğu çeşitli işaretleyici uzlaşması ölçme yöntemleri kullanılarak kanıtlanmıştır.
Bu tezin ikinci bölümünde, Türkçe AGÇ'ye uygun makine öğrenme yöntemlerinin
geliştirilmesi üzerinde durulmuştur. Bu amaçla sonucu kesin (deterministik) bir makine öğrenme modeli olan lojistik regresyon sınıflandırıcısı kullanılmıştır. İlk
olarak, diğer dillerin anlamsal görev çözümlenmesi için tasarlanmış öznitelikler
kullanılmış, fakat başarımlarının yetersiz olduğu gözlemlenmiştir. Bunun nedenleri
şöyle açıklanabilir: (1) derlem dışı sözcüklerin çokluğu (2) eğitim kümesinin
küçük olması, (3) eylem ve ögelerinin sözdizimsel farklılıklarının yüksek olması.
Bu özellikler, çıkarılan özniteliklerin seyrek olması nedeniyle istatistiksel sistemin
anlamsal görevler hakkındaki kalıpları öğrenememesine neden olmaktadır. Bu
sorunları azaltmak amacıyla, (1) Türkçe diline daha uygun olan biçim bilimine
dayalı öznitelikler (özellikle adın durumları), (2) büyük etiketsiz veri kümesinde
eğitilmiş sözcük vektörlerine dayalı öznitelikler kullanılmış ve bu özniteliklerin
AGÇ'nin başarımını artırdığı gözlemlenmiştir.
Böylece ilk yüksek başarımlı
(79.84 F1 puanlı) Türkçe AGÇ sistemi geliştirilmiştir. Deneylerimiz (1) biçim
anlamsal özniteliklerin Türkçe AGÇ için önemini; (2) tasarlanan sistemin eğitim
verisinin yalnızca %60'ını kullanarak, anlamlı sonuçlar üretilebileceğini; (3) bağlılık
ağacı ve söz dizimsel sınıf bilgisine dayalı özniteliklerin yokluğunda performansın
azımsanmayacak şekilde düştüğünü ve (4) sürekli özniteliklerin bilgi seviyeleri
arasındaki etkileşimi modelleyerek başarıyı artırdığını göstermiştir.
İstatistiksel sistemin, sözcüklerin gerçek etiketlerinin bilindiği durumda başarılı
olduğu gösterilmişse de, bu etiketlerin bilinmediği durumda peş peşe kullanılan doğal
dil araçlarının her birinden kaynaklanan hataların birikmesi dolayısıyla performansı
düşmektedir. Bu nedenle, araçlara en az düzeyde ihtiyaç duyan, çift yönlü
LSTM birimlerinin alt sözcükleri işlemesine dayanan bir yapay sinir ağı yöntemi
önerilmiştir. Eğitilmiş sözcük vektörleri kullanan önceki yöntemlerin tersine, önerilen
yöntem alt sözcükleri çeşitli fonksiyonlarla birleştirerek sözcük vektörü yaratmaktadır.
Varolan birleştirme yöntemleri biçimbirimsel farklılıkları göz önüne almamaktadır.
Bu nedenle yapım ve çekim eklerinin ayrı ayrı birleştirildiği farklı bir yöntem
sunulmuştur. Alt sözcük birimleri ve birleştirme fonksiyonları sistematik olarak
analiz edilerek, etkileri ölçülmüştür. (1) Yalnızca karakter bilgisi kullanan modellerin,
zayıf üretme yetenekli diller için biçimbirimsel bilgi kullanan modellerle benzer
sonuçlar verdiği fakat üretim bakımından zengin dillerde biçimbirimsel bilginin
başarımı en az yüzde 3 puan artırdığı (2) önerilen birleştirme yönteminin öncekilerden
daha başarılı olduğu gösterilmiştir.
Alt sözcüklerin AGÇ için tamamlayıcı
özellikler öğrenip öğrenmediğinin sınanması için birden çok alt sözcük tipi çeşitli
tekniklerle birleştirilmiştir. Karakter ve karakter üçlülerinin birleştirilmesinin her
durumda başarımı artırdığı gözlemlenmiş, fakat biçimbirimsel bilginin karakterle
birleştirilmesinin, üretken diller birçok dile yardımcı olmadığı görülmüştür. Bu bulgu,
karakter modellerinin, söz konusu diller için, zaten biçimbirimsel modellerde olmayan
herhangi bir bilgiyi yakalayamadığını düşündürmektedir. Son olarak, araştırmacıların
Türkçe dili üzerinde çalışmasını özendirmek amacıyla tüm kaynaklar erişilir biçimde
tüm araştırmacılara sunulmuştur.
|
Understanding a human language has been a dream of manhood for more than a
decade. Although early science fiction movies have predicted that dream would have
come true by now, it has not. The reasons are varied however ambiguity, the need
for context, common sense knowledge, the variety in word/sentence structures can
be considered as such. There have been attempts to disambiguate word meanings,
analyzing language structures and modeling common sense knowledge to reach this
goal, however it is an on-going research with many subfields.
In this thesis, we are interested in one its subfields: shallow semantic parsing or
semantic role labeling (SRL). It aims to dissolve the understanding problem into
identifying action/event bearing units and their participants. In that way, independent
from the structure of the sentence, the same representation can be produced, (e.g.
"Economy grew by 5%" and "The growth of the economy was 5%" or "The window
broke" and "Stone broke the window"). The output representations of this task
can benefit other natural language understanding tasks such as information retrieval,
sentiment analysis, question answering and textual entailment.
In order to perform this task a resource that contains the meanings of action/event
bearing units (in our case verbs) and their frequent participants, named Proposition
Bank (PropBank), should be created to guide the machine learning techniques.
Unfortunately creating such a resource requires a large amount of time, budget and
linguistic experts. Therefore has not seen possible for low-resourceful languages like
Turkish. In this thesis we aim to address this issue by incorporating crowd intelligence
into the construction workflow. We design a novel workflow that requires minimum
number of experts with linguistic knowledge. They have been employed for (1) the first
crucial step, where semantic frames are manually created, (2) supply quality control
mechanism by labeling a small amount of questions and (3) double check the answers
of crowdtaskers when taskers could not agree on an answer. Other challenges to create
such a resource are posed by rich morphology of Turkish. To address this extreme
production of new words that cause theoretically infinite number of action bearing
units, we propose to exploit the semantic knowledge that are acquired by root verbs
composed with regular morphosemantic features such as case markers. We evaluate
our overall approach for building of Turkish PropBank by various inter-annotator
metrics and show that our resource is of high quality.
Though creating a resource is crucial, not enough for automatic labeling of semantic
roles. Second part of this thesis focuses on building such automatic methods that
are suitable for Turkish language. For that purpose, we adopt a system that uses a
deterministic machine learning model based on linguistic features designed mostly for
high-resource, morphologically poor languages. However Turkish language poses the following challenges: (1) significant amount of out of vocabulary words (words that
have not been seen in the dictionary) (2) small number of training instances and (3)
high syntactic variance among predicates and their arguments. These issues cause
very sparse features that complicate the learning process of the statistical system. We
address these challenges by (1) designing better features that exploit the regularity
of morphosemantics, thus not as sparse as previous ones; and (2) taking advantage
of pretraining on unlabeled data, in other words, exploiting prior knowledge on
Turkish words that have been learned through word embeddings. We show that our
approach yields to the first robust Turkish SRL system with an F1 score of 79.84. Our
experiments with training data size and the features show that (1) morphosemantic
features are vital for Turkish SRL; (2) a reasonable SRL system can be trained with
proposed features on 60% of the available data; (3) performance greatly degrades in
the absence of high-level syntactic features and (4) continuous features model complex
interactions between information levels and lead to further improvement in the scores.
Although the statistical SRL system has been shown to be successful in the presence
of gold tags, it suffers from accumulating errors of external NLP tools that are
required for feature extraction. To address this problem, we introduce a neural SRL
system that employs bi-directional long-short-term-memory (LSTM) units to operate
on subword units which do not require syntactic preprocessing (or only minimal).
Unlike previous techniques that use pretrained word embeddings, the proposed model
generate a word embedding by composing the subword units. Available subword
composition techniques did not make any distinctions between morphology types.
In order to distinguish derivational morphology from inflectional morphology, we
propose a linguistically motivated composition technique and systematically analyze
the effect of subword and composition types. We show that (1) character based
models with bi-LSTM composition perform similar to models that use morphological
information for languages with poor morphology, whereas at least 3 percentage
point drop is observed on F1 scores for morphologically rich languages and (2)
linguistically motivated composition method surpasses other techniques for Turkish
SRL. We evaluate various techniques to combine multiple subword units in order
to test whether subwords learn complementary features for argument labeling. We
show that character and char-trigram combination improve the scores in all cases,
whereas combining character with morphology do not help to most languages with
rich morphology, suggesting that characters do not capture any information that is
not already in embedded in morphological models. Finally all resources are made
accessible to encourage researchers to work on Turkish language. |