Tez No |
İndirme |
Tez Künye |
Durumu |
343082
|
|
Power of frequencies: N-grams and semi-supervised morphological segmentation in Turkish / Tekrarların gücü: Türkçe'de N-gramlar ve yarı-denetimli biçimbilimsel bölme
Yazar:ÖZKAN KILIÇ
Danışman: PROF. DR. HÜSEYİN CEM BOZŞAHİN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Bilişsel Bilim Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Dilbilim = Linguistics
Dizin:
|
Onaylandı
Doktora
İngilizce
2013
159 s.
|
|
Türkçe serbest sözcük dizimine sahip bitişimli bir dildir. İletişim sırasında, Türkçedeki
kelimelerin yapısal bölümlerine ayrılması gereklidir; çünkü Türkçenin biçimbilimsel
sözdizimi karışıktır ve bu durum anlamsal çözümlemede merkezi bir rol oynar. Sözcük-altı
parçacıkların ayrıştırılması aslında çocuklar tarafından şaşırtıcı bir başarıyla gerçekleştirilen
bir biçimbirim bölme işlemidir. Bu çalışmada, Türkçe kelimelerin biçimbirim ayrıştırılması
bir yarı-denetimli Gizli Markov Modeli ile gösterilmiştir. Model, tekrarların ve dizilimlerin
gücünü dil ediniminde doğrudan (veya dolaylı olumsuz) kanıt olarak vurgulamaktadır.
Yöntem, ODTÜ Türkçe Derlemi ve ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlemi tarafından
eğitildikten sonra .88, .92 ve .90 (duyarlık, doğruluk, f-değeri) ölçümlerine ulaşmıştır.
Ayrıca, bileşik sözcük tanımlama ve bölme için istatistiksel yaklaşımlar önerilmiştir. Bilişsel
bilimlerde sıklıkların kullanımını desteklemek amacıyla, Türkçe sıfat pekiştirme ve sahte
kelimelerin kabul edilebilirliği ile ilgili deneysel çalışmalar ve ilgili istatistiksel modeller bu
çalışmada önerilmiştir. Bu çalışma şunu göstermektedir; çocukları yönlendiren
konuşmalarda olası kelime formları ve muhtemel olmayan biçimbirim sıralarına yönelik
çarpık bir olasılık yığını olduğu için, bu yığın çeşitli istatistiksel modeller tarafından insan
düzeyinde dilbilimsel yetenekleri taklit etmede kullanılabilir. Ayrıca, insanlar istatistiksel bir
öğrenme yeteneğine sahiptir ve bu yetenek doğalcıların iddia ettiği gibi dil yetisine has
değildir fakat genel bilişsel yeteneklere dahildir. Bu durum dili analiz edecek hesaplamalı ve
istatistiksel modellerin anlamlı ve geçerli kullanımlarına olanak sağlamaktadır. Böyle
tahminsel modeller dilin derinlemesine anlaşılmasına izin vermektedir.
Anahtar Kelimeler: Biçimbirim Bölme; Dolaylı Olumsuz Delil; Yarı-denetimli Öğrenme
|
|
Turkish is an agglutinating language with a non-rigid word order. When communicating, the
word internal structure in Turkish is required to be segmented because Turkish
morphosyntax is tortuous and it plays a central role in semantic analysis. Distinguishing a
sub-word unit actually means performing a morph segmentation task, which is accomplished
by children at an astonishing success rate. In this study, morph segmentation of Turkish
words was demonstrated with a semi-supervised Hidden Markov Model, which emphasized
the power of frequencies and sequences as direct (or indirect negative) evidence for language
acquisition. The method achieved .88, .92 and .90 (precision, recall and f-score) measures
after being trained by the METU Corpus and the METU-Sabancı Turkish Treebank.
Additionally, statistical approaches were offered for compound word recognition and
segmentation. In order to corroborate the use of frequencies in the cognitive studies, the
experimental studies and the corresponding statistical models in Turkish emphatic
reduplication and the acceptability of nonce words were also proposed in this study. This
study shows that since the probability mass in child-directed speech is skewed toward
possible word forms and unlikely morph sequences, this mass can be used by various models
to mimic human-level linguistic capabilities. Furthermore, human beings have a statistical
learning ability and it is not specific to the faculty of language as claimed by nativists but to
general cognition. This allows the plausible and valid use of computational and statistical
models to analyze language. Such predictive models can allow a deeper understanding of
language.
Keywords: Indirect Negative Evidence; Morph Segmentation; Semi-supervised Learning |