Tez No İndirme Tez Künye Durumu
150849
Applying and comparing smoothing techniques to contemporary printed Turkish / Güncel basılı Türkçe'ye düzeltme tekniklerinin uygulanması ve karşılaştırılması
Yazar:GÖKHAN DALKILIÇ
Danışman: PROF. DR. YALÇIN ÇEBİ
Yer Bilgisi: Dokuz Eylül Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2004
147 s.
VI ÖZET Ses ve optik karakter tanıma, metin düzeltme, veri sıkıştırma, vs. için doğal bir dilin yapısal özelliklerinin belirlenmesi gereklidir. Bu özellikler, morfolojik ve istatistiksel analiz olmak üzere iki ayrı kategoride incelenebilir. İstatistiksel analiz için, doğal dili temsil eden örnek bir külliyata (corpus) ihtiyaç vardır. Bu külliyatın kelime n-gram frekansları, uygun algoritmalar kullanılarak saptanabilir ve eksik olan n-gramlar düzeltme (smoothing) teknikleriyle tahmin edilebilir. Bu çalışmada, düzeltme tekniklerini karşılaştırmak ve güncel Türkçeye uygulamak amacıyla, kelime n-gram frekanslarının araştınlabileceği TurCo isminde bir külliyat yaratılmıştır. Kelime n-gramlanmn hesaplanması için değişik algoritmalar geliştirilmiş ve denenmiştir. Monogram, digram, trigram, tetragram ve pentagram kelime listeleri bulunduktan sonra özellikleri incelenmiştir. Genelleme yapmak için Zipf Kanunu uygulanmış ve Zipf Kanunu'nun duyarlılığım arttırmak için uygun Mandelbrot sabitleri bulunmuştur. Külliyat, dilin tümünü temsil edecek kadar büyük olamayacağından, görülmeyen n-gramlarm tahmini için düzeltme teknikleri kullanılmalıdır. Düzeltme tekniklerinin incelenmesi ve karşılaştırılması sonucunda, Back-off yönteminin en uygun çözümü verebileceği öngörülmüştür. Bu yöntemin uygulanması ve sonuçların değerlendirilmesi için En Kısa Düzeltme Uzaklığı (Minimum Edit Distance) yöntemi de kullanılarak deneysel bir yazılım geliştirilmiş ve sonuçlar Microsoft Word XP ile karşılaştnılmıştır. Anahtar sözcükler : Külliyat, kelime n-gramlan, yumuşatma, n-gram analiz algoritması, Türkçe külliyat, Türkçe kelime n-gramlan
V ABSTRACT For speech and optical character recognition, text correction, data encryption, etc. determination of the structural properties of a natural language is essential. These properties can be analyzed under two different categories; morphological and statistical analysis. For statistical analysis, a corpus which is a representative sample of the natural language is needed. Word n-gram frequencies of that corpus can be determined by using suitable algorithms and missing n-grams can be estimated by using smoothing techniques. In this study, in order to compare and apply smoothing techniques to contemporary Turkish, a corpus named TurCo from which word n-gram frequencies would be investigated, was created. In order to calculate word n-grams, different algorithms were developed and tested. After finding monogram, bigram, trigram, tetragram and pentagram word lists, their characteristics were analyzed. For generalization, Zipf s Law was applied, and to increase the accuracy in Zipf s Law, Mandelbrot Law was applied by finding the appropriate constants of Mandelbrot. As the corpus could not be big enough to represent all of the language, smoothing techniques were used to estimate the unseen word n-grams. After the investigation and comparison of smoothing techniques, it was assumed that Back-off technique would give the best result. To apply this technique and to evaluate the results, by using the Minimum Edit Distance method a prototype program was developed, and the results were compared with Microsoft Word XP. Keywords: Corpus, word n-grams, smoothing, n-gram analysis algorithm, Turkish corpus, Turkish word n-grams