Tez No İndirme Tez Künye Durumu
84981 Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi / A document compression system based on the morphology of the Turkish language
Yazar:BANU DİRİ
Danışman: PROF. DR. M. YAHYA KARSLIGİL
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Bilimleri Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Hoffman kodlama = Hoffman coding ; Morfoloji = Morphology ; Türkçe = Turkish ; Veri sıkıştırma = Data compression
Onaylandı
Doktora
Türkçe
1999
167 s.
ÖZET Bu doktora çalışmasında veri sıkıştırma konusunda yapılan diğer çalışmalardan farklı olarak, Türkçe metinlerin biçimbilimsel (morfolojik) olarak incelenmesi yapılmış ve bu inceleme sonucunda elde edilen gövde-kök, hece ve eklere ait istatistiksel verilere göre, yeni bir veri sıkıştırma yöntemi geliştirilmiştir. Sistemin başarımı ve çalışması değişik Türkçe metinlere uygulanarak değerlendirilmiştir. Geliştirilen sistemin en önemli özelliği, var olan sıkıştırma yöntemlerinden farklı olarak, sıkıştırılacak veriyi ikili bilgi yapısında değil, Türkçe dilinin yapısına uygun şekilde hece, gövde-kök ve eklerine ayırarak değerlendirmesidir. Geliştirilen bu sıkıştırma yönteminde Huffman kodlama ağacı temel alınıp ilk olarak kelimenin heceleri, ikinci olarak kelimenin kök ve ekleri, son olarak da kelimenin alınabilen en uzun ilk hecesi ve ekleri için üç ayrı statik şablon oluşturulup, Türkçe bir metnin kayıpsız geri dönüşümü sağlanmıştır. Sıkıştırma verimindeki başarıyı daha da arttırmak amacıyla kelimenin gövde-kök ve ekleri için iki ayrı sözlük kullanarak dinamik Huffman kodlaması gerçekleştirilmiştir. Ayrıca kod çözme işleminde ihtiyaç duyulan Huffman ağaç yapısına ait bilginin, sıkıştırılan metnin önüne konan başlık (header) alanında tuttuğu yer, bu doktora çalışması kapsamında geliştirilen bir yöntem ile n elemanlı bir Huffman ağacının (2n-2) adet bit ile ifade edilmesi sağlanmış olup, sıkıştırma veriminde %1.5'luk bir artış elde edilmiştir. Veri sıkıştırma tekniklerinin test edilmesinde kullanılan Galgary Corpus ve Catenbury Corpus'a uygun olarak 1 4 adet Türkçe metinden oluşan bir test kümesi oluşturulmuş ve sistem başarımı bu test kümesi üzerinde incelenerek değerlendirilmiştir. Türkçe metinler üzerinde yapılan analiz sonucunda, Türkçe bir metin içerisinde geçen kelime kullanım sıklıklarının Zipf kanununa uyum gösterdiği de belirlenmiş ve kullanım sıklıklarına göre matematiksel bir model kurulmuştur. Anahtar kelimeler : Veri sıkıştırma, Huffman kodlaması, Zipf kanunu, Türkçe'nin biçimbilimsel analizi, Türkçe XII
ABSTRACT In this thesis, a new approach for the compression of turkish documents is proposed. In contrast to common data-compression methods, this approach determines the frequency of root, stem,syllables and suffixes in a document through a morphological analysis and uses this output in the generation of dynamic Huffman codes. The evaluation of the proposed approach has been accomplished by implementing the system on several different turkish documents. The proposed approach distinguishes itself from common place algorithms by the fact that the document to the compressed is evaluated in accordance to the turkish language and rather than as plain binary data hence broken into its roots, stems, suffixes and syllables. Since text compression and decompression requires lossless operation, the proposed method expresses the roots, stems and suffices using Huffman trees to maximize the ratio of coded information to the number of required bits. The header part which carries information to be used during decompression has been optimized by the proposal of a new coding method to describe a Huffman tree which resulted in approximately %1.5 gain in overall compression performance. The proposed coding expresses a Huffman tree with (n) elements in (2n-2) bits and thus reduces the header size clearly. A corpus consisting of 14 turkish documents similar to Galgary Corpus and Catenbury Corpus has been formed and the systems overall performance has been evaluated on this corpus. Through analysis on turkish documents it has been observed that the frequency distribution of words in a turkish document conforms to the Zipf s law which helps the development of the implemented mathematical model. Keywords : Data compression, Huffman coding, Zipf law, The morphology of the Turkish Language, Turkish X11J