Tez No İndirme Tez Künye Durumu
171072 Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
Karakter tabanlı doküman dili tanıma sistemi tasarımı / Character based language identification system design
Yazar:HİDAYET TAKCI
Danışman: Y.DOÇ.DR. İBRAHİM SOĞUKPINAR
Yer Bilgisi: Gebze Yüksek Teknoloji Enstitüsü / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2005
82 s.
ÖZET Dil tanıma, başta doğal dil işleme olmak üzere bir çok uygulamada anahtar vazife görmektedir. Dil tanıma, dilin ayırt edici özelliklerine bazı tekniklerin uygulanması ile gerçekleştirilmektedir. Bu kapsamda; terimler (kelime veya kelime öbekleri), harf dizileri veya n-gramlar bugüne kadar dilin ayırt edici özellikleri olarak dil tanımada kullanılmıştır. Dili tanımlayan özelliklere uygulanan en temel iki yöntem ise istatistiksel ve dilbilimsel yöntemdir. Bunlardan istatistiksel yöntemde, dilin istatistiksel özellikleri kullanılır, dilbilimsel yöntemde ise daha çok dilin özel harfleri gibi dilbilimsel özellikleri kullanılmaktadır. Dil tanımanın geri planında; markov modelleri, n-gram, bayesian modelleri ve vektör uzayı gibi modeller bulunur. Bu modeller dilin özelliklerini sunmada ve özellikler arası ilişkilerin açığa çıkarılmasında kullanılırlar. Bu çalışmada doküman dili tanıma için karakter özellik kümesini kullanan bir yöntem önerilmektedir. Yöntem; doküman karakter sıklıklarının dokümanın dilini tanımada kullanılabileceği temeline dayanmaktadır. Yöntemin özellik kümesi; Latin kökenli sekiz Avrupa dili ve Türkçenin alfabesinden elde edilmiştir. Karma alfabede toplam 60 karakter bulunmakta olup, bunların 26 tanesi bütün dillerde kullanılan ortak karakterler (genel karakterler) geriye kalan 34 tanesi (özel karakterler) bütün dillerde kullanılmayıp bir veya birden fazla dilde kullanılan karakterlerdir. Çalışmada dil özelliklerini sunmak için vektör uzayı modeli seçilmiştir. Bu model sayesinde her bir doküman bir vektör ile temsil edilmiş, ayrıca doküman kategorileri de centroid adı verilen bir vektör ile sunulmuştur. Doküman karakter vektörleri her bir dokümanda geçen karakterlerin sıklıklarından elde edilmektedir. Diller ağırlıklı centroid vektörleri ile, test dokümanları da doküman karakter vektörleri ile sunulur. Bir test dokümanının dilini tespit için diller ile test dokümanı arasındaki benzerlikler hesap edilir. Test dokumam ile diller arasındaki benzerlik, doküman karakter vektörü ile centroid arasındaki açı benzerliği ile bulunmaktadır. Benzerlik sonrasında, maksimum benzerliği veren centroidin ait olduğu dile test dokümanı atanarak dil tanıma yapılır.ÖZET Karakter tabanlı yöntemin eğitimi ve testi için, European Corpus Initiative (ECI) adı verilen uluslar arası kabul görmüş, çok dilli bir külliyat kullanılmıştır. Eğitim için ECI külliyatından, 10 ile 100 KB arasında uzunluklarda 9 adet alt külliyat kullanılmıştır. Külliyat boyutlarındaki farklılığın sebebi, her bir dile ait karakter sıklıklarının farklı uzunlukta kararlı hale gelmesindendir. Karakter sıklıklarının hangi boyutta kararlı hale geldiği dil tanıma doğruluklarının testi ile elde edilmiştir. Karakter tabanlı yöntemin doğru dil tanıma oram, 100 karakter uzunluğundaki metinler için 9 dilde ortalama %99 civarındadır. Önerilen yöntemin doğru tanıma oram diğer yöntemlerden yaklaşık %1 daha düşük ancak yöntemin özellik kümesi diğer yöntemlerin özellik kümelerinden oldukça küçüktür. Karakter tabanlı yöntemin özellik kümesi kısa kelimeler yönteminin 1/16'sı, 3gram yönteminin ise l/60'ı kadardır. Ayrıca işlem maliyetleri açısından karakter tabanlı yöntem daha az maliyetlidir. Özellik adedinin az olması ve işlem maliyetlerinin düşüklüğü sebebiyle karakter tabanlı yöntem, diğer yöntemlere göre yaklaşık 15 kat daha hızlıdır. Bu durum karakter tabanlı yöntem için önemli bir avantajdır. Hız avantajından dolayı karakter tabanlı yöntem gerçek zamanlı sistemlerde etkin olarak kullanılabilir.
SUMMARY Language Identification is a key subject in many applications, especially natural language processing. Language identification is performed by applying some techniques to characteristic features of the language. In this scope; terms (words or word groups), sequences of letters or n-grams have been used as characteristic features of the language until today. Statistical and linguistic methods are used for identification of document languages. In statistical method, statistical properties of the language are used and properties like special letters are mostly used in linguistic language identification method. Models like Markov models, n-gram models, Bayesian models and vector space models lie on the background of the language identification. These models are used for presentation the features of the language and bringing out the relations between these features. In this work, a method which uses character feature set for language identification is proposed. The method is based on the idea of documents' character frequencies can be used for document language identification. Feature set of the method is obtained from alphabets of eight European languages having Latin origin and Turkish. While there are 60 characters in the mixed alphabet, 26 of them are the common characters which are used in all languages (general characters) and the remaining 34 characters are not used in all languages but are used in one or more languages (special characters). Vector space model is selected for presentation of the language features in the proposed method. By the help of this model, each document is represented by a vector and in addition, document categories are represented by a vector called weighted centroid. Document character vectors are obtained from the frequencies of characters belonging to each document. Languages are presented with centroid vectors and test documents are presented with document character vectors. Then, in order to determine the language of a test document similarities between languages and test document are calculated.The similarity between test document and languages is found by the similarity of the angle between document character vector and centroid vector. After this language identification is performed by assigning the test document to the category which contains the centroid that gives the maximum similarity. Multilanguage corpus named as European Corpus Initiative (ECI) have been used for the comparisons between character-based method and other language identification methods. Nine sub-corpuses from ECI which have a length between 10 and 100 KB have been used for training of the method. The reason of the differences in corpus lengths is character frequencies belonging to each language becomes steady-state in different lengths. The optimum character frequencies are obtained during the language identification experiments. The success rate of character based method is about 99% on average in 9 languages for texts whose length are 100 characters. The accuracy rate of this method is approximately 1% less than other methods. However, feature set of the proposed method is 1/16 of short term method and 1/60 of the 3-gram method. For this reason proposed method is approximately 15 times faster than other methods. Thus, character based method can be used effectively in real time systems.