Osmanlıca kaynakların büyük bir kısmı yurt içi ve yurt dışındaki devlet arşivlerinde, kütüphanelerde ve özel koleksiyonlarda muhafaza edilmektedir. Bu kaynakların bilimsel, tarihsel ve kültürel olarak ne kadar değerli olduğu herkesin malumudur. Bu kaynaklardaki milyonlarca belge, yüzbinlerce basılı kitap, dergi, vb. dokümanların manuel olarak yani elle teker teker okunup Günümüz Türkçe'sine aktarılması pratikte mümkün olmayan bir iştir. Bu çalışmada Osmanlıca matbu (basılı) dokümanları Günümüz Türkçe'sine Derin Öğrenme modelleriyle aktaran bir sistem geliştirilmiştir. Bu sistemde Osmanlıca dokümanların Günümüz Türkçe'sine Uçtan Uca Aktarımı üç aşamada gerçekleştirilir: (i) Osmanlıca OCR- optik karakter tanıma ya da görüntü-metin dönüşümü, (ii) Osmanlıca-Türkçe alfabe çevirisi ve (iii) Osmanlıca-Türkçe dil çevirisi. Osmanlıca OCR aşamasında Osmanlıca bir resim ya da dokümandan Osmanlıca düzenlenebilir metin elde edilmiştir. Osmanlıca OCR aşamasında, Osmanlica.com diye isimlendirdiğimiz derin öğrenme modelinin Google Docs, Fine Reader, Tesseract Arapça, Tesseract Farsça ve Miletos araçları ile deneysel olarak karşılaştırılması 21 sayfalık Osmanlıca test dokümanları kullanılarak gerçekleştirilmiştir. Osmanlica.com modeli diğerlerinden daha iyi performans göstererek %96 karakter tanıma doğruluk oranı elde etmiştir. Bu aşamada ilk defa Osmanlıca Sıklık Analizi yapılmıştır. Bu bağlamda Osmanlıca'nın karakter, katar ve kelime sıklıklarını bulmak için yeni bir çalışma yapılmış, sıklıklar elde edilmiş ve sonuçları paylaşılmıştır. Osmanlıca harfler ayırt edici özelliklerine göre gruplanmış ve literatürde ilk defa bu harf gruplarının sıklık dağılımları verilmiştir. İlk defa Osmanlıca OCR modellerin karakter tanıma ve kelime tanıma doğruluk oranlarına ek olarak bağlı karakter katarı tanıma doğruluk oranları da hesaplanmış ve OCR modellerinin performanslarını karşılaştırmada kullanılmıştır. İkinci aşama olan alfabe çevirisi aşamasında, Osmanlı metinlerin Arapça tabanlı Osmanlı alfabesinden Latin tabanlı Modern Türk alfabesine dönüşümü yapılır. Osmanlıca fonetik bir dil olmadığı için bu dönüşüm güç ve karmaşık bir süreçtir. Osmanlı alfabesi ile Türk alfabesindeki harfler arasında bire bir eşleşme yoktur. Alfabe çevirisi aşaması çok adımlı ve karmaşık olması, bu adımların sözlük, imla kılavuzu, derlem gibi dil kaynakları gerektirmesi, süreçte kısmen de olsa bazı fonetik, morfolojik, gramatik ve semantik problemlerin çözülmesi gerektiğinden dolayı zor bir problem olarak karşımıza çıkmaktadır. Alfabe çevirisi (i) Ortografik Alfabe çevirisi, (ii) kelime bölütleme (iii) yazım düzeltme (iv) seslendirme (v) kelime tahmini (n-grams) (vi) tamlama ve birleşik isimler olmak üzere her biri başlı başına büyük bir problem olan alt aşamalardan meydana gelir. Bu alt adımlar için sözlükler oluşturulmuş ve düzenlemiş, derlem için eserler toplanmış ve algoritmalar geliştirilmiştir. Bu alt adımları kapsayan bir alfabe çevirisi aracı geliştirilmiştir. Alfabe çevirisi aracı - kendi türünde tek uygulama- 7500 kelimelik bir test veri setinde %98 kelime doğruluk oranı elde etmiştir. Üçüncü aşaması olan dil çevirisi ise, Türk alfabesindeki Osmanlıca metnin bilgisayarlı çeviriyle Günümüz Türkçe'sine çevirisidir. Sıradan insanlar için alfabe çevirisi aşamasında üretilen Osmanlıca metin okunabilir olmasına rağmen çoğu zaman anlaşılabilir değildir. Çünkü Osmanlıca'da çok fazla Arapça ve Farsça kelime ve kelime öbeği bulunmaktadır. Günümüz insanı bu öğelerin çoğunun hem anlamına hem de yapılarına yabancıdır. Bu aşamada Osmanlıca'dan Türkçe'ye kural tabanlı bire bir doğrudan dil çeviri aracı geliştirilmiştir. Dil çevirisinin başarı oranını test etmek için derlem ve sözlükler gibi dil kaynaklarının hazırlanması gerekmektedir. Bu üç aşama ile Osmanlıca'dan Türkçe'ye Uçtan Uca aktarımı bütüncül bir sistem olarak ele alınmıştır.
|
Most of the Ottoman sources are kept in state archives, libraries, and private collections at domestic and abroad. Everyone knows how valuable these resources are scientifically, historically, and culturally. There are millions of documents, hundreds of thousands of printed books, magazines, etc. in these sources. It is practically impossible to read these documents manually, one by one, and convert them to the contemporary alphabet. In this study, a system has been developed that transfers Ottoman printed texts to Contemporary Turkish with Deep learning models. In the process of End-to-End Conversion from Ottoman to Contemporary Turkish, it carries out the transfer of Ottoman documents to Contemporary Turkish in three steps: (i) Ottoman OCR- optical character recognition or image-text conversion, (ii) Ottoman-Turkish transliteration, and (iii) Ottoman-Turkish language translation. During the Ottoman OCR step, an Ottoman editable text has obtained from an Ottoman image or document. In the Ottoman OCR step, the experimental comparison of the deep learning model, which we call Osmanlica.com, with Google Docs, Fine Reader, Tesseract Arabic, Tesseract Persian, and Miletos tools or models has carried out using a test dataset of 21 pages of original documents. The Osmanlica.com model outperformed the others, achieving 96% character recognition accuracy rate. At Ottoman OCR step, Frequency Analysis in Ottoman has been made for the first time. In this context, a new study has been carried out to find the character, ligature (connected component) and word frequencies of Ottoman, the frequencies have been obtained and the results have been shared. Ottoman letters are grouped according to their distinctive features and the frequency distributions of these letter groups are given for the first time in the literature. For the first time, in addition to the character recognition and word recognition accuracy rates of the Ottoman OCR models, the ligature recognition accuracy rates have also been calculated and used to compare the performances of the OCR models. In the second step, the transliteration step, transliteration is the conversion of the Ottoman text from the Arabic-based Ottoman alphabet to the Latin-based Modern Turkish alphabet. Since Ottoman is not a phonetic language, this conversion is a difficult and complex task. There is no one-to-one matching between the letters in the Ottoman alphabet and the Turkish alphabet. The transliteration step is a difficult problem because it is multi-step and complex, these steps require language resources such as dictionaries, spelling guides, corpus, and some phonetic, morphological, grammatical, and semantic problems have to be solved in the process. Transliteration consists of (i) Orthographic transliteration, (ii) word segmentation (iii) spelling correction (iv) vowelization (v) word prediction (n-grams) (vi) phrase and compound nouns. Each of these sub-steps is a big problem on its own. Dictionaries have been created and organized for these sub-steps, the books have been collected for the corpus, and algorithms have been developed. The transliteration tool has been developed that covers these sub-steps. The transliteration tool – the only app of its kind – has achieved a 98% word accuracy rate on a 7500-word test dataset. The third step, language translation, is the translation of the Ottoman text in the Turkish alphabet into Contemporary Turkish with computerized translation. Although the Ottoman text produced during the alphabet translation step is readable for ordinary people, it is often not understandable. Because there are too many Arabic and Persian words and phrases in Ottoman. These words and phrases are unfamiliar not only with their meanings but also their structures foreign to people today. At this step, a rule-based one-to-one direct language-translation tool from Ottoman to Turkish has been developed. In order to test the success rate of this module, it is necessary to prepare language resources such as corpus and dictionaries. With these three modules, the end-to-end conversion from Ottoman to Turkish is presented as a holistic approach. |