Tez No | İndirme | Tez Künye | Durumu |
116531 |
Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
|
Identifying the interactions of multi-criteria in Turkish discourse segmentation / Türkçe metin bölümlemesinde çoklu kriterlerin ilişkilerinin incelenmesi Yazar:MELTEM TURHAN YÖNDEM Danışman: DOÇ.DR. CEM BOZŞAHİN Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Dizin:Anlam bilim = Semantics ; Doğal dil işleme = Natural language processing ; Metin inceleme = Text examination ; Türkçe = Turkish ; Yapay zeka = Artificial intelligence |
Onaylandı Doktora İngilizce 2001 166 s. |
öz TÜRKÇE METİN BOLUMLENMESINDE ÇOKLU KRİTERLERİN İLİŞKİLERİNİN İNCELENMESİ Yöndem, Meltem Turhan Doktora, Bilgisayar Mühendisliği Bölülü Bölümü Tez Yöneticisi: Doç. Dr. Cem Bozşahin Ağustos 2001, 166 sayfa Bu çalışmada, metin bölümlenmesi ve Türkçe'deki uygulanması sunulmuştur. Bölümleme yapan denekler arasında istatistiksel uyumun yüksek olduğu gözlenmiştir. Türkçe metin bölümlemede etken olabilecek etmenler incelenmiş ve karar ağaçları oluşturmak için Makina Öğrenimi teknikleri kullanılmıştır. Önemli görülen özellikler şunlardır: kelimenin ilk kullanımı, fiil zaman değişimi, zaman değişimi, yer değişimi, metin bağlaçları ve işaret öbekleridir. Bunun dışında, ilgili kelimelerin aynı bölümün içerisinde beraber görünme oranı, bölümler arasında ilgili sözcüklerin görünme oranından daha yüksek olduğu gözlenmiştir. Bu özellik Otomatik TürkçeMetin Bölümlenmesinin (Automatic Turkish Discourse Segmentation - ATDS) gerçekleştirilmesinde kullanılmıştır. ATDS'nin gerçekleştirilmesinde bir de metin bağlaçları kullanılmıştır. Bu projenin önemli bir yan ürünü isimler ve fiiller için oluşturulmuş Türkçe anlam bağlantılı kelimeler ağıdır. Bu ağdaki ilişkiler: isim ler için eş anlam, zıt anlam, üstanlamlık, altanlamlık, yanaşık sözcükler; fiiller için ise eş anlam, zıt anlam, altanlamlık, yanaşık sözcükler, gerektirim ve neden olmaktır. ATDS'nin gerçekleştirimi iki aşamadan oluşmuştur:. C4.5 yardımıyla en önemli parametrelerin bulunması.. otomatik bölümleme için birinci aşamadaki en başarılı 4 parametre kombi nasyonunu kullanarak yapay ağ geliştirmek. Kendi ürünümüz İngilizce için yapılmış metin bölümleme çalışmaları ile karşılaştırıldı. Anahtar Kelimeler: Anlamsal Bölümleme, Semantik Bilgi, Yapay Zeka, Türkçe Metin Bölümleme, Merkezleme Kuramı, Doğal Dil İşlemleme, Metin Bağlaçları. vı | |||
ABSTRACT IDENTIFYING THE INTERACTIONS OF MULTI-CRITERIA IN TURKISH DISCOURSE SEGMENTATION Yöndem, Meltem Turhan Ph.D., Department of Computer Engineering Supervisor: Assoc. Prof. Dr. Cem Bozşahin August 2001, 166 pages In this study, a method for discourse segmentation is introduced and applied to the Turkish language domain. This method is based on the idea that new segments start when related words do not occur frequently and discourse mark ers appear at sentence initial position. A high correlation is observed by means of statistical methods among human subjects in segmenting discourse. Decision trees for various combinations of criteria have been constructed by a Machine Learning technique. The features that seem to be important are first mention of a word, tense change, time shift, location shift, discourse markers and Centering mTheory transitions. Other than these, related words are observed to appear more frequently inside a discourse segment than across a discourse segment bound ary. This feature is used in the construction of the Automatic Turkish Discourse Segmentation (ATDS) tool together with one of the most important computable features: discourse markers. An important by-product of the project is the se- mantically related Turkish word network for nouns and verbs. Relations are synonymy, hypernymy, antonymy, meronymy and coordinated words for nouns and synonymy, antonymy, hypernymy, entailment, cause and coordinated words for verbs. Implementation of ATDS consists of two phases:. gathering information about the most important parameters with the help of C4.5.. developing a Neural Network for automatic segmentation that uses the most successful 4 combinations of the first phase. We benchmark our algorithm and compare it with the English discourse segmen tation algorithms. Keywords: Discourse Segmentation, Semantic Information, Artificial Intelligence, Turkish Discourse Segmentation, Centering Theory, Natural Language Process ing, Discourse Markers. IV |