Tez No | İndirme | Tez Künye | Durumu |
96196 |
Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.
|
A Statistical information extraction system for Turkish / Türkçe için istatistiksel bir bilgi çıkarım sistemi Yazar:GÖKHAN TÜR Danışman: DOÇ. DR. KEMAL OFLAZER Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control Dizin:Bilgi çıkarımı = Information extraction ; Doğal dil işleme = Natural language processing ; İstatistiksel yöntemler = Statistical methods |
Onaylandı Doktora İngilizce 2000 135 s. |
ÖZET TÜRKÇE İÇİN İSTAriSTİKSEL BİR BİLGİ ÇIKARIM SİSTEMİ Gökhan Tür Bilgisayar Mühendisliği. Doktora Tez Yöneticisi: Doç. Dr. Kemal Oflazer Ağustos. 2000 Bu tezde, istatistiksel dil işleme yöntemleri kullanarak Türkçe metinlerden bilgi çıkarımı üzerine yapılan bir dizi çalışmanın sonuçları sunulmaktadır. Sözcüksel (lexical) ve biçimbirimsel (morphological) bilgiler kullanan istatistiksel yöntemler aşağıdaki problemlerde başarıyla uyguLuımışttr:. Türkçe Metin Düzeltme sistemi. ASCII karakter kümesinde olmayan Türkçe karakterlerin ASCII karşılıklarıyla (ör: "ı" yerine 'T") yazıldıkları metinleri düzeltme amacını taşır.. Sözcüklere Ayırma sistemi, içinde boşluk ya da noktalama işaretleri olmayan bir dizi karakter verildiğinde, bunları sözcüklerine ayırmaya çalışır.. Ünlüleri Yerin'--: Koyma sistemi, ünlü karakterleri olmayan bir metin ver ildiğinde bunları tekrar yerine koymayı amaçlar.. Cümlelere Ayırma sistemi, bir dizi sözcük verildiğinde bunları sözdizimsel cümlelere bölmeyi amaçlar.. Konulara Ayırma sistemi, bir metinde konuların değiştiği yerleri bulmayı amaçlar.. isim işaretleme sistemi, bir metindeki özel isimleri (insan, yer. ve. kurum isimleri) işaretlemeyi amaçlar. Türkçe Metin Düzeltme. Sözcüklere Ayırma, ve Ünlüleri Yerine Koyma gibi görece basit sistemler için sözcüksel bilginin yeterli olduğu görüldü. Ancak Cümlelere Ayırma, Konulara Ayırma, ve isim işaretleme gibi daha karmaşık vıvıı problemler için, ek olarak biçimbirimsel ve çevresel (contextual) bilgi de kul lanıldı. Cümlelere ayırma problemi için, sözcüklerin son çekim eki grubunu (in flectional group) istatistiksel modelleyip sözbirimsel modelle birleştirerek hata oranını 4.34%'e düşürmeyi başardık. İsim işaretleme sisteminde, sözbirimsel ve biçimbirimsel modellerin yanı sıra, çevresel ve işaret (tag) modellerini de kul landık ve 91.56% oranında doğruluğa ulaştık. Konulara ayırma problemi için ise, sözcüklerin köklerini kullanmak, asıl hallerini kullanmaktan daha iyi sonuçlar verdi, ve hata oram 10.90% oldu. Anahtar sözcükler: Bilgi Çıkarımı, İstatistiksel Doğal Dil işleme, Türkçe, İsim İşaretleme, Konulara Ayırma, Cümlelere Ayırma, Ünlüleri Yerine Koyma, Sözcüklere Ayırma, Türkçe Metin Düzeltme. | |||
ABSTRACT A STATISTICAL INFORMATION EXTRACTION SYSTEM FOR TURKISH Gökhan T;ir Ph.D. in Computer Engineering Supervisor: As:ioc. Prof. Kemal Oflazer August, 2000 This thesis presents the results of a study on information extraction from un restricted Turkish text using statistical language processing methods. We have successfully applied statistical methods using both the lexical and morphological information to the following tasks: ?".o » The Turkish Text Deasciifier task aims to convert the ASCII characters in a Turkish text, into the corresponding non-ASCII Turkish characters (i.e., "ir, ''ö". "ç"'. "ş". "ğ". "f. and their upper cases).. The Word Segmentation task aims to detect word boundaries, given we have a sequence of characters, without space or punctuation. e The Vowel Restoration task aims to restore the vowels of an input stream, whose vowels are deleted.. The Sentence Segmentation task aims to divide a stream of text or speech into grammatical sentences. Given a sequence of (written or spoken) words, the aim of sentence segmentation is to find the boundaries of the sentences.. The Topic Segmentation task aims to divide a stream of text or speech into topically homogeneous blocks. Given a sequence of (written or spoken) words, the aim of topic segmentation is to find the boundaries where topics change.. The Name Tagging task aims to mark the names (persons, locations, and organizations) in a text. For relatively simpler tasks, such as Turkish Text Deasciifier, Word Segmentation. and Vowel Restoration, only lexical information is enough, but in order to obtain ivbetter performance in more complex tasks, such as Sentence Segmentation, Topic Segmentation, and Name Tagging, we not only use lexical information, but also exploit morphological, and contextual information. For sentence segmentation, we have modeled the final inflectional groups of the words and combined it with the lexical model, and decreased the error rate to 4.34%. For name tagging, in ad dition to the lexical and morphological models, we have also employed contextual and tag models, and reached an F-measure of 91.56%. For topic segmentation, stems of the words (nouns) have been found to be more effective than using the surface forms of the words and we have achieved 10.90% segmentation error rate on our test set. Keywords: Information Extraction, Statistical Natural Language Processing, Turkish, Named Entity Extraction, Topic Segmentation. Sentence Segmentation. Vowel Restoration, Word Segmentation, Text Deasciification. |