Tez No İndirme Tez Künye Durumu
277012
Automating information extraction task for Turkish texts / Türkçe metinlerden otomatik bilgi çıkarımı
Yazar:SERHAN TATAR
Danışman: DR. İLYAS ÇİÇEKLİ ; PROF. DR. ÖZGÜR ULUSOY
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Bilgi çıkarımı = Information extraction ; Türkçe = Turkish
Onaylandı
Doktora
İngilizce
2011
128 s.
Tarih boyunca, kaynakların yetersizliği insanoğlu için sorun olmuştur. Ne var ki günümüz bilgi dünyasında, kaynakların yetersizliğinden ziyade kaynak fazlalığının sebep olduğu yeni bir problem türüyle karşı karşıyayız. Aşırı bilgi, ihtiyaç duyulan bilginin bulunmasını ve çıkarımını gerektirmektedir. Bilgi çıkarımı, ihtiyaç duyulan nesnelerin, ilişkilerin, gerçeklerin veya olayların, doğal dildeki serbest metinler içerisinde bulunması olarak tanımlanabilir. Bu bağlamda bilgi çıkarımı, doğal dildeki yapısal olmayan metinlerin çözümlenmesi ve bu metinlerin ihtiva ettiği gerekli bilginin yapısal bir şablona aktarılması işlemidir.Bu çalışmanın amacı Türkçe serbest metinlerdeki bilgiyi otomatik olarak bulan ve çıkaran bir sistemin geliştirilmesidir. Çalışma iki temel bilgi çıkarımı görevine odaklanmaktadır: Ad Tanıma ve İlişki Bulma. En temel bilgi çıkarımı görevlerinden olan Ad Tanıma, serbest metinlerde geçen varlık isimlerinin (insan, yer, organizasyon vb.) bulunmasıdır. İlişki Bulma görevi ise, metinlerde bahsedilen varlıklar arasındaki ilişkileri bulmaya çalışır.Gözetimli öğrenme stratejisini kullanan sistem, öğrenme kümesinden seçilen örnek kümesi ile başlayıp bilgi çıkarım kurallarını üretmektedir. Ayrıca, genelleştirmenin ve doğruluğun maksimize edilmesi amacıyla kural filtreleme ve kural iyileştirme teknikleri kullanılmaktadır. Hassas genelleştirmenin sağlanması maksadıyla imla, bağlam, sözcük, biçim gibi çeşitli sözdizimsel ve anlamsal metin özelliklerinden faydalanılmaktadır. Özellikle, bitişimli bir dil olan Türkçe'den bilgi çıkarımı başarımının artırılması için biçimbilimsel özellikler etkin olarak kullanılmıştır. Sistem elle üretilen kurallar üzerine dayanmadığı için alan uyumluluğu probleminden ciddi olarak etkilenmemektedir.Yapılan test sonuçları, (1) geliştirilen sistemin Ad Tanıma ve İlişki Bulma görevlerine başarılı bir şekilde uygulandığını, ve (2) biçimbilimsel özelliklerin kullanımının, bitişimli bir dil olan Türkçe'den bilgi çıkarımı işleminin performansını önemli ölçüde artırdığını göstermiştir.
Throughout history, mankind has often suffered from a lack of necessary resources. In today's information world, the challenge can sometimes be a wealth of resources. That is to say, an excessive amount of information implies the need to find and extract necessary information. Information extraction can be defined as the identification of selected types of entities, relations, facts or events in a set of unstructured text documents in a natural language.The goal of our research is to build a system that automatically locates and extracts information from Turkish unstructured texts. Our study focuses on two basic Information Extraction (IE) tasks: Named Entity Recognition and Entity Relation Detection. Named Entity Recognition, finding named entities (persons, locations, organizations, etc.) located in unstructured texts, is one of the most fundamental IE tasks. Entity Relation Detection task tries to identify relationships between entities mentioned in text documents.Using supervised learning strategy, the developed systems start with a set of examples collected from a training dataset and generate the extraction rules from the given examples by using a carefully designed coverage algorithm. Moreover, several rule filtering and rule refinement techniques are utilized to maximize generalization and accuracy at the same time. In order to obtain accurate generalization, we use several syntactic and semantic features of the text, including: orthographical, contextual, lexical and morphological features. In particular, morphological features of the text are effectively used in this study to increase the extraction performance for Turkish, an agglutinative language. Since the system does not rely on handcrafted rules/patterns, it does not heavily suffer from domain adaptability problem.The results of the conducted experiments show that (1) the developed systems are successfully applicable to the Named Entity Recognition and Entity Relation Detection tasks, and (2) exploiting morphological features can significantly improve the performance of information extraction from Turkish, an agglutinative language.