Tez No İndirme Tez Künye Durumu
293696
An integrated architecture for information extraction from documents in Turkish / Türkçe belgelerden bilgi çıkarımı için tümleşik bir mimari
Yazar:ŞERİF ADALI
Danışman: PROF. DR. A. COŞKUN SÖNMEZ
Yer Bilgisi: İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Bilgi çıkarımı = Information extraction ; Doğal dil işleme = Natural language processing
Onaylandı
Doktora
İngilizce
2009
131 s.
Bu çalısmada bir belge alanına ait eylemler ve iliskili bilgilerin çıkarılması için ontolojitabanlı bilgi çıkarımı teknikleri ile belge yapı analizi teknikleri bir arada kullanılmıstır.Önerilen ?Kavram Bölme? tekniği sayesinde çıkarım eylemleri kolaylıklatanımlanmakta ve çıkarım sisteminin yeni bir alana tasınması hızlandırılmakta, ayrıcametin sablonları kullanmaya gerek kalmadan çok küçük bir bilgi tabanı ile basarılısekilde çıkarımlar yapılabilmektedir. Önerilen mimarinin kısıtlı belge alanı veuygulamalarında yüksek basarı sağladığı görülmüstür. Ayrıca yaklasım tablolu, listelive maddesellestirilmis yapıdaki metinlerden veri çıkarımı konusunda yüksek basarısağlamıstır. Çıkarım ontolojisi kullanılarak yaklasım, bilinmeyen bir eyleme en yakıneylemi bulmak için kural tabanında tanımlı olan kavramlar ile metinde yer alankavramlar arasındaki benzerliği hesaplamakta ve bu bilgiye dayalı olarak kullanıcısisteme kademeli sekilde yeni çıkarım kavramlarını, anahtar kavram birimlerini vekavram özelliklerini eklemektedir. Yaklasım aynı zamanda yeni kesfedilmis verileriontolojiye örnekleri olarak ekleyerek ontolojiyi zenginlestirmektedir. Deneysel sonuçlarayrıca yüksek basarımlı belge isleme için yeterli sayıda sözlüksel kaynağa, çıkarımkavramına ve belge yapı tanımlamasına ihtiyaç duyulduğunu göstermektedir. Ayrıcabelge yapı analizi bilinmeyen varlık tiplerinin çıkarımında kullanılmakla birlikte,eylemlerle iliskilendirilmis anahtar değerler kullanılarak çıkarımı yapımıs bilgiler ve bubilgiler arasındaki iliskiler kontrol edilmektedir.
In this study, ontology based information extraction and document layout analysistechniques are integrated for extracting domain specific events and entities. Proposed?Concept Zoning? technique provides easy definition of extraction concepts andincreases portability of the IE system and requires only concept definitions whencompared to approaches that rely on large sets of linguistic patterns. Proposedarchitecture works well when applied to restricted domain applications. It alsosuccessfuly detects data in tabular, list or itimized form. In case of an unknown event,concept similarity is calculated by comparing the concepts in the input document againstthe concepts in the ontology and new attributes, key concept nodes and conceptsproperties are incrementally added to the knowledge base by the user. Domain ontologyis enriched by adding newly discovered instances. Experimental results indicate that ahigh performance document processing system has to cover enough number of lexicalresources, extraction concepts and document models. In addition, document layoutanalysis is used for detecting unknown entity types and approach verifies extractedinformation and relations among them by using key values defined for each domainevent.