Tez No İndirme Tez Künye Durumu
587205
Ontology-based entity tagging and normalization in the biomedical domain / Biyomedikal alanda ontoloji tabanlı varlık ismi etiketleme ve normalizasyonu
Yazar:ZEYNEP İLKNUR KARADENİZ EROL
Danışman: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2019
132 s.
Biyomedikal alandaki zorluklardan biri, elektronik kaynakların ve bu kaynaklardaki gömülü bilgilerin fazla olması ve hızla artmaya devam etmesidir. Biyomedikal varlıkların isimlerini bu elektronik kaynaklardaki metinlerde otomatik olarak belirlemek i ̧cin metin madenciliği yöntemleri geliştirmek ve bu varlıklar arasındaki ilişkileri belirlemek, birçok alandaki araştırmayı kolaylaştırmak için çok önemlidir. Bu hedefe ulaşmak için çözülmesi gereken iki ana sorun, belirli bir metindeki varlık isimlerinin belirlenmesi ile normalizasyonu ve bu varlıkların arasındaki ilişkilerin tanımlanmasıdır. Bu tezde, biyomedikal alandaki varlık isimlerinin metinlerden çıkarılması ve normalizasyonu için iki farklı bakış açısına sahip iki yeni yaklaşım önerilmiştir. Birinci yaklaşımda, metinlerdeki varlık isimlerini belirlemek ve onların bir ontoloji yoluyla normalizasyonunu sağlamak için sığ dilbilimsel bilgiden yararlanılmıştır. Öte yandan, ikinci yaklaşımda, metindeki varlık isimlerinin normalizasyonu için anlamsal bilgi içeren sözcük gömme işlemleri kullanılmıştır. Sözcük gömme temelli yaklaşım, BioNLP 2016 Bakteri Biyotop veri kümesi üzerinde mevcut yöntemlerden daha başarılı sonuçlar elde etmiştir. Önerilen yöntemlerin herikisi de denetimsizdir ve farklı alanlara uyarlanabilir. Ayrıca bu tezde, iki ayrı uygulama sunulmuştur. Birinci uygulama, bakterilerin biyotop bilgilerinin bilimsel özetlerden ̧cıkarılması için önerdiğimiz yaklaşımlara dayanan modüllerden oluşan bir sistemdir. Diğer uygulama ise, biyomedikal literatürden Brusella- konak etkileşimi ile ilgili verileri çıkarmak için geliştirilmiştir; bu uygulamanın sonuçları, biyomedikal ilişki çıkarımı için bir cümleden daha geniş bir bağlam kullanmanın önemini ortaya koymaktadır.
One of the challenges for scientists in the biomedical domain is the huge amountand the rapid growth of information buried in the text of electronic resources. Developing text mining methods to automatically extract biomedical entities from thetext of these electronic resources and identifying the relations between the extractedentities is crucial for facilitating research in many areas in the biomedical domain. Two main problems, which have to be solved to accomplish this goal, are the extraction andnormalization of entities, and the identification of the relations between them from agiven text.In this thesis, we proposed two approaches with two different perspectives for the extraction and normalization of biomedical named entities. The first approach makesuse of shallow linguistic knowledge to extract entities and normalize them through anontology. On the other hand, the second approach makes use of word embeddings, which convey semantic information, for the normalization of the entities in a giventext. The word-embedding based approach obtained the state-of-the-art results on theBioNLP Shared Task 2016 Bacteria Biotope data set. Both of the proposed methodsare unsupervised and can be adapted to different domains. We also developed twoapplications, one of which is a pipeline, which is composed of modules based on theapproaches that we proposed in this thesis, for the extraction of bacteria biotope information from scientific abstracts. The other application is developed for extracting Brucella-host interaction relevant data from the biomedical literature, whose resultsreveal the importance of using a wider context than a sentence for biomedical relation extraction.