Tez No İndirme Tez Künye Durumu
788809
İlaç-bitki etkileşimleri için bir veri kümesi oluşturulması ve makine öğrenmesi ile tahminlenmesi / Creating a dataset for drug-herb interactions and prediction with machine learning
Yazar:ERKAN YAŞAR
Danışman: DR. ÖĞR. ÜYESİ ÖZGÜR GÜMÜŞ
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğal dil işleme = Natural language processing
Onaylandı
Doktora
Türkçe
2022
137 s.
nsanlık yazılı kaynaklardan önceki ve sonraki binlerce yıldır hastalıklardan korunmak ve hastalıkları tedavi etmek amacıyla şifalı bitkileri kullanmıştır. Son iki yüzyılda ise sanayi ve teknoloji alanında dünyada meydana gelen devrim niteliğindeki gelişmeler sağlık alanında da kendine yer bulmuş ve hastalıkları tedavi etmek amacıyla reçeteli (sentetik) ilaçlar geliştirilmiştir ve tedavi için bitkilerin yerini almışlardır. Bu gelişmelere rağmen bitkisel ilaçların doğal olması kanısı nedeniyle kanser gibi ciddi hastalıkları olan hastalar, tedavinin daha da etkin olabilmesi amacıyla sağlık danışanlarına haber vermeden bitkisel ilaçları reçeteli ilaçlar ile birlikte almaya devam etmektedirler. Ancak şifa niyetine kullanılan bu bitkisel ilaçlar reçeteli ilaçlarla birlikte eş zamanlı olarak alındıklarında istenmeyen (advers) ciddi etkileşimlere girmekte ve tedavinin başarısız olmasına neden olmaktadırlar. Bitki ve ilaçların eş zamanlı alınmasından kaynaklı etkileşimleri bulmak ve gelecekte meydana gelebilecek potansiyel etkileşimleri tahmin edebilmek için veri kümelerine ve makina öğrenmesi tekniklerine ihtiyaç vardır. Ancak bu konu hakkında sınırlı çalışmalar yapılmıştır. Bunun en büyük nedenlerinden biri, bu araştırmaları sonuçlandırabilecek herhangi kapsamlı bir veri kümesinin henüz bulunmaması ve ayrıca standart bir metodolojinin olmamasıdır. Literatürde bitki ilaç etkileşimi ile ilgili yapılan en kapsamlı çalışmalar biyomedikal literatürde yapılandırılmamış düz metin şeklinde araştırma makalelerinde yer almaktadır. Bu bağlamda bu tez çalışmasında milyonlarca makalenin yer aldığı biyomedikal literatürden ilaç ve bitki varlıklarının birlikte geçtiği cümleleri ve dokümanları otomatik olarak yakalayabilen ve bu varlıklar arasında, ilişki olup olmadığını tespit eden ve ilişkinin tipini ortaya çıkartan bilgi çıkarım (information extraction) sistemlerinin alt dalı olan makina öğrenmesi (SVM, Random Forest, vi KNN) ve son teknoloji derin sinir ağı tabanlı (Tok2vec, BERT, RoBERTa, BioBERT) Adlandırılmış Varlık Tanıma (Name Entity Recognition- NER) ve İlişki Çıkarım (Relationship Extraction-RE) modelleri geliştirilmiştir. Ayrıca kural ve makina öğrenmesinin birleştiği zayıf denetimli öğrenme tabanlı bir ilişki çıkarım modelide geliştirilmiştir. Bu modellerin performansları birbiri ile karşılaştırılarak en yüksek performansı veren model temel (baseline) model olarak ele alınmıştır. Bu modellerin geliştirilebilmesi için eğitim veriseti olarak kullanılabilecek altın standart derlemlere ihtiyaç vardır. Bu nedenle bu tez çalışmasında 3 altın standart derlem geliştirilmiştir. İlk olarak bitki ve ilaç etkileşimleri ile ilgili bilgilerin ve PubMED makale özetlerinin yer aldığı bir veriseti hazırlanmıştır. 680 adet makale özetindeki bitki ve ilaç varlıkları alan uzmanı küratörler tarafından hazırlanan bir protokole göre etiketlenerek varlık etiketli altın standart bir derlem hazırlanmıştır. İkinci olarak bitki ve ilaç varlıkları arasındaki ilişkiler etiketlenerek 100 adet makale özeti ilişki türü (farmakokinetik ve farmakodinamik etkileşimler) seviyesinde etiketlenmiştir ve son olarak 150 adet makale özeti ise ilişki tespit (POSITIVE, NEGATIVE, UNCERTAIN) seviyesinde etiketlenerek altın standart derlemler oluşturulmuştur.
For thousands of years before and after written sources, humanity has used medicinal herbs to prevent and cure diseases. In the last two centuries, revolutionary developments in the world have found their place in the field of health and prescription drugs have been developed to treat diseases and have replaced herbs for treatment. Despite these developments, patients with serious diseases such as cancer, due to the belief that herbal medicines are natural, In order to make the treatment more effective, they continue to take herbal medicines together with synthetic prescription drugs without informing their health clients. However, when these herbal medicines used for healing purposes are taken simultaneously with prescription drugs, they enter into serious adverse interactions and cause the treatment to fail. Databases and machine learning techniques are needed to find interactions caused by simultaneous intake of herbs and drugs and to predict potential future interactions. However, limited studies have been done on this subject. One of the biggest reasons for this is that there is not yet any comprehensive database that can conclude these studies, and also that there is no standard methodology. The most comprehensive studies on herb drug interaction in the literature are in unstructured plain text research articles in the biomedical literature. In this context, in this thesis, machine learning and deep learning-based "named entity recognition" and "relationship extraction" models have been developed that can automatically capture sentences and documents from the biomedical literature where drug and plant entities go together, and reveal whether there is a relationship and the type of relationship between these entities. viii In order to develop these models, gold standard corpus that can be used as training datasets are needed. Therefore, 3 gold standard corpus has been developed in this thesis. First, a dataset containing information on plant and drug interactions and PubMED article summaries was prepared. A gold standard corpus was prepared by labeling the herb and drug entities in 680 article abstracts according to a protocol prepared by field expert curators. Secondly, by labeling the relationships between herb and drug entities, 100 article abstracts were labeled at the relationship type (pharmacokinetic and pharmacodynamic interactions) level, and finally, gold standard corpus was created by labeling 150 article abstracts at the relationship detection level (POSITIVE, NEGATIVE, UNCERTAIN).