Tez No İndirme Tez Künye Durumu
778581
The text-mining based neighboring and automated annotation of pubchem bioassays / Pubchem bioassays için metin madenciliği tabanlı komşuluk ve otomatik anotasyonu
Yazar:TUĞBA SÜZEK
Danışman: PROF. DR. JEFFREY SOLKA
Yer Bilgisi: George Mason University / Yurtdışı Enstitü / Biyoenformatik Ana Bilim Dalı / Hesaplamalı Bilim ve Mühendislik Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2012
123 s.
PubChem'de depolanan Yüksek Verimli Testlerin (HTS), yani BioAssay'lerin sayısı son yıllarda hızla arttı. BioAssay'ler için şu anda mevcut olan gruplama araçlarının ve tekli erişim analizi yaklaşımlarının, hızla artan veri hacmi ile pratik olmadığı ortaya çıktı. Bu çalışmada, yapılandırılmamış metin açıklamaları kullanılarak BioAssay'lerin otomatik komşuluğuna ve ek açıklamasına yönelik metin madenciliği tabanlı bir yaklaşım önerilmiştir. Mevcut test komşu yöntemleriyle karşılaştırıldığında test komşu kümeleme analizinden elde ettiğimiz sonuçlar, biyoanalizler arasındaki güçlü korelasyonların kavramsal ilgilerinden belirlenebileceğini ve PubChem'deki mevcut komşu yöntemleri tamamlayabileceğini göstermektedir. Tek bir yapılandırılmamış metin belgesinden anahtar sözcükler çıkarmak için yeni bir yöntem açıklanmakta ve yöntemin BioAssay açıklamalarına uygulandığında karşılaştırmalı performansı rapor edilmektedir. Son olarak, BioAssay metin açıklamalarının, prob kriterlerini karşılayan kimyasal maddelerin keşfine yönelik otomatik biyomedikal açıklamalarının sonuçları sunulmaktadır.
The number of High Throughput Assays (HTS), namely BioAssays, deposited in PubChem has grown quickly in recent years. Currently available grouping tools and single retrieval analysis approaches for the BioAssays turned out to be impractical with the rapidly increasing volume of data. In this work, a text-mining based approach is proposed towards automated neighboring and annotation of BioAssays using their unstructured text descriptions. Our results from assay neighbor clustering analysis compared to the existing assay neighboring methods suggest that strong correlations among the bioassays can be identified from their conceptual relevance and complement existing neighboring methods in PubChem. A novel method to extract keywords from a single unstructured text document is described and the comparative performance of the method when applied to the BioAssay descriptions is reported. Finally results of the automated biomedical annotation of the BioAssay text descriptions towards the discovery of chemical substances that satisfy the probe criteria are presented.