Tez No İndirme Tez Künye Durumu
648183
Perturbation-response and noise dynamics in proteins and representation learning for biomolecular simulations / Proteinlerde pertürbasyon-tepki ve gürültü dinamiği ve biyomoleküler simülasyonlarda temsil öğrenme
Yazar:YASEMİN BOZKURT VAROLGÜNEŞ
Danışman: PROF. DR. ALPER DEMİR
Yer Bilgisi: Koç Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering ; Polimer Bilim ve Teknolojisi = Polymer Science and Technology
Dizin:Boyut indirgeme = Reduction of dimensionality ; Derin öğrenme = Deep learning ; Devre analizi = Circuit analysis ; Devre benzetimi = Circuit simulation ; Kanal sığası = Channel capacity ; Makine öğrenmesi = Machine learning ; Moleküler dinamik benzetimi = Molecular dynamic simulation ; Protein bağlama = Protein binding ; Sinyal-gürültü oranı = Signal-noise rate ; Sistem teorisi = System theory
Onaylandı
Doktora
İngilizce
2020
228 s.
Biyomoleküllerin analizinde standart bir araç olan moleküler dinamik simülasyonları, ayrıntılı ve doğru karakterizasyonlar sağlamakla birlikte bu simülasyonların hesaplama maliyeti yüksektir. İlgilenilen sistemleri anlamayı sağlamak için çeşitli daha verimli hesaplama yöntemleri geliştirilmiştir. Bu tez, proteinlerin pertürbasyon-tepki ve gürültü dinamiklerini analiz etmek için elektrik devresi analizinde kullanılan araçları adapte ederek ve yeniden kullanarak ve makine öğrenmesinde kullanılan boyut azaltma teknikleri aracılığı ile yüksek boyuttaki simülasyon verisinin altında yatan esas nitelikleri çıkartmaya imkan sağlayarak bu alandaki çalışmalara katkı sağlamaktadır. Proteinlerin ligandlarla etkileşimleri, sadece statik, zamanla değişmeyen işlemlerin aksine dinamik özellikleri ile belirlenir. Elektronik devre tasarımında yaygın olarak kullanılan bir frekans analiz tekniğinden esinlenerek, küçük ölçekli fonksiyonel protein hareketlerinin yanı sıra proteinlerin ligandlarla doğrudan etkileşimlerinin analizinde kullanılabilecek ProteinAC (PAC) adını verdiğimiz yeni bir frekans etki alanı hesaplama tekniği öneriyoruz. Bu teknik daha önce önerilen statik pertürbasyon-tepki yöntemlerinin pertürbasyon frekansının kilit rol oynadığı genelleştirilmesi olarak kabul edilebilir. Pertürbasyon frekansının protein dinamiklerinde önemli bir faktör olabileceğini gösteriyoruz. Ayrıca, tepki davranışını karakterize etmek için frekansa bağlı birkaç yeni metrik sunuyoruz. Alosteri-ligand bağlanması ile uzak fonksiyonel bölgelerin aktivitesinde değişiklikler gözlemlendiği fenomen-kavramsal olarak bir girişteki (bağlanma bölgesi) sinyalin (ligand) yayılarak çıkışa (uzak etkilenen bölge) ulaştığı ağlı bir iletişim ortamında noktadan noktaya telekomünikasyon olarak kavramsallaştırılabilir. Sinyalin uzak bölgelere kadar güvenilir bir şekilde iletimi, proteini etkileyen tüm bozan etkenlere (gürültü) rağmen gerçekleşir. Bu bakış açısına dayanarak, proteinin bir bölgesinde meydana gelen bağlanma bölgesine ligand uyarımına bağlı yer değiştirmeleri ve gürültüden kaynaklanan dalgalanmaları frekans etki alanında inceleyen hesaplamalı bir çerçeve öneriyoruz. Ligand varlığındaki yer değiştirmeleri ve yokluğundaki dalgalanmaları karakterize ediyoruz. İlk durumda, ligandın etkisi harici bir dinamik salınım kuvveti uyarımı olarak modellenirken, ikincisinde tek dalgalanma kaynağı, çevre ortamı ile etkileşimlerden kaynaklanan ve dahili protein ağı dinamikleri tarafından şekillendirilen gürültüdür. Uyarım frekansını sadece liganddan kaynaklanan yer değiştirmelerin sadece gürültü nedeniyle oluşana oranı olarak tanımladığımız Sinyal-Gürültü oranına (SNR) dayalı bir analizde anahtar bir faktör olarak tanıtıyoruz. Daha sonra yeni allosterik bölgeleri keşfetmek için bir yol sağlayacak SNR tabanlı karakterizasyonu genişleten bir bilgi teorik (iletişim) kanal kapasite analizi kullanıyoruz. Moleküler simülasyonlardan elde edilen muazzam miktarda veriden içgörü elde etmek, karşılık gelen düşük boyutlu serbest enerji manzaralarında, altta yatan sistemin temel özelliklerini koruyan az sayıda kolektif değişkenin tanımlanmasını gerektirir. Veriye dayalı teknikler, ilgili itici kuvvetlere dair kapsamlı sezgiye ihtiyaç duymadan bu manzarayı oluşturmak için sistematik bir yol sağlar. Özellikle, otokodlayıcılar, doğal olarak bir bilgi darboğazını ve dolayısıyla temel özelliklerin düşük boyutlu olarak gömülmesini zorladıkları için boyutsallığın azaltılmasında kullanılan güçlü araçlardır. Varyasyonel oto-kodlayıcılar, öncül olarak tek modlu bir Gauss varsayarak gömülmenin sürekliliğini sağlarken, bu, tipik olarak anlamlı kolektif değişkenlerin tanımlanmasından kaynaklanan çok havzalı serbest enerji manzaraları ile çelişmektedir. Bu çalışmada, gömülme içinde metastabil durumların ayrılmasını teşvik eden bir Gauss karışımı varyasyonel oto-kodlayıcısı (GMVAE) kullanarak bu fiziksel sezgiyi öncüle dahil ediyoruz. GMVAE, tek bir birleşik çerçeve içinde boyutsallık azaltma ve kümeleme işlemlerini gerçekleştirir ve verileri sınıflandırmak için gereken Gauss dağılımı sayısı bakımından girdi verilerinin doğal boyutsallığını belirleme yeteneğine sahiptir. Ortaya çıkan gösterimler ayrıca, boyut indirgemesinin statik denge özelliklerinden dinamiklere aktarılabilirliğini vurgulayarak Markov durum modellerinin oluşturulması için temsiller sağlar.
Molecular Dynamics simulations, the standard tool for analyzing biomolecules, provide detailed and accurate characterizations but at the expense of tremendous computational cost. A variety of more efficient computational methods have been developed in order to enable the understanding of practical systems of interest. This thesis contributes to this body of work by adapting and repurposing tools from electrical circuit analysis for analyzing the perturbation-response and noise dynamics of proteins, and by applying dimensionality reduction techniques from machine learning for identifying and extracting the essential features of biomolecules from large amounts of simulation data. The interactions of proteins with ligands are determined by their dynamic characteristics as opposed to only static, time-invariant processes. Inspired by a frequency domain analysis technique from electronic circuit design, we propose a novel computational technique that can be used to analyze small scale functional protein motions as well as interactions with ligands directly in the frequency domain. It can be considered as a generalization of previously proposed static perturbation-response methods, where the frequency of the perturbation becomes the key. We show that the frequency of the perturbation may be an important factor in protein dynamics. Furthermore, we introduce several novel frequency dependent metrics in order to characterize response behavior. Allostery-a phenomenon in which the binding of a ligand induces alterations in the activity of remote functional sites-can be conceptually viewed as point-to-point telecommunication in a networked communication medium, where a signal (ligand) arriving at the input (binding site) propagates through the network (interconnected and interacting atoms) to reach the output (remote functional site). The reliable transmission of the signal to distal points occurs despite all the disturbances (noise) affecting the protein. Based on this point of view, we propose a computational frequency-domain framework to characterize the displacements and the fluctuations in a region within the protein, originating from the ligand excitation at the binding site and noise, respectively. We characterize the displacements in the presence of the ligand, and the fluctuations in its absence. In the former case, the effect of the ligand is modeled as an external dynamic oscillatory force excitation, whereas in the latter, the sole source of fluctuations is the noise arising from the interactions with the surrounding medium that is further shaped by the internal protein network dynamics. We introduce the excitation frequency as a key factor in a Signal-to-Noise ratio (SNR) based analysis, where SNR is defined as the ratio of the displacements stemming from only the ligand to the fluctuations due to noise alone. We then employ an information-theoretic (communication) channel capacity analysis that extends the SNR based characterization by providing a route for discovering new allosteric regions. Extracting insight from the enormous quantity of data generated from molecular simulations requires the identification of a small number of collective variables whose corresponding low-dimensional free-energy landscape retains the essential features of the underlying system. Data-driven techniques provide a systematic route to constructing this landscape, without the need for extensive a priori intuition into the relevant driving forces. In particular, autoencoders are powerful tools for dimensionality reduction, as they naturally force an information bottleneck and, thereby, a low-dimensional embedding of the essential features. While variational autoencoders ensure continuity of the embedding by assuming a unimodal Gaussian prior, this is at odds with the multi-basin free-energy landscapes that typically arise from the identification of meaningful collective variables. In this work, we incorporate this physical intuition into the prior by employing a Gaussian mixture variational autoencoder (GMVAE), which encourages the separation of metastable states within the embedding. The GMVAE performs dimensionality reduction and clustering within a single unified framework, and is capable of identifying the inherent dimensionality of the input data, in terms of the number of Gaussians required to categorize the data. The resulting embeddings also provide representations for constructing Markov state models, highlighting the transferability of the dimensionality reduction from static equilibrium properties to dynamics.