Makine öğrenmesi (yapay öğrenme), eldeki verileri en iyi temsil eden modeli ve parametrelerini bulmak amacıyla geliştirilen algoritmaları içerir. Tezde çeşitli makine öğrenmesi algoritmaları geliştirilmiştir. Günümüzde incelenmesi ve yorumlanması gereken veri miktarı üssel bir biçimde artmaktadır. Bu durum makine öğrenmesinin tüm sektörlerin ihtiyaç duyduğu bir alan haline gelmesine sebep olmuştur. Tezin uygulama alanı olarak, bu sektörlerden biri olan ilaç tasarımı seçilmiştir.İlaçların insan sağlığına olan olumlu etkisi bilinmektedir. Yeni ilaç tasarımı bu nedenle çok önemli ve vazgeçilmezdir. Buna karşılık çok emek ve uzun zaman isteyen ve buna bağlı olarak çok büyük maliyetler içeren bir sektördür. Yüksek maliyet sebebiyle az sayıda firma tarafından gerçekleştirilebilmektedir. Türkiye'de bu alandaki mevcut çalışmalar sınırlı olmakla birlikte TÜBİTAK tarafından yayınlanan raporda ilaç tasarımı, 2003-2023 yıllarını kapsayan dönemde öncelikli teknolojik faaliyet konuları içinde yer almaktadır.İlaç tasarımı sürecinin ve maliyetinin önemli bileşenlerinden biri olası ilaç moleküllerinin seçilmesi işlemidir. Bu seçim işlemleri genelde; sınıflandırma, kümeleme, özellik seçimi/çıkarımı, regresyon (eğri uydurma) problemlerinden bir ya da birkaçını içermektedir. Bu tarz problemlere çözüm üretmeyi amaçlayan makine öğrenmesi metotları yardımıyla ilaç tasarımının süresi ve maliyeti azaltılabilmektedir.Görüldüğü gibi ilaç tasarımı problemlerinde makine öğrenmesinin neredeyse tüm alanlarına ihtiyaç duyulmakta ve kullanılmaktadır. Bu nedenle de tezde makine öğrenmesinin birçok alanını kapsayacak bir çalışma gerçekleştirilmiştir.Sınıflandırma problemleri için Cline adı altında bir algoritma ailesi tasarlanmıştır. Geliştirilen algoritmalar temelde karar ağacı oluşturma algoritmalarıdır. Karar ağaçları, yüksek performansları ve ürettikleri kuralların verinin yapısına ait çıkarımlar yapmayı kolaylaştırması sebebiyle oldukça popüler olmuş makine öğrenmesi algoritmalarındandır. Yapılan denemelerde geliştirilen algoritmaların basitliklerine rağmen UCI ve ilaç veri kümelerinde mevcut algoritmalarla yarışabilecek performansta algoritmalar oldukları görülmüştür.Sınıflandırıcı komiteleri literatürdeki birçok çalışmada tekil sınıflandırıcılardan daha başarılı sonuçlar üretmiştir. Bu çalışmada da buna paralel sonuçlar alınmış ve Cline algoritma ailesine Cline karar ormanları eklenmiştir. UCI ve ilaç veri kümeleri üzerinde Cline karar ormanları mevcut algoritmalardan çok daha iyi sonuçlar sergilemiştir. Cline karar ağacı ve karar ormanları algoritmaları ClineToolbox adlı bir yazılımla kullanıcıların hizmetine sunulmuştur. Yazılıma tez sahibinin web sayfasından erişilebilir.Özellik seçimi problemleri için karar ağaçları ve karar ormanlarından yararlanan bir yaklaşım geliştirilmiş ancak tatmin edici sonuçlar elde edilememiştir.Kümeleme problemleri için Clusline adı altında bir algoritma ailesi geliştirilmiş ve mevcut algoritmalarla çeşitli kümeleme performans kriterlerine göre yarışan sonuçlar elde edilmiştir.Kümeleme komiteleri, sınıflandırıcı komitelerinin üstün performanslarından esinlenilerek geliştirilmiştir. Literatürdeki kümeleme komitelerinin farklı karar birleştirme teknikleri incelenmiş ve geniş bir veri kümesi üzerinde bu teknikler karşılaştırılmıştır. Literatürdeki mevcut karşılaştırmalardan daha kapsamlı olan bu çalışma bu konuda çalışanlara yol gösterici niteliktedir.Regresyon problemleri için verileri çeşitli alt uzaylarda kümelemeye dayalı bir yaklaşım geliştirilmiş ancak tatmin edici sonuçlar alınamamıştır.Regresyon komiteleri için, literatürdeki komite oluşturma, karar birleştirme metotlarının ve komitelerde yer alan regresyon algoritmalarının ilaç tasarımı veri kümelerinde performans üzerindeki etkileri incelenmiştir. Bu kapsamlı çalışmada, ilaç veri kümelerinde regresyon komitelerinin kullanımının sınıflandırma da olduğu kadar sonucu iyileştirmediği görülmüştür.Bütün veri kümelerinde diğer tüm algoritmalardan daha iyi sonuç veren global bir algoritma bulunmamaktadır. Bu nedenle, bir veri kümesinin hangi algoritma ile en iyi sonucu vereceği genelde deneme yanılma metoduyla bulunmaktadır. Literatürde bu eksikliği gidermek ve son kullanıcılara yardımcı kurallar dizisi oluşturabilmek için algoritmaların performanslarının veri kümesinin çeşitli özelliklerine göre tahmin edilmesi amacını taşıyan yaklaşımlar geliştirilmiştir. Bu yaklaşımların genel adı Meta-Öğrenim'dir. Mevcut Meta-öğrenim çalışmalarında genelde sınıflandırma problemleri üzerine çalışılmıştır. İlaç veri kümelerindeki problemlerin büyük bir kısmı regresyon türünden problemler olduğu için bu çalışmada yeni bir Meta-Regresyon yaklaşımı da geliştirilmiştir. Geliştirilen yaklaşımda Meta-öğrenimde kullanılan standart veri kümesi özelliklerine ek yeni özellikler de kullanılmıştır. Çalışma sonunda bir veri kümesi üzerinde bir algoritmanın performansı veri kümesinin çeşitli özelliklerine bakarak tahmin edilebilen bir model geliştirilmiştir. Bu sayede bir veri kümesinde en iyi performansı gösterecek algoritma da tahmin edilebilmektedir. Ayrıca veri kümelerinin ve algoritmaların birbirlerine benzerliklerine göre kümelenmesi konusunda da çalışılmıştır.Sonuç olarak bu tezde, makine öğrenmesinin çeşitli konularında birçok yeni yaklaşım geliştirilmiş ve bu konuda çalışan araştırmacılar ve son kullanıcılar için faydalı olacak sonuçlar üretilmiştir. Bu tezin hem ilaç tasarımı hem de makine öğrenmesi konularında Türkiye'de ve Dünya'da yapılan çalışmalara katkıda bulunması dileğimizdir.
|
Machine learning includes the algorithms which aim to find the best-fit model to the data. In this thesis, several machine learning algorithms are developed. Nowadays, the data need to be investigated is growing exponentially. Therefore, machine learning is needed in all sectors. Drug design is selected as the application area of the thesis.Drugs are very useful to maintain good health. This is why drug design very important and necessary. Drug design is also very costly, and requires much effort and time to develop. Because of heavy cost, only some large companies have the capability to work in this area. In a report by TUBITAK, drug design has been declared a research direction of high priority for Turkey during 2003 ? 2023 planning period.One of the important components of drug design and cost is the process of choosing potential drug molecules. Those choosing operations usually contain one or more of classifying, clustering, feature selection, regression problems. By using machine learning methods, that process time and cost involved in these operations, can be minimized.In drug design problems, all subjects in machine learning are almost used. So, in this thesis, a study that contains most such machine learning topics has carried out.For classification problems, a new algorithm family called Cline has been designed. These algorithms are decision tree induction algorithms. Although the algorithms are simple, experiments have shown that they have competitive performance as compared to existing algorithms on UCI and drug datasets.In previous studies, it has been observed that classifier committees have more successful results than single classifiers?. Also, in this study, similar results have been obtained. So Cline decision forests have been added to Cline algorithms family. Cline decision forests have produce better performance than existing algorithms on UCI and drug design. Those Cline decision tree and decision forest algorithms have been serviced to end users via Cline Toolbox application and web site of the thesis owner.For feature selection problems, an approach that uses decision tree and decision forest has been developed but needs further improvement.For clustering problems, an algorithm family called Clusline has been developed and some satisfying results have been achieved as compared to other existing algorithms.Clustering committees have been developed, inspired by the excellent performance of classifying committees. Different decision combination techniques of clustering committees in the literature have been investigated and compared. Our study is one of the most comprehensive studies, and our results can be used as a guideline for researchers.For regression problems, an approach based on data clustering in subspaces has been developed but needs further improvement.For regression committees, the effects of algorithms used in commitee, different generating and decision combination techniques of committees in the literature have been investigated and compared. The experiments on drug design datasets show that the usage of committees for regression problems gives more or less similar performance with single regressors.There is no global algorithm that always gives better result than other algorithms for all datasets. So, trial and error is the method to find the best algorithm for a dataset. To eliminate this lack and provide helper rule series to end users, approaches that aim to estimate algorithms? performance according to the meta features of datasets have been developed. Those approaches are called meta learning. Current meta learning studies are usually for classification problems. Given that most problems in drug data design are regression problems, in this study a new meta regression approach has been developed. By this approach, new meta features have also been extracted in addition to standard features used in meta learning. So, a new model has been developed that can estimate algorithm performance for a dataset by using various dataset features. In this way, the best performable algorithm for a dataset can be estimated in advance. Besides, clustering datasets and algorithms according to similarities have also been investigated.Consequently, in this thesis, many new approaches about various machine learning subjects have been developed and useful results for researchers and end users have been produced. It is our wish that this thesis contribute to studies about both drug design and machine learning research areas in Turkey and the world. |