Tez No İndirme Tez Künye Durumu
733018
A modified autoencoder approach for feature selection / Öznitelik seçimi için modifiye edilmiş bir otokodlayıcı yaklaşımı
Yazar:GÖZDE ÖZSERT YİĞİT
Danışman: DOÇ. DR. MUSTAFA ORAL
Yer Bilgisi: Çukurova Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning ; Makine öğrenmesi = Machine learning ; Otokodlayıcılar = Autoencoders ; Öznitelik seçimi = Attribute selection ; İlaç hedefleme = Drug targeting
Onaylandı
Doktora
İngilizce
2022
162 s.
Teknoloji ilerledikçe, veri boyutları da büyümeye başladı. Bu da anlamlı bilginin çıkarılmasında çeşitli zorlukları beraberinde getirdi. Bunun sonucunda yeni veri analiz yöntemleri ortaya çıkmıştır. Veri toplama günlük hayatımızın her yerinde olduğu için, veriler de birçok gereksiz ve fazla kayıt içermektedir. Verilerin kullanışlı kısımlarını belirlemek için, öznitelik seçme algoritmaları uzun zamandır kullanılmaktadır. Ancak, bu algoritmalar büyük ölçekli verilerle başa çıkmak için daha da geliştirilmelidir. Bu tezde otomatik kodlayıcı tabanlı yeni bir öznitelik seçme algoritması geliştirdik. Otomatik kodlayıcının geleneksel kullanımından farklı olarak, bu çalışmada dönüştürülmüş veriler yerine eğitilmiş ağırlık değerleri kullanılmıştır. Bu önerdiğimiz yöntemin arkasındaki ana fikir, bir girdinin ortalama ağırlığının yüksek olması durumunda kullanışlı bir özellik olması gerektiğidir. Bu basit ama etkili yöntem 5 farklı veri seti üzerinde test edilmiştir. 3 tanesi Kaggle ve UCI depolarından alınan standart veri kümeleridir. Biri ise verilerin dengesiz doğası nedeniyle sınıflandırılması çok zor olan ilaç hedefi tahmin veri setidir. Önerilen yöntem, standart veri setleri üzerinde iyi sonuçlar verirken, sadece önerilen yöntem değil, aynı zamanda test edilen diğer tüm yöntemler de, veri setinin dengesiz doğası nedeniyle ilaç-hedef etkileşimi veri setinde çok düşük sonuçlar vermiştir. Anahtar kelimeler: Makine Öğrenme, Derin Öğrenme, Öznitelik Seçimi, İlaç-hedef Etkileşimi, Otokodlayıcılar
As the technology improves, data sizes have become huge. This also brought difficulties in extraction of meaningful information. As a result, new data analysis methods have emerged. Since data collection is everywhere in our daily life, data includes many redundant and unnecessary records and features. To identify useful part of data, feature selection algorithms have been used for a long time. However, those algorithms should be improved to deal with large scale data. In this thesis, we developed a new autoencoder based feature selection algorithm. Unlike traditional use of autoencoder, in this study, trained weight values are utilized instead of transformed data. The main idea behind the method is if the average weight of an input is high, it should be a useful feature. This simple but effective method was tested on 5 different datasets. 4 of them are standard datasets from Kaggle and UCI repositories. One of them is drug-target prediction dataset which is very difficult to classify due to imbalance nature of the data. While proposed method provided good results on standard datasets, not only proposed method but also all other tested methods provided very low results on drug-target interaction dataset due to the imbalanced nature of the dataset. Key Words: Machine learning, Deep learning, feature selection, drug-target interaction, autoencoders