Tez No İndirme Tez Künye Durumu
654150
Yapay arı kolonisi temelli lojistik regresyon sınıflayıcıların optimal tasarımı ve türkçe spam maillerin filtrelenmesinde başarımlarının incelenmesi / Optimal design of artificial bee colony based logistic regression classifiers and analysis of their performances in filtering turkish spam e-mails
Yazar:BİLGE KAĞAN DEDETÜRK
Danışman: PROF. DR. BAHRİYE AKAY
Yer Bilgisi: Erciyes Üniversitesi / Fen Bilimleri Enstitüsü / Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
104 s.
Spam e-posta, iletişim kalitesini düşüren, alıcıları rahatsız eden ve zamanlarını boşa harcayan ciddi bir problemdir. Bu problemin çözümü, e-postaları spam veya normal olarak sınıflandırmak ve spam e-postaları elemektir. Bu sınıflandırma problemini çözmek için pek çok yöntem önerilmiştir. Makine öğrenmesi yöntemleri bir e-postayı istenen veya istenmeyen olarak sınıflandırmada etkili olduklarından dolayı spam tespit sistemlerinde yaygın olarak kullanılmaktadır. Fakat mevcut spam tespit teknikleri genellikle düşük tespit oranlarından muzdarip olurlar ve etkili bir şekilde karmaşık ve büyük boyutlu verilerin üstesinden gelemezler. Bu problemlerin üstesinden gelmek amacıyla bu tez çalışmasında üç yeni yöntem (ABC-LR, CSA-LR, ABC-CSA-LR) önerilmiştir. Veri kümeleri üzerinde yapılan deneylerin sonuçları, önerilen yöntemlerin özellikle de ABC-LR ve ABC-CSA-LR yöntemlerinin sahip olduğu yüksek oranda etkili bölgesel ve küresel arama yeteneklerinden dolayı çok boyutlu verilerle başa çıkabildiğini göstermektedir. Önerilen yöntemlerin literatürde bilinen makine öğrenmesi algoritmalarıyla kıyaslanmalarına ek olarak geçmiş çalışmalardan literatürde bilinen ve güncel yöntemlerle de karşılaştırılmıştır. Sınıflandırma doğruluğu açısından önerilen yöntemlerin bu çalışmada göz önünde bulundurulan diğer spam tespit tekniklerinden daha üstün olduğu deneysel olarak gösterilmiştir. Ayrıca Türkçe ve İngilizce veri kümeleri üzerinde gösterdikleri yüksek başarıdan dolayı önerilen yöntemlerin diller arasındaki yapısal farklılıkların üstesinden gelebildikleri anlaşılmaktadır.
Spam e-mail is a serious problem that reduces communication quality, annoys recipients and wastes their time. The solution to this problem is to classify e-mails as spam or normal and eliminate spam e-mails. Many methods have been proposed to solve this classification problem. Machine learning methods are widely used in spam detection systems because they are effective in classifying an email as desired or unsolicited. However, current spam detection techniques often suffer from low detection rates and cannot effectively deal with complex and high-dimensional data. In order to overcome these problems, three novel methods (ABC-LR, CSA-LR, ABC-CSA-LR) have been proposed in this study. The results of experiments on datasets show that the proposed methods, especially the ABC-LR and ABC-CSA-LR, are able to cope with multi-dimensional data due to their highly effective local and global search capabilities. In addition to comparing the proposed methods with the state-of-the-art machine learning algorithms, they were also compared with the state-of-the-art methods reported by previous studies. It has been experimentally demonstrated that the proposed methods outperforms other spam detection techniques considered in this study in terms of classification accuracy. In addition, it is understood that the proposed methods can efficiently overcome the structural differences between languages due to their quite successful classification performances on Turkish and English data sets.