Tez No İndirme Tez Künye Durumu
733458
Sahte internet sitelerinin URL özellikleri temelinde tespit edilmesi amacıyla özellik seçme metotlarının ve öğrenme algoritmalarının analizi / Analysis of feature selection methods and learning algorithms for phishing websites detection based on URL
Yazar:MUSTAFA AYDIN
Danışman: PROF. DR. SEVİNÇ GÜLSEÇEN ; PROF. DR. KUTLUK KAĞAN SÜMER
Yer Bilgisi: İstanbul Üniversitesi / Fen Bilimleri Enstitüsü / Enformatik Ana Bilim Dalı / Enformatik Bilim Dalı
Konu:Bankacılık = Banking ; Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Derin öğrenme = Deep learning ; Makine öğrenmesi = Machine learning ; Oltalama = Phishing
Onaylandı
Doktora
Türkçe
2022
115 s.
Oltalama saldırıları, kimlik avcılarının sahte bir internet sitesini yasal bir site gibi göstererek internet kullanıcılarını inandırdığı saldırılardır. Özellikle finansal hassas bilgileri çalmak için kullanılan oltalama saldırıları kullanıcılar için kritik bir tehdit oluşturmakta ve oltalama saldırılarından kaynaklanan kayıplar artmaya devam etmektedir. Yapılan çalışmalar ve elde edilen istatistikler genel olarak değerlendirildiğinde oltalama saldırıları gerek küresel çapta gerek Türkiye çapında mücadele edilmesi gereken kritik siber güvenlik konularından birisi olmaya devam etmektedir. Oltalama sitelerinin engellenmesine yönelik çalışmalara başlamadan önce tespit başarısını arttırmak amacıyla bu sitelerin belirgin ve ortak özellikleri tespit edilmelidir. Bu çalışmada oltalama sitelerinin en belirgin tespit edilebilir özelliklerinden birisi olan URL içeriği üzerinde durulmuştur. Bu amaç doğrultusunda literatürde kabul edilen performans metriklerine bağlı olarak yüksek başarı oranına sahip bir sınıflandırıcı iş akışı modeli önerisi hedeflenmiştir. Oltalama amaçlı kullanılan URL adreslerinin tespiti için bu çalışmada 2 farklı model kullanılmıştır. İlk modelde oltalama saldırısı tespiti amaçlı oluşturulan veri kümesi üzerinde bazı özellik seçme yöntemlerinin ve sınıflandırma algoritmalarının performansı analiz edilmiştir. Araştırmadaki temel amaç, farklı sınıflandırma algoritmalarının ve farklı özellik seçme yöntemlerinin birbirleriyle olan en iyi uyumluluğunu bularak sahte internet sitesi tespit doğruluğunu maksimize etmektir. Bu çalışmada, Korelasyon alt küme tabanlı, Tutarlılık alt küme tabanlı, Kazanç Oranı nitelik tabanlı ve Relief-F nitelik tabanlı özellik seçme yöntemleri ve Naïve Bayes, SMO (Sıralı Minimal Optimizasyon), CART (Sınıflandırma ve Regresyon Ağacı), J48 (Karar Ağacı) ve Rastgele Orman olmak üzere beş tür sınıflandırma algoritması üzerine çalışılmıştır. Bu algoritmalar WEKA yazılımı kullanılarak incelenmiştir. Rastgele Orman algoritması, tüm özellik seçme yöntemlerinde en iyi performansı göstermiştir. İlave olarak, J48 algoritması ikinci, CART algoritması ise üçüncü en iyi sınıflandırma algoritması olarak öne çıkmıştır. Çalışmanın diğer modelinde oltalama sitelerinin tespiti için derin öğrenme modeli olarak ileri beslemeli derin sinir ağlarının kullanımı tercih edilmiştir. İleri beslemeli derin sinir ağları temelde çok katmanlı algılayıcıların altyapısına dayanmaktadır. Bu modelin başarısına katman ve düğümlerin etkisini araştırmak için 6 adet farklı deneysel mimari hazırlanmıştır. Toplamda bu 6 adet farklı mimariye sahip derin öğrenme modelleri oltalama veri setiyle eğitilmiş ve en optimum çözüm tespit edilmiştir. Bu çalışmada derin öğrenme kullanılarak hızlı bir algılama yöntemine dayalı çok boyutlu bir oltalama tespiti yaklaşımı önerilmektedir. Oltalama URL'si ve meşru URL içeren bir veri kümesi üzerinde yapılan testler sonucunda, doğruluk parametresi için %99,46 oranı elde edilmiştir. Literatürde yer alan çalışmalar göz önünde bulundurulduğunda oltalama URL adreslerinin tespiti için derin öğrenme modeli kullanımının doğru bir yaklaşım olduğu kanıtlanmaktadır.
Phishing attacks are attacks in which phishers deceive internet users by making a fake website look like a legitimate one. Phishing attacks are especially used to capture financially sensitive information, hence pose a critical threat to users and the losses from phishing attacks continue to increase. When the studies and the gathered statistics are evaluated in general, phishing attacks continue to be one of the critical cyber security issues that need to be tackled both globally and throughout Turkey. Before starting the studies on the blocking of phishing sites, the distinctive and common features of these sites should be determined in order to increase success rate of the detection. In this study, URL content, which is one of the most distinctive detectable features of phishing sites, is emphasized. For this purpose, it is aimed to propose a classifier workflow model with a high success rate, depending on the performance metrics accepted in the literature. Two different models were used in this study to detect URL addresses used for phishing purposes. In the first model of the study, the performance of some special feature selection and classification algorithms on the dataset created for the detection of the phishing attack websites was analyzed. The main purpose of the research is to maximize the fake website detection accuracy by finding the best compatibility between different classification algorithms and different feature selection methods. In this study, four types of feature selection methods and five types of classification algorithms were studied, namely CFS (Correlation-based Feature Selection) subset based, Consistency subset based, Gain Ratio attribute based, Relief-F attribute based feature selection methods and Naïve Bayes, SMO (Sequential Minimal Optimization), CART (Classification and Regression Tree), J48 (Decision Tree) and Random Forest classification algorithms. These algorithms were analyzed using WEKA software. The Random Forest algorithm showed the best performance in all feature selection methods. In addition, the J48 algorithm stood out as the second-best classification algorithm and the CART algorithm as the third-best classification algorithm. In the other model of the study, the use of feedforward deep neural networks was preferred as a deep learning model for detecting phishing sites. Feedforward deep neural networks are basically based on the infrastructure of multilayer neurons. In order to investigate the effect of layers and nodes on the success of this model, 6 different experimental architectures were prepared. In total, these 6 deep learning models with different architectures were trained with the phishing dataset and the most optimum solution was determined. In this study, a multidimensional phishing detection approach based on a rapid detection method using deep learning is proposed. As a result of tests on a dataset containing phishing and legitimate URLs, an accuracy rate of 99.46% was obtained. Considering the studies in the literature, it is proven that the use of a deep learning model is an appropriate approach to detect phishing URL addresses.