Oltalama saldırısı, önem ve aciliyet arz eden bir içerik ile kullanıcıları manipüle ederek yanlış karar vermeye yönlendiren, kullanıcıların çeşitli bilgi ve belgelerini ele geçirmeyi amaçlayan bir siber saldırı çeşididir. Bu saldırılara karşı yapay zekâ destekli oltalama saldırısı tespit sistemleri geliştirmek kullanıcıları korumak adına yapılabilecek etkili çözüm yollarından birisidir. Günümüzde makine öğrenmesi ve derin öğrenme ile oluşturulan etkili savunma sistemleri, oltalama internet sitelerinin URL adreslerini, içeriklerini ya da her ikisini birden inceleyerek tespit etmeye dayanmaktadır.
Bu tez çalışmasında hibrit olarak çalışan, hem URL hem de içerik analizi yapılan bir sistem geliştirilmiştir. İki aşamalı hibrit oltalama saldırısı tespit sistemi adını verdiğimiz bu yaklaşım şu şekilde tasarlanmıştır: Şüpheli oltalama saldırısı önce URL analizi yaklaşımına sonra da internet sitesi aktif ise içerik analizi yaklaşımına göre değerlendirilmektedir. Bu sistemde karar verici, URL analizine göre sonuç oltalama olarak tahmin edilirse nihai sonucu oltalama olarak vermekte; meşru olarak tahmin edilirse içerik aranmakta, bulunmaması durumunda URL analizi sonucu yine nihai sonucu belirlemektedir. İçerik bulunması durumda ise oranlanan URL&içerik analizi tahmin sonucuna bakılmakta ve nihai sonuç belirlenmektedir. Bu çerçevede yapılan bir dizi deney sonucunda ilk aşamada iki modelin birleştirilmesi ile oluşturulan model (geliştirilmiş derin sinir ağı ve evrişimli sinir ağı), ikinci aşamada derin sinir ağı modelinin kullanılmasının daha uygun olduğu bir sistem önerilmiştir.
Tez çalışmasında, toplam 14.782.355 veriden oluşan veri setinde, 11.720.749 meşru, 3.061.606 oltalama URL bulunmaktadır. Bu veri seti içerisinde iki alt veri seti bulunmaktadır. Birincisi; 113.189 meşru ve 113.189 oltalama URL barındıran yüksek riskli URL veri setidir. Diğeri ise, 45.631 meşru ve 36.123 oltalama URL'in ve içeriklerinin yer aldığı yüksek riskli içerik veri setidir. Böylelikle bu büyüklük ve özellikte yeni bir veri seti oluşturularak literatüre katkıda bulunulmuştur.
Bu büyük veri setinde yapılan deneysel çalışmalarda hibrit yaklaşım ile %99,06 doğruluk oranına ulaşılmıştır. Deneylerde elde edilen değerler detaylı incelendiğinde, iki aşamalı hibrit oltalama tespit sisteminin, URL analizinde tespit edilemeyen ama varsa içerik analizinin yapıldığı URL'leri tespit etmede %70,23 oranında daha iyi olduğu görülmüştür. Sonuç olarak, önerilen yaklaşım gerçek hayatta kullanıldığında daha çok oltalama internet sitesi içeriği ile karşılaşacağından daha etkili bir oltalama saldırısı tespit sistemi olarak çalışacaktır.
|
Phishing attack is a type of cyber-attack that manipulates users to make wrong decisions by manipulating them with important and urgent content and aims to obtain various information and documents of users. Developing artificial intelligence-supported phishing detection systems against these attacks is one of the effective solutions to protect users. Today, effective defense systems built with machine learning and deep learning are based on detecting phishing websites by examining their URL addresses, content, or both.
In this thesis, a hybrid system that analyzes both URL and content has been developed. This approach, which we call a two-stage hybrid phishing detection system, is designed as follows: The suspected phishing attack is first evaluated according to the URL analysis approach and then, if the website is active, according to the content analysis approach. In this system, the decision maker gives the final result as phishing if the result is predicted as phishing according to the URL analysis; if it is predicted as legitimate, the content is searched, and if it is not found, the result of the URL analysis determines the final result again. If content is found, the final result is determined by looking at the prediction result of the proportional URL & content analysis. As a result of a series of experiments conducted in this framework, a system is proposed in which the deep neural network model is more appropriate to be used in the second stage, while the model created by combining two models (enhanced deep neural network and convolutional neural network) is used in the first stage.
In the thesis, there are 11.720.749 legitimate and 3.061.606 phishing URLs in the data set consisting of a total of 14.782.355 data. There are two sub-data sets within this data set. The first is the high-risk URL data set, which contains 113.189 legitimate and 113.189 phishing URLs. The other is the high-risk content dataset, which contains 45.631 legitimate and 36.123 phishing URLs and their content. Thus, a new dataset of this size and characteristics has been created and contributed to the literature.
In the experimental studies conducted on this large dataset, the hybrid approach achieved an accuracy rate of 99,06%. When the values obtained in the experiments are examined in detail, it is seen that the two-stage hybrid phishing detection system is 70,23% better at detecting URLs that are not detected in URL analysis but where content analysis is performed, if any. As a result, the proposed approach will work as a more effective phishing detection system as it can encounter more phishing website content when run in real life. |