Tez No İndirme Tez Künye Durumu
656874
Sınıf dengesiz büyük veride dolandırıcılık tespiti ve açıklanabilirlik / Fraud detection models in class imbalanced big data and explainability
Yazar:DUYGU SİNANÇ TERZİ
Danışman: PROF. DR. ŞEREF SAĞIROĞLU ; DR. MUSTAFA UMUT DEMİREZEN
Yer Bilgisi: Gazi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
Türkçe
2020
185 s.
Elektronik ortamlarda gerçekleştirilen dolandırıcılık, doğası gereği dinamik bir problemdir. Çözüm modellerinin geliştirilmesi için eğitim sürecinde kullanılacak olan verilerin temini ve temin edilen verilerin etiketlenmesi zor, dolandırıcı olarak etiketli verinin miktarı ise genele oranla oldukça azdır. Büyük veri çağının sınıflar arası farkı daha da artırması ve geleneksel makine öğrenmesi yaklaşımlarının dengeli sınıf dağılımı varsayımı üzerinde tasarlanmış olması, dolandırıcılık tespit sürecini daha da zorlaştırmaktadır. Bu bağlamda, ilk defa bu tez kapsamında dolandırıcılık tespiti problemi sınıf dengesiz büyük veride veri bilimi bakış açısı ile ele alınmıştır. Telekom ve kredi kartı dolandırıcılığı özelinde, üç yeni tespit yöntemi ve bir açıklanabilir yapay zekâ yaklaşımı geliştirilmiştir. İlk yöntem, hem kullanıcıların belirli bir zaman diliminde yaptığı aktivitelerde oluşan anormal durumlardan hem de bilinen dolandırıcı aktivitelerinden faydalanılan, büyük veri analitiği tabanlı bir tespit sunar. İkinci yöntem, çoğunluk ve azınlık sınıf arasındaki dengesizliği gidermek amacıyla büyük veri analitiği ile kümeleme tabanlı yeniden örnekleme yaptıktan sonra sınıflandırma gerçekleştirerek dolandırıcılığı tespit eder. Üçüncü yöntem ise, dolandırıcılık verisini zamansal ilişkilerini koruyarak görüntüye dönüştürüp, özelliklerin ikili ilişkilerini çıkardıktan sonra derin sinir ağı ile sınıflandırmayı sağlar. Bu yöntemlere ilave olarak, geliştirilen yöntemler açıklanabilirlik açısından ele alınmış ve üçüncü yöntemin ne öğrendiğini daha iyi ortaya koymak amacıyla ısı haritası tabanlı yeni bir açıklanabilirlik yaklaşımı geliştirilmiştir. Bu yaklaşım, dolandırıcı-görüntü dönüşümünü sağlayan üçüncü tekniğin ürettiği ve belirli bir ölçekteki renk haritalarından oluşan görüntüler üzerindeki ilişkilerin daha net ifade edilmesini sağlamaktadır. Bu tez çalışmasında önerilen yöntemlerin; dolandırıcılık problemlerinin karşılaşılmadan çözümlenmesi, mevcudiyeti halinde otomatik olarak tespiti ve kullanıcılar ile hizmet sağlayıcıların karşılaşacakları risklerin azaltılmasına katkılar sağlaması beklenmektedir. Ayrıca, önerilen açıklanabilirlik yaklaşımının ise sadece dolandırıcılık değil diğer yapay zekâ modellerinin sonuçlarının da yorumlanmasına katkılar sağlayacağı öngörülmektedir.
Fraud in electronic environments is a dynamic problem by its nature. It is difficult to obtain and label the data to be used in the training process for the development of solution models, and the amount of data labeled as fraudulent is relatively low compared to general. The fact that the big data age further increases the gap between classes and traditional machine learning approaches are designed on the assumption of balanced class distribution, making the fraud detection process even more difficult. In this context, for the first time in this thesis, the problem of fraud detection has been discussed in class imbalanced big data from a data science perspective. Specific to telecom and credit card fraud, three new detection methods and an explainable artificial intelligence approach have been developed. The first method provides a big data analytics-based detection that takes advantage of both anomalous situations occurring in the activities and known fraudulent activities of users in a certain time period. The second method is a big data analytics-based classifier that resamples before analysis in order to compensate for the imbalance between majority and minority class. The third method, on the other hand, enables processing-based data to be transformed into an image by preserving its temporal relationships, and after extracting the binary relationships of features, classifying it with a deep neural network. In addition to these methods, the developed methods are discussed in terms of Explained Artificial Intelligence (XAI) and a new heat map-based XAI approach has been developed to help better understand what the third method has learned. This approach provides a clearer expression of the relationships on images produced by the technique of fraud-image transformation and made up of color maps of a certain scale. The methods proposed in this thesis are expected to contribute to the resolution of fraud problems encountered in electronic environments, to automatically detect them if they exist, and to reduce the risks that users and service providers will encounter. In addition, the proposed XAI approach is predicted to contribute not only to fraud, but also to the interpretation of the results of other artificial intelligence models.