Tez No İndirme Tez Künye Durumu
682476
Yapay öğrenme algoritmalarını kandırmak / Deception of machine learning algorithms
Yazar:FATMA GÜMÜŞ
Danışman: DOÇ. DR. MEHMET FATİH AMASYALI
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:Doğal dil işleme = Natural language processing ; Makine öğrenmesi = Machine learning ; Metin sınıflandırma = Text categorization ; Ses işleme = Speech processing
Onaylandı
Doktora
Türkçe
2021
128 s.
Yapay öğrenme algoritmaları, yüksek doğrulukta sınıflandırma ve tanıma sistemlerinin geliştirilmesine olanak sunarak modern yaşantıda vazgeçilmesi zor uygulamaların bir parçası olmuştur. Ancak, sistem geliştirme ve dağıtım sürecinde ortaya çıkan güvenlik açıkları hizmete veya ürüne olan güveni etkileyebilir. Dahası, sistem çıktısının sağlık gibi insan hayatı ve toplum yaşantısı üzerinde geri dönülemeyecek etkilere yol açabileceği uygulama alanlarında oluşabilecek zarar büyüktür. Yapay öğrenme odaklı hizmet ve ürünlerin başarılı bir şekilde yürütülmesini sağlamak ve zarar verecek sonuçlardan korunmak için "güvenilir yapay öğrenme" konusunun araştırılması son derece önemlidir. Yapay öğrenme sistemlerini geliştirme aşamasında modeller sonuçların doğruluğu için optimize edilir. Yüksek doğrulukta sonuçlar elde etmek temel işlevsellik açısından model güvenilirliğini sağlarken dağıtım ortamlarında girdi üzerine yapılan müdahalelere karşı zafiyet oluşturabilir. Saldırgan, kurban modelin girdi-karar ilişkisini keşfedecek akıllı ve uyarlanabilir "girdi bozma" algoritmasıyla güvenilirlik ihlaline neden olur. Bu tez çalışmasında kara-kutu koşullarında bir güvenilirlik çerçevesi belirlenmiş, metin ve konuşma sınıflandırma modelleri için güvenilirlik ihlaline yol açan kaçınma saldırıları geliştirilmiştir. Yüksek doğrulukla çıktı üretilen girdi örnekleri bozulma algoritmaları ile kara-kutu model ortamında zararlı örneklere dönüştürülmüştür. Metin sınıflandırma modelleri için tasarlanan kutupluluk tabanlı küçük müdahalelerin, birbirinden çok farklı yapay öğrenme algoritmaları olan naïve Bayes ve BiLSTM modellerinin kandırılmasında oldukça etkili olduğu görülmüştür. Saldırının uygulanabilirliği gerçek bir kara-kutu olan IBM Watson doğal dil anlama servisi üzerinde doğrulanmıştır. Konuşma sınıflandırma sistemleri olarak öznitelik tabanlı çok katmanlı yapay sinir ağı ve ham sinyal tabanlı evrişimsel duygu tanıma modelleri için beyaz gürültü ve perde manipülasyonu ile zararlı örnekler üretilmiştir. Sinyal işleme yöntemleri ile ayrıntılı olarak incelenen sonuçlarda perde manipülasyonunun etkili bir saldırı yöntemi olduğu görülmüştür. Metin ve konuşma sınıflandırma saldırı deneylerinden elde edilen çıkarımlardan faydalanılarak iki-kipli sınıflandırma modeline düzenlenen bütünleşik saldırıların kolektif modelin gücünü kırabildiği gösterilmiştir. Son olarak, sistem kurulumundan önce uygun önlemleri tasarlayarak kötü niyetli aktörlere karşı sınama aşamasında sisteme entegre edilmek üzere öneriler sunulmuştur. Tez çıktılarının kara-kutu metin ve konuşma sınıflandırıcılarında açık oluşturabilecek noktalarını göstererek daha gürbüz ve güvenilir sistemlerin geliştirilmesinde literatüre katkı sağlaması dileğimizdir.
Allowing the development of high-accuracy classification and recognition systems, machine learning algorithms have now become an integral component of applications that are deemed indispensable in modern life. However, it is possible for the vulnerabilities exposed during system development and deployment to affect the trust placed in a service or product. It is also possible for the system output to cause a significant amount of damage in areas of human life and society, such as irreversible effects in healthcare. In order to ensure successful execution of machine learning-oriented services and products and to avoid harmful consequences, it is essential to investigate the issue of "trustworthy machine learning". During development of machine learning systems, the models are optimized for result accuracy. While high-fidelity results can provide model trustworthiness in terms of basic functionality, they can also render deployment environments vulnerable to input tampering. Attackers cause a trust violation with intelligent and adaptive "input tampering" algorithms that discover the victim model's underlying input-decision mapping. In this thesis, we established a trustworthiness framework in black-box conditions, and developed evasion attacks that lead to reliability violations for text and speech classification models. Using distortion algorithms, we converted input samples that produced high-accuracy output into adversarial samples in a black-box model environment. Polarity-based small interventions designed for text classification models were found to be very effective in deceiving the naïve Bayes and BiLSTM models, two machine learning algorithms with highly differing properties. The viability of attacks was validated on the IBM Watson natural language understanding service which is a true black-box. As for speech classification systems, adversarial samples were produced with white noise and pitch manipulation for feature-based multilayer artificial neural networks and raw waveform-based convolutional emotion recognition models. A detailed analysis of the results using signal processing methods revealed that pitch manipulation is an effective attack method across the models. Based on inferences from the text and speech classification attack experiments, we showed that it is possible for integrated attacks on the bimodal classification model to break the robustness of the ensemble model. Finally, we presented suggestions that can be implemented by designing appropriate measures before system deployment and integrated into the system during the phase of testing against malicious actors. It is our wish that the thesis output will contribute to the literature in development of more robust and trustworthy systems by revealing the aspects that may create vulnerabilities in black-box text and speech classifiers.