Tez No İndirme Tez Künye Durumu
338807
Thread vulnerability for multicore architectures / Çok çekirdekli mimarilerde iş parçacığı güvenilirliği
Yazar:IŞIL ÖZ
Danışman: PROF. DR. OĞUZ TOSUN ; PROF. DR. HALUK RAHMİ TOPÇUOĞLU
Yer Bilgisi: Boğaziçi Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2013
175 s.
Modern işlemci teknolojisinde transistör boyutlarının gittikçe küçülmesi ve transistörlerin çok daha hızlı frekanslarda çalışması nedenleri ile, yonga bileşenlerinin geçici hata oranları artmaktadır. Geçici hatalar için sunulan çözümlerin değerlendirilmesi için bir güvenilirlik metriğine ihtiyaç duyulmaktadır. Bu tez, çok çekirdekli mimarilerde çalışan paralel uygulamaların geçici hata hassasiyetlerini incelemektedir. İlk olarak, iş parçacıklarının hata hassasiyetlerini ölçen ve paralel uygulamaların göreceli hata hassasiyetlerini belirleyen, İş Parçacığı Hasar Görebilirlik Faktörü olarak isimlendirdiğimiz bir metrik önerilmektedir. Çalışmamız kapsamında, metriğin analitik tanımı verilerek uygulama verisinden metrik değerini hesaplayacak bir yapı oluşturulmuştur. Metriğin doğrulanmasına yönelik olarak, paralel uygulamalar için hata enjeksiyon deneyleri uygulanmıştır. Bu tezde ayrıca, farklı problemlerin paralel uygulamaları için performans-hata hassasiyeti analizi yapılarak farklı tasarım seçeneklerinin sistem performansı ve güvenilirliği üzerindeki etkileri incelenmiştir. Bu iki özelliği hesaba katarak yaptığımız analizler sonucunda, birbirine yakın performans değerlerine sahip ancak farklı hata hassasiyeti gösteren iki seçenek için tercih belirgin bir şekilde ortaya çıkmaktadır. Bu tez ayrıca, çok çekirdekli sistemler için güvenilirlik tabanlı çekirdek paylaştırma stratejileri önermektedir. Çekirdek paylaştırma stratejilerimizi değerlendirmek için, çok iş parçacıklı birden fazla uygulamadan oluşan iş yükleriyle deneysel çalışmalar yapılmıştır. Bu tezde ayrıca, iş parçacığı seviyesinde hassasiyet analizi yapılarak uygulamadaki kritik iş parçacığı ve iş parçacığı bölgesi tespiti için bir kritik iş parçacığı belirleme algoritması önerilmiştir. Bu algoritma, güvenilirliği arttırmak için kullanılan kısmi çoklama yönteminde en önemli kod parçacıklarının tespitinde kullanılmış, farklı çoklama seviyeleriyle ölçülen hassasiyet değerleriyle tekniğin etkinliği gösterilmiştir.
Continuously reducing transistor sizes and aggressive low power operating modes employed by modern architectures tend to increase transient error rates. A metric of reliability is required in order to evaluate approaches that address soft errors. This thesis explores a soft error vulnerability analysis of parallel applications running on multicore architectures. We propose and evaluate a novel metric, Thread Vulnerability Factor, in order to quantify thread vulnerability and to qualify the relative vulnerability of parallel applications to soft errors. We present the analytical definition of our metric, and develop a framework to calculate the metric value by gathering application data. To demonstrate the validity of the metric, fault injection based experiments are conducted for multithreaded applications. This thesis also presents the performance-vulnerability analysis of parallel applications for a variety of applications and discusses the effects of design choices on system performance and reliability. By considering tradeoff between these two concerns, we observe that design choice becomes clear for some of the applications which provide different vulnerability values with almost equal performance. Additionally, we propose and evaluate reliability-aware core partitioning schemes for multicore architectures. A simulation study with various workloads consisting of multiple multithreaded applications is performed in order to evaluate the proposed partitioning schemes. We also present a thread-level vulnerability assessment tool by considering user preferences; and we propose a novel critical thread identification algorithm to determine critical thread and critical thread region in a multithreaded application. We utilize our algorithm to determine the thread for redundant execution in a partial fault tolerance system and demonstrate the efficiency of the method by providing vulnerability values for executions with different redundancy levels.