Son yıllarda, Yapay Zeka (AI) ve Nesnelerin İnterneti (IoT) gibi büyük bir yenilik dalgasına tanık olduk. Bu akımda, yazılım araçları sürekli artan işlem gücü talep ediyor ve bu artık geleneksel işlemciler tarafından karşılanamıyor. Bu ihtiyaca yanıt olarak, Grafik İşleme Üniteler (GPU'lar), Alanda Programlanabilir Kapı Diziler (FPGA'lar) ve Yapay Zeka (AI) hızlandırıcılar dahil olmak üzere çok çeşitli donanımlar her gün piyasaya sürülüyor. Öte yandan, donanım platformları daha yüksek performans talebi nedeniyle daha fazla güce aç hale gelirken, eşzamanlı olarak transistör boyutunun küçülmesi ve voltajın azaltılması, devrelerde her zaman güvenilirlik endişelerini arttırmıştır. Bu, özellikle bir hatanın felaketle sonuçlanabileceği ulaşım ve havacılık endüstrileri gibi hataya duyarlı uygulamalar için geçerlidir. Güvenilirlik konularının, sert çevre koşulları gibi başka nedenleri de olabilir. Modern elektronik devrelerin bu iki sorunu, yani aynı anda daha yüksek performans ve güvenilirlik ihtiyacı, uygun çözümler gerektirir. FPGA'lar gibi yeniden yapılandırılabilir devrelere dayalı tasarım veya genel amaçlı işlemciler gibi Piyasadan Hazır Temin Edilebilen (COTS) bileşenlere dayalı tasarım uygun bir yaklaşım olabilir, çünkü bu platformlar çok çeşitli uygulamalarda kullanılabilir. Bu bağlamda, bu tezde üç çözüm önerilmiştir. Bu çözümler, 1) yedekli işlemciler kullanarak sistem düzeyinde güvenlik ve güvenilirliği, 2) birden çok hızlandırıcı kullanarak mimari düzeyinde performansı ve 3) yedekli transistörlerin kullanımıyla devre düzeyinde güvenilirliği hedefler.
Özel olarak, ilk çalışmada, Piyasadan Hazır Temin Edilebilen (COTS) işlemcileri kullanarak güvenlik açısından kritik bilgisayarların tasarımında bazı yaygın paramet\-relerin katkısı tartışılmıştır. Yedekli mimariler Markov zinciri kullanılarak mo\-dellenmiştir ve sistem güvenliğinin parametrelere duyarlılığı analiz edilmiştir. En önemlisi, bu tür sistemlerde Yaygın Neden Arızalarının (CCF'ler) önemli varlığı araştırılmıştır. İkinci çalışmada, Yüksek Seviyeli Sentez (HLS) tabanlı, FPGA hız\-landırmalı, yüksek verimli / iş verimli, sentezlenebilir şablon tabanlı grafik işleme ünitesinin tasarımı ve uygulaması sunulmuştur. Bu ünite yazılım programcıları için bile FPGA ile kolay programlayabilme için basitleştirilmiştir. Sunulan yapı, yinelemeli grafik algoritmalarını uygulamak için özel olarak Intel'in son teknoloji ürünü Xeon + FPGA platformunda denenmiştir. Yüksek verimli boru hattının yanı sıra, iş verimli mod, yeni bir etkin liste tasarımıyla toplam grafik işleme süresini önemli ölçüde azaltır. Üçüncü çalışmada, güvenilirlik ve bellek boyutu arasında tercih yapmak için devre düzeyinde yeni bir teknik olan Ortak SRAM hücresi tanıtılmıştır. Bu fikir, ön-bellek, kayıt dosyası, FPGA BRAM veya FPGA arama tablosu (LUT) ve hatta mandallar ve Flip-Floplar gibi herhangi bir SRAM yapısı için de uygulanabilir. Hataya eğilimli koşullarda, yapı, dört hücrenin bir büyük ve sağlam bellek biti oluşturmak üzere devre seviyesinde birleştirileceği şekilde yapılandırılabilir. Üçlü Modüler Yedeklilik (TMR) gibi yaygın donanım yedekliliği tekniklerinin aksine, belirgin bir seçim ünitesi yoktur. Çözüm, temel olarak, güvenilir modun otomatik düzeltme ve tek hatalara karşı tam bağışıklık sağlayabildiği geçici hatalara odaklanır.
|
In recent years, we have witnessed a huge wave of innovations, such as in Artificial Intelligence (AI) and Internet-of-Things (IoT). In this trend, software tools are constantly and increasingly demanding more processing power, which can no longer be met by processors traditionally. In response to this need, a diverse range of hardware, including GPUs, FPGAs, and AI accelerators, are coming to the market every day. On the other hand, while hardware platforms are becoming more power-hungry due to higher performance demand, concurrent reduction in the size of transistors, and placing high emphasis on reducing the voltage, altogether have always been sources of reliability concerns in circuits. This particularly is applicable to error-sensitive applications, such as transportation and aviation industries where an error can be catastrophic. The reliability issues may have other reasons too, like harsh environmental conditions. These two problems of modern electronic circuits, meaning the need for higher performance and reliability at the same time, require appropriate solutions. In order to satisfy both the performance and the reliability constraints either designs based on reconfigurable circuits, such as FPGAs, or designs based on Commercial-Off-The-Shelf (COTS) components like general-purpose processors, can be an appropriate approach because the platforms can be used in a wide variety of applications. In this regard, three solutions have been proposed in this thesis. These solutions target 1) safety and reliability at the system-level using redundant processors, 2) performance at the architecture-level using multiple accelerators, and 3) reliability at the circuit-level through the use of redundant transistors.
Specifically, in the first work, the contribution of some prevalent parameters in the design of safety-critical computers, using COTS processors, is discussed. Redundant architectures are modeled by the Markov chains, and sensitivity of system safety to parameters has been analyzed. Most importantly, the significant presence of Common Cause Failures (CCFs) has been investigated. In the second work, the design, and implementation of an HLS-based, FPGA-accelerated, high-throughput/work-efficient, synthesizable template-based graph processing framework has been presented. The template framework is simplified for easy mapping to FPGA, even for software programmers. The framework is particularly experimented on Intel state-of-the-art Xeon+FPGA platform to implement iterative graph algorithms. Beside high-throughput pipeline, work-efficient mode significantly reduces total graph processing run-time with a novel active-list design. In the third work, Joint SRAM (JSRAM) cell, a novel circuit-level technique to exploit the trade-off between reliability and memory size, is introduced. This idea is applicable to any SRAM structure like cache memory, register file, FPGA block RAM, or FPGA look-up table (LUT), and even latches and Flip-Flops. In fault-prone conditions, the structure can be configured in such a way that four cells are combined together at the circuit level to form one large and robust memory bit. Unlike prevalent hardware redundancy techniques, like Triple Modular Redundancy (TMR), there is no explicit majority voter at the output. The proposed solution mainly focuses on transient faults, where the reliable mode can provide auto-correction and full immunity against single faults. |