Seminar: Systematic Fault Injection Strategies for Transient Hardware Faults (AKSI)
- Semester:
- Wintersemester
- Anrechenbar im:
- Master
- Leistungspunkte
- 3
- Dozent:
- Daniel Lohmann
- Betreuer:
- Oskar Pusz
- Zeit/Raum:
-
- Montag: 10:00 bis 11:30 Uhr, SRA Seminarraum (Raum 135, Appelstr. 4, 1. OG)
- Stud.IP-Veranstaltung:
Seminar im Master aus der Reihe Ausgewählte Kapitel der systemnahen Informatik (AKSI)
Inhalt
Das Seminar gibt Einblicke in die Abläufe der alltäglichen Forscherpraxis. Jeder Teilnehmer fertigt eine schriftliche Ausarbeitung und einen Vortrag über ein bestimmtes Themengebiet der systemnahen Informatik an. Semesterthema in diesem Jahr sind Systematic Fault Injection Strategies for Transient Hardware Faults.
Alle Teilnehmenden bearbeiten dazu ein Paper aus dem Bereich der simulations-basierten Fehlerinjektion zur Immitierung von Bitflips bzw. transienten Hardwarefehlern. Bitflips können durch Umwelteinflüsse wie Hitze, Feuchtigkeit, radioaktive oder sogar kosmische Strahlung entstehen und dies ist prinzipiell zu jedem Zeitpunkt an jedem einzelnen Bit möglich. Ein transienter Hardwarefehler steht am Anfang der Fehlerkette, die hier im Fokus steht. Ein Bitflip (Ursprung) kann zu einem fehlerhaften internen Zustand des Systems führen, der zu einem von außen beobachtbaren fehlerhaften Verhalten des Systems führt, aber nicht muss.
Die Gleichverteilung von Zeit und Ort eines möglichen Bitflipss spannt einen Fehlerraum auf, der bei sogenannten Fehlerinjektionskampagnen, vollständig abgedeckt sein muss um eine quanitative Aussage über die Funktionssicherheit der Hardware machen zu können. Brute-Force-Alike zu jedem Zeitpunkt jedes einzelne Bit zu injizieren ist nicht zielführend, da Fehlerinjektionskampagnen so untragbar lange Laufzeiten haben. Dies kommt daher, dass nach jeder Injektion das von außen beobachtbare Verhalten abgewartet werden muss, um zu bestimmen, welche Auswirkung diese Injektion hatte, unabhängig des internen Zustandes. Dies muss (Anzahl der Zeitschritte) multipliziert (Anzahl der Bits) mal passieren um den Fehlerraum auf naiver Weise abdecken zu können. Beispielsweise benötigt man so für einen Prozessor mit 1Ghz und 1 MiB Speicher, der ein Program mit 1 ms Laufzeit ausführt, fast 32 Jahre Kampagnenlaufzeit.
Es gibt bewährte Methoden wie auch aktuelle Forschung dazu diesen Injektionsaufwand drastisch zu reduzieren, die auf präziser oder approximativer Basis funktionieren. Hierzu stehen in diesem Seminar Themen in Bereichen wie z.B. die Fehlerinjektion selbst, deren Genauigkeit und der Reduktion des Injektionsaufwandes im Allgemeinen zur Wahl.
Vorkenntnisse
- Kenntnisse im grundlegenden Aufbau, der Struktur und Funktionsweise von Rechnerarchitekturen (bspw. wie in den Vorlesungen Grundlagen Rechnerarchitektur und/oder Rechnerstrukturen behandelt).
- Grundkenntnisse über Betriebssysteme (bspw. wie in der Vorlesung Grundlagen der Betriebssysteme behandelt), können gegenbenenfalls von Vorteil sein.
Modus
Der genaue Modus hängt von der Teilnehmeranzahl ab.
Die Prüfungsleistung besteht aus zwei Teilleistungen: einem etwa 20-minütigen Vortrag mit anschließender Diskussion und einer schriftlichen Ausarbeitung (etwa 3 Seiten).
Die Ausarbeitung ist im IEEE Paper-Template in deutscher oder englischer Sprache zu verfassen. Zusätzlich wird ein Reviewprozess der Paper simuliert, über dessen Ergebnisse nach dem jeweiligen Vortrag diskutiert wird. Die Termine der Vorträge werden noch bekanntgegeben.
Themen
Diese Papier dienen als Vorbereitung:
-
Paper lesen und reviewen
- S. Keshav: How to Read a Paper
- T. Roscoe: Writing Reviews for Systems Conferences
- G. Heiser: Benchmarking Crimes
-
Fehlertoleranz
- A. Avizienis, J.C. Lapie et al.: Fundamental concepts of dependability
- M. Hoffmann: Konstruktive Zuverlässigkeit: Eine Methodik für zuverlässige Systemsoftware auf unzuverlässiger Hardware (Dissertation, wovon nur Kapitel 1 und 2 relevante Grundlagen zum Nachschlagen für die Seminarteilnehmer sind.)
- H. Schirmeier: Efficient Fault-Injection-based Assessment of Software-Implemented Hardware Fault Tolerance (Dissertation, wovon nur Kapitel 1 bis 3 relevante Grundlagen zum Nachschlagen für die Seminarteilnehmer sind.)
Folgende Themen stehen zur Auswahl (Präferenzen bis zum 26.10.2020 per Email an pusz@sra.uni-hannover.de):
-
1) H. Cho et al.: Modeling Application-Level Soft Error Effects for Single-Event Multi-Bit Upsets
-
2) A. Chatzidimitriou et al.: Demystifying Soft Error Assessment Strategies on ARM CPUs: Microarchitectural Fault Injection vs. Neutron Beam Experiments
-
3) F. Previlon et al.: PCFI: Program Counter Guided Fault Injection for Accelerating GPU Reliability Assessment
-
4) P. Alvaro et al.: Lineage-driven Fault Injection
-
5) A. Chabot et al.: A Comprehensive Fault Injection Strategy for Embedded Systems Reliability Assessment
-
6) R. Venkatagiri et al.: gem5-Approxilyzer: An Open-Source Tool for Application-Level Soft Error Analysis
-
7) S. Jha et al.: ML-Based Fault Injection for Autonomous Vehicles: A Case for Bayesian Fault Injection
-
8) A. Vallero et al.: Combining Cluster Sampling and ACE analysis to improve fault-injection based reliability evaluation of GPU-based systems
Semesterplan
Wenn es Probleme oder Nachfragen zu den Papers bzw. zur Ausarbeitung gibt, steht der Betreuer auch außerhalb der Termine zur Verfügung.
KW | Datum | Thema |
---|---|---|
43 | 19.10.2020 Mo | S1Einführung |
44 | 26.10.2020 Mo | Deadline: Paperwahl |
45 | 02.11.2020 Mo | S2Metavortrag "Wie funktioniert Wissenschaft?" |
06.11.2020 Fr | Deadline: Paper Submission | |
46 | 09.11.2020 Mo | - |
13.11.2020 Fr | Deadline: Paper Bidding | |
47 | 16.11.2020 Mo | - |
48 | 23.11.2020 Mo | - |
49 | 30.11.2020 Mo | - |
50 | 07.12.2020 Mo | - |
51 | 14.12.2020 Mo | S3Metavortrag "Botschaft angekommen" |
52 | 21.12.2020 Mo | (vorlesungsfreie Zeit) |
53 | 28.12.2020 Mo | (vorlesungsfreie Zeit) |
01.01.2021 Mi | Deadline: Abgabe Ausarbeitung und Ende Reviewphase | |
1 | 04.01.2021 Mo | - |
2 | 11.01.2021 Mo | VVorträge |
3 | 18.01.2021 Mo | VVorträge |
4 | 25.01.2021 Mo | VVorträge |
Evaluationen
- WS23/24 • Seminar • Daniel Lohmann • Evaluation (PDF) • Bewertung: 1.3
Anmeldung und weitere Infos
Für diese Veranstaltung ist eine Online-Anmeldung über Stud.IP erforderlich. Bitte registrieren Sie sich (falls noch nicht geschehen) für Stud.IP und tragen Sie sich dort in die entsprechende Veranstaltung ein.
Stud.IP Veranstaltungen
Seminar