Blitzkorruption - Stromversorgung oder Röntgenstrahlung?

8

Ich arbeite mit einem System, bei dem der Mikrocontroller von Zeit zu Zeit Röntgenstrahlung ausgesetzt ist. Wie viel Strahlung genau ist schwer zu sagen ... wir haben es nie gemessen.

Wie auch immer, wir haben bei einer kleinen Auswahl unserer Produkte eine mysteriöse Form der Flash-Beschädigung gesehen, bei der zufällige Bits im Codebereich von 0 auf 1 übergehen.

Wir haben dies zuvor auf Probleme mit der Stromversorgung zurückgeführt, und der Controller wurde während der Datenprotokollierung nicht schnell genug zurückgesetzt.

Aber jetzt sehen wir es vielleicht auf einer neueren Version unseres Produkts, die einen High-End-Controller mit besserem Brown-Out-Schutz hat.

Ist es an der Zeit, Röntgenstrahlen als mögliche Quelle in Betracht zu ziehen?

Die Röntgenstrahlen würden freigesetzt, weil mit einem Vakuumunterbrecher hohe Ströme unterbrochen werden.

Hat jemand schon einmal auf nand-flash von so etwas gehört? Die meisten Artikel, die ich gesehen habe, betrafen Flughafenröntgen oder Röntgeninspektionen, die in PCB FAB verwendet wurden

user1586
quelle
Was ist das für ein Blitz? (NAND, NOR?) Was für ein ECC? (On-Board, Treiber-Ebene, Dateisystem-Ebene?)
Dies ist der Blitz im uC selbst - eine MSP430F5-Serie. Ich bin mir ziemlich sicher, dass es sich um NOR-Flash handelt (da der Code direkt vom Flash ausgeführt wird), aber ich habe nirgendwo gesehen, wo TI ausdrücklich sagt, dass es sich um NOR handelt, und es wird auch kein Hardware-ECC erwähnt (ich würde denken, dass dies der Fall ist) sei es, wenn es NAND wäre). TI empfiehlt die Softwarefehlerkorrektur über CRC in sicherheitskritischen Anwendungen (es gibt ein Hardware-CRC-Modul). Wir verwenden kein Dateisystem und haben keine Softwarefehlererkennung oder -korrektur implementiert.
Grundsätzlich werden Geräte zufällig gemauert, und wenn wir das Bild extrahieren, sehen wir Bitflips und Segmente, die für Flash-Schreibvorgänge niemals entsperrt werden sollten. Wir haben Geräte gesehen, die seit vielen Jahren im Einsatz sind, und wir sehen sie auf Geräten, die seit <1 Jahr im Einsatz sind. Es ist eine kleine Zahl im Verhältnis zu unserer Gesamtbevölkerung. Wir haben noch keine Korrelationen zwischen den Geräten gefunden.
Wäre es möglich, die Ausfallzeit der Stromversorgung für eine ausgewählte Anzahl von Geräten zu verlängern und festzustellen, ob eines dieser Geräte fehlerhaft ist? Die Anzahl müsste groß genug sein, damit statistisch gesehen eine gute Aussicht auf einen Fehler mit der Rate besteht, die Sie bei der verwendeten Stichprobengröße sehen ||
Russell McMahon
Sind die von Ihnen verwendeten "Metallschirme" nachweislich tatsächlich Bildschirme mit den erwarteten Energieniveaus, im Gegensatz zu sekundären Quellen anderer Partikel, die von XRAYS "angeregt" werden? Mit einem PIN-Fotodetektor können Sie möglicherweise die Strahlungswerte grob quantisieren.
Russell McMahon

Antworten:

7

Sie sollten Röntgenstrahlen auf jeden Fall als mögliche Quelle betrachten.

Ein gelöschter Blitz ist voll von 1s. Das Programmieren eines Blitzes ist voller Nullen. Im Laufe der Zeit oder unter bestimmten Belastungen können Blitzkomponenten ihre Gate-Ladung verlieren, was zu einem Übergang von 0 zu 1 führt. Dies ist ein bekanntes Verhalten bei NAND-Flash, kann aber auch bei NOR-Flash auftreten, selbst wenn diese konstruktionsbedingt wesentlich robuster sind.

Hochenergiestrahlungen (Röntgenstrahlen, Gammastrahlen) sind eine bekannte Stressquelle für Blitzgedächtnisse und ein wichtiges Thema für Luftfahrt-, Luft- und Raumfahrt- und Nuklearprodukte. Sehen Sie hier , da und da meine ersten Google-Ergebnisse für "kosmische Strahlung NAND".

Wenn das Problem ein Stromausfall während des Programmierens oder Löschens ist, kann es wahrscheinlich zu jedem Zeitpunkt während des Vorgangs auftreten, und Sie sollten einige Teile mit vielen 0: 1-Übergängen und einige mit sehr wenigen haben. Wenn Sie immer ein paar Bitfehler haben, ist es wahrscheinlich etwas anderes, wie z. B. EMV oder Strahlung.

Wenn Ihre Produkte dieser Art von Stress standhalten müssen, sind ECC wie Hamming-Codes genau das Richtige für Sie. Trotzdem ist das Fehlermanagement im Flash-Speicher ein großes Thema.

Jacen
quelle
Es stimmt, aber der Grund, warum dies für uns seltsam ist, ist, dass wir kein Produkt entwerfen, das in den Weltraum geht. Unser Produkt ist innerhalb mehrerer Schichten aus Aluminium und Stahl ziemlich terrestrisch. Die Röntgenquelle ist ein unbeabsichtigter Strahler weicher Röntgenstrahlen. siehe auch hier . Es klingt so, als müssten wir uns auf Messingstifte konzentrieren und versuchen, den Strahlungspegel zu quantifizieren / zu messen.
6

Es scheint viele Papiere zu geben, die darauf hinweisen, dass Röntgenstrahlen ein echtes Problem mit NAND-Blitz sein könnten. Ich habe es nicht gelesen, aber die Zusammenfassung für diese enthält tatsächliche Zahlen:

Nur wenige Sekunden Röntgenbelichtung, die einer Gesamtdosis von lediglich 50 rad (Si) in einer Echtzeit-Röntgenquelle entsprechen, sind erforderlich, um Fehler hervorzurufen.

Wenn sich Ihre Exposition also diesem Niveau annähert, ist es nicht paranoid, die Möglichkeit in Betracht zu ziehen.


quelle