Comments
Description
Transcript
中性子ソフトエラーの加速試験評価
中性子ソフトエラーの 加速試験評価 富士通セミコンダクター㈱ 上村 大樹 Fujitsu Semiconductor LTD. E-mail: [email protected] Copyright 2008 FUJITSU LIMITED Outline ソフトエラーの背景 ソフトエラーの評価方法 中性子ビームによる評価 ソフトエラー対策の評価 1 Copyright 2008 FUJITSU LIMITED ソフトエラーとは ハードエラー 永久に電子デバイスが正常な動作を行えない状態になること。 (BTI, TDDB, HCI, TID, DDD) ひと言で言うと「物理的に壊れる」 ソフトエラー 壊れてないけど、一時的に誤動作が発生すること。 良品で発生する。 原因: 放射線(宇宙線起因など) ※Software のエラーではない。 2 Copyright 2008 FUJITSU LIMITED ソフトエラーのメカニズム 中性子線 α線 地上の環境中性子 LSI材料中の放射性不純物から 中性子 α粒子 N N N N P P 核反応 α線、中性子により発生する電子or正孔が ドレイン(回路上の1端子)に収集され、 電流ノイズが発生する(誤った信号が発生)。 3 Copyright 2008 FUJITSU LIMITED ソフトエラーは製品の信頼を損ねる Intel 2107 series 16kb DRAMs (1978) IBM Hera problem (1986) Sun: Forbes Global article. [Forbes 2000] ASC Q supercomputer SER related issues [ASC Q 2005] “We're no longer buying IBM SRAM.” Sun CEO Scott McNealy [Forbes 2000] [EETimes 2001] 4 Copyright 2008 FUJITSU LIMITED 各社ソフトエラー対策を強化 Intel: ソフトエラー対策ラッチの採用[ISSCC 2008] 2bit-correct-ECCの採用 [ISSCC 2009] IBM: R-unitを用いたRAS機構を搭載 [HotChip20 2008] Fujitsu: RAS機構を強化 [HotChip20 2008] [CISCOホームページより] 5 Copyright 2008 FUJITSU LIMITED 自動車ブレーキ制御IC chipのソフトエラー 電子デバイスにおいて、ロジックでソフトエラーが発生すると、 24%の確率で、致命的な誤動作に繋がる。 ブレーキが効きっぱなし(41%) ブレーキが効かない(59%) [08、Volvo technology] 6 Copyright 2008 FUJITSU LIMITED ソフトエラーが微細化の障害になることも 半導体は微細化すると、低価格化、性能向上、が期待される。 XillinxのFPGA(Virtex-4)の例 [2009 A. Lesea, et al.] UMC社90nmテクノロジで製造。 FPGAでは、RAMにECCを使用するのが困難 Configuration RAM 、LUT • →SRAMを使用せずラッチで代用。 Block RAM • →130nmのSRAMを使用。(一つ前の世代のデザインを使用) →ソフトエラーが微細化の障害になっている 7 Copyright 2008 FUJITSU LIMITED ソフトエラーの評価方法 フィールド試験による評価 中性子加速試験による評価 8 Copyright 2008 FUJITSU LIMITED ソフトエラー評価 実験 α線ソフトエラー • 加速試験 - 密封α線源(241Am)を使用 - HUF (Hot Underfill): アンダーフィル材に放射性不純物を混入。 • 地下ランニング(フィールド)試験 中性子ソフトエラー • ランニング(フィールド)試験 - 低地、高地ランニング試験 • 加速試験 • 加速中性子ビームを使用@RCNP シミュレーション PHITS, AMD, DeviceSimulatiorなどを利用 作っていないものに対して評価できる。 設計前にエラー率がわかる。 9 Copyright 2008 FUJITSU LIMITED 中性子ソフトエラーのフィールド試験 [2008 Y. Tosaka, et al.] より信頼のおけるデータ取得が可能。 高地で行うことにより、データ取得速度を上げることが可能。 線量を同時計測することにより、より正確なデータ取得が可能。 10 Copyright 2008 FUJITSU LIMITED Neutrons (n/MeV/cm2/sec/μ μ A) 中性子加速試験 1.E+ 5 Quasi-mono neutron beam Neutron energy spectrum Ring cyclotron 1.E+ 4 AVF cyclotr on 1.E+ 3 1.E+ 2 RCNP @8.6 m LANSCE x 1/2 Atmospheric neutron x 2E+8 1.E+ 1 1.E+ 0 1.E+1 1.E+2 Neutron energy (MeV) White neutron beam 1.E+3 JESD89A(JEDEC Standard: Measurement and Reporting of Alpha Particle and Terrestrial Cosmic Ray-Induced Soft Errors in Semiconductor Devices) 試験施設:LANSCE、TRIUMF, RCNP 短時間で結果が得られ、低いエラー率のデバイスも評価が可能。 ・ソフトエラー対策をほどこした回路 ・製品 11 Copyright 2008 FUJITSU LIMITED 中性子ビームを使用した ソフトエラー加速試験 製品(CPU)における照射試験 ソフトエラー対策回路における照射試験 12 Copyright 2008 FUJITSU LIMITED 中性子加速試験 Internal view of PW650 server CPU module placement White beam source [2007 H. Ando, et al.] 13 Copyright 2008 FUJITSU LIMITED 90nm SPARC64 V Microprocessor for Mission Critical servers High reliability, High data integrity Introduced in 2005 Major specifications 90nm Bulk CMOS, 10 Cu layers 18.46mm x 15.94mm ~1.0V Vdd, 2.16GHz Clock ~240K Latches L1$: 128KB+128KB L2$: 4MB 14 [2007 H. Ando, et al.] Copyright 2008 FUJITSU LIMITED CPU(SPARC)におけるソフトエラーのリカバリ Noticed 6.4% Vanished 93.6% Among Noticed Errors Error Detected 90% (5.8%) Recovered 76% (4.9%) Crash w/o Log 10% Fatal 24% (1.5%) [2007 H. Ando, et al.] 93.6% of estimated Latch flips were Vanished Noticed Errors were 6.4% ⇒ Derating factor = 0.064. Among Noticed Errors, 90% of them Detected Among Noticed Errors, 76% of them Recovered Only 1.5% of estimated latch flips resulted in Fatal errors 15 Copyright 2008 FUJITSU LIMITED Noticed Logic Errors for each Apps. Logic Deratings (Noticed/Estimated errors) were 4% to 11% Floating Point Applications(■) show slightly higher values than Integer Applications(■) These results are higher than AVF as the detection is eager Logic Derating 0.3 0.2 [2007 H. Ando, et al.] 0.1 0.0 SVOP LINPACK gcc bzip2 galgel sixtrack Program 16 Copyright 2008 FUJITSU LIMITED ソフトエラー対策 様々なソフトエラー対策 回路によるソフトエラー対策 ソフトエラー対策効果の評価 17 Copyright 2008 FUJITSU LIMITED ソフトエラー対策 RAMにおけるソフトエラー対策 ECC (Error correction code) →パリティビットを付加しエラーを検出(detection)&修正(correction) (例:64bit + 8bitのパリティ→1bit error correction, 2bit error detection) Logicにおけるソフトエラー システムレベルの対策 • TMR (Triple module redundancy) → ロジックの3重化 • Parity retry → エラーを検出した場合のみ命令を再発行 回路レベルの対策 • Latch →内部冗長回路機能をもった対策Latchを使用。 • 組合せ回路 →2重化、ノイズフィルター 18 Copyright 2008 FUJITSU LIMITED 回路でのソフトエラー Latch回路 Inverter 0 1 0を入力すると、1を出力する 1を入力すると、0を出力する 0 1 Latch回路で、放射線により電流ノイズが発生すると、データが書き 換わってしまう。→ソフトエラー 19 Copyright 2008 FUJITSU LIMITED ソフトエラー対策ラッチ Type A in out in in Type B in in out in out out in in in out in in in out Truth table [T. Uemura, 2007] If noise comes from somewhere in this chip, this gate will prevent the output data from moving to false data. Truth table inpu t inpu t output 0 0 1 0 1 input input output 0 0 1 1 1 1 0 1 0 0 1 mid-voltage 1 Previous value 1 0 Previous value 0 Previous value The latch is not upset due to one node data inversion and the latch should be soft error free. 20 Copyright 2008 FUJITSU LIMITED Normalized SER [A. U] 対策ラッチの中性子加速試験 Sample: 320 kbit-FF array chips DATA: ALL0, ALL1 通常のラッチ 1 DATA 0 0.8 0.6 0.4 0.2 0 DATA 1 対策ラッチ DATA 0 1.0 1.2 VDD [V] DATA 1 1.4 [T. Uemura, 2008] 中性子加速試験では、 中性子ソフトエラーを1/10に低減 21 Copyright 2008 FUJITSU LIMITED なぜエラーが発生するか? 100% protection 中性子加速試験 90% protection α線加速試験結果 99.8% protection Current Current シミュレーション ion MNSEU (Multi-node-SEU)が発生。 微細化が進むにつれ、二つのドレインの物理キョリは小さくなる。 →対策ラッチのソフトエラー耐性は弱くなる。 22 Copyright 2008 FUJITSU LIMITED 対策ラッチの課題 [07. N. Seifert] テクノロジ世代が進むほど、同時に2カ所でノイズが発生する確率が 上がる。 →回路での対策効果が低下する。 23 Copyright 2008 FUJITSU LIMITED 新しいソフトエラー対策ラッチSEILA 大規模なシステムでは、一つの電子デバイスにおいて、非常に高 い信頼性が求められる。 ソフトエラー耐性を高めるため、 新しい対策ラッチSEILA (Soft Error Immune latch)を考案 24 Copyright 2008 FUJITSU LIMITED MNSEUを防止する(DHC technology) クリティカル エリア Cancelling キャンセリング エリア クリティカル エリア [T. Uemura, 2010] クリティカルな二つのノードの間に、 それをキャンセリングするノードを間に配置。 25 Copyright 2008 FUJITSU LIMITED 対策ラッチにおける、複数個所での電荷収集 1.2 2 critical area 1.2 1.0 0.8 データが反転 0.4 Voltage [V] Voltage [V] 1.0 0.6 2 critical area & 1 cancelling area 0.8 0.6 0.2 0.2 0.0 0.0 -0.2 0 -0.2 20 40 60 80 100 Time [pico sec] データが反転しない 0.4 0 20 40 60 80 100 Time [pico sec] [T. Uemura, 2010] 二つのクリティカルエリアでノイズが発生すると、ラッチの保持データ は反転。 二つのクリティカルエリアと同時に、一つのキャンセリングエリアでノイ ズが発生すると、ラッチの保持データは反転しない。 26 Copyright 2008 FUJITSU LIMITED SEU(データノードでのソフトエラー)の評価 SER [A.U.] 1000 Un-robust latch DATA1 Un-robust latch DATA0 SEILA DATA1 SEILA DATA0 [T. Uemura, 2010] Normalized SER 1 普通のラッチ 0.1020 以前の対策ラッチ SEILA 0.0068 100 10 1 0.7 0.8 0.9 1.0 Voltage [V] 1.1 SEILAは、さらに10倍以上ソフトエラー耐性が向上した。 27 Copyright 2008 FUJITSU LIMITED SEILA (Soft Error Immune Latch)の効果 対策なし 対策ラッチ クロック起因 クロック起因 SEILAによる対策 クロック起因 ラッチ内部 ラッチ内部 ラッチ内部 SEILA は、99.3% のラッチ内部のソフトエラーと 、 ほとんどのクロック起因のソフトエラーを防止する。 28 Copyright 2008 FUJITSU LIMITED ソフトエラー評価のまとめ フィールド試験評価 最も信頼されるデータ 評価には長い時間と、大量のサンプルが必要になる。 • 1種類のデバイスに対して、約1000sample、1yearが必要 中性子加速試験評価 低いエラー率を、短時間で評価することが可能 • 1種類のデバイスに対して、4~40[sample]、10~[hour] →対策効果の検証、実製品の評価 白色中性子のスペクトルが重要になる。 シミュレーション 全ての半導体デバイスの構成要素、全ての製品を、実験することは不可能。 テクノロジの進歩が早く、実物が完成する前に評価する必要がある。 →ありとあらゆる対象を評価できる手段として精度が必要。 29 Copyright 2008 FUJITSU LIMITED