...

中性子ソフトエラーの加速試験評価

by user

on
Category: Documents
14

views

Report

Comments

Transcript

中性子ソフトエラーの加速試験評価
中性子ソフトエラーの
加速試験評価
富士通セミコンダクター㈱
上村 大樹
Fujitsu Semiconductor LTD.
E-mail: [email protected]
Copyright 2008 FUJITSU LIMITED
Outline
ソフトエラーの背景
ソフトエラーの評価方法
中性子ビームによる評価
ソフトエラー対策の評価
1
Copyright 2008 FUJITSU LIMITED
ソフトエラーとは
ハードエラー
永久に電子デバイスが正常な動作を行えない状態になること。
(BTI, TDDB, HCI, TID, DDD)
ひと言で言うと「物理的に壊れる」
ソフトエラー
壊れてないけど、一時的に誤動作が発生すること。
良品で発生する。
原因: 放射線(宇宙線起因など)
※Software のエラーではない。
2
Copyright 2008 FUJITSU LIMITED
ソフトエラーのメカニズム
中性子線
α線
地上の環境中性子
LSI材料中の放射性不純物から
中性子
α粒子
N
N
N
N
P
P
核反応
α線、中性子により発生する電子or正孔が
ドレイン(回路上の1端子)に収集され、
電流ノイズが発生する(誤った信号が発生)。
3
Copyright 2008 FUJITSU LIMITED
ソフトエラーは製品の信頼を損ねる
Intel 2107 series 16kb DRAMs (1978)
IBM Hera problem (1986)
Sun: Forbes Global article. [Forbes 2000]
ASC Q supercomputer SER related issues [ASC Q 2005]
“We're no longer
buying IBM SRAM.”
Sun CEO
Scott McNealy
[Forbes 2000]
[EETimes 2001]
4
Copyright 2008 FUJITSU LIMITED
各社ソフトエラー対策を強化
Intel: ソフトエラー対策ラッチの採用[ISSCC 2008]
2bit-correct-ECCの採用 [ISSCC 2009]
IBM: R-unitを用いたRAS機構を搭載 [HotChip20 2008]
Fujitsu: RAS機構を強化 [HotChip20 2008]
[CISCOホームページより]
5
Copyright 2008 FUJITSU LIMITED
自動車ブレーキ制御IC chipのソフトエラー
電子デバイスにおいて、ロジックでソフトエラーが発生すると、
24%の確率で、致命的な誤動作に繋がる。
ブレーキが効きっぱなし(41%)
ブレーキが効かない(59%)
[08、Volvo technology]
6
Copyright 2008 FUJITSU LIMITED
ソフトエラーが微細化の障害になることも
半導体は微細化すると、低価格化、性能向上、が期待される。
XillinxのFPGA(Virtex-4)の例 [2009 A. Lesea, et al.]
UMC社90nmテクノロジで製造。
FPGAでは、RAMにECCを使用するのが困難
Configuration RAM 、LUT
• →SRAMを使用せずラッチで代用。
Block RAM
• →130nmのSRAMを使用。(一つ前の世代のデザインを使用)
→ソフトエラーが微細化の障害になっている
7
Copyright 2008 FUJITSU LIMITED
ソフトエラーの評価方法
フィールド試験による評価
中性子加速試験による評価
8
Copyright 2008 FUJITSU LIMITED
ソフトエラー評価
実験
α線ソフトエラー
• 加速試験
- 密封α線源(241Am)を使用
- HUF (Hot Underfill): アンダーフィル材に放射性不純物を混入。
• 地下ランニング(フィールド)試験
中性子ソフトエラー
• ランニング(フィールド)試験
- 低地、高地ランニング試験
• 加速試験
• 加速中性子ビームを使用@RCNP
シミュレーション
PHITS, AMD, DeviceSimulatiorなどを利用
作っていないものに対して評価できる。
設計前にエラー率がわかる。
9
Copyright 2008 FUJITSU LIMITED
中性子ソフトエラーのフィールド試験
[2008 Y. Tosaka, et al.]
より信頼のおけるデータ取得が可能。
高地で行うことにより、データ取得速度を上げることが可能。
線量を同時計測することにより、より正確なデータ取得が可能。
10
Copyright 2008 FUJITSU LIMITED
Neutrons (n/MeV/cm2/sec/μ
μ A)
中性子加速試験
1.E+
5
Quasi-mono
neutron beam
Neutron energy spectrum
Ring cyclotron
1.E+
4
AVF
cyclotr
on
1.E+
3
1.E+
2
RCNP @8.6 m
LANSCE x 1/2
Atmospheric
neutron
x 2E+8
1.E+
1
1.E+
0
1.E+1
1.E+2
Neutron energy (MeV)
White neutron
beam
1.E+3
JESD89A(JEDEC Standard: Measurement and Reporting of Alpha Particle and
Terrestrial Cosmic Ray-Induced Soft Errors in Semiconductor Devices)
試験施設:LANSCE、TRIUMF, RCNP
短時間で結果が得られ、低いエラー率のデバイスも評価が可能。
・ソフトエラー対策をほどこした回路
・製品
11
Copyright 2008 FUJITSU LIMITED
中性子ビームを使用した
ソフトエラー加速試験
製品(CPU)における照射試験
ソフトエラー対策回路における照射試験
12
Copyright 2008 FUJITSU LIMITED
中性子加速試験
Internal view of PW650 server
CPU module placement
White beam
source
[2007 H. Ando, et al.]
13
Copyright 2008 FUJITSU LIMITED
90nm SPARC64 V
Microprocessor for Mission Critical servers
High reliability, High data integrity
Introduced in 2005
Major specifications
90nm Bulk CMOS, 10 Cu layers
18.46mm x 15.94mm
~1.0V Vdd, 2.16GHz Clock
~240K Latches
L1$: 128KB+128KB
L2$: 4MB
14
[2007 H. Ando, et al.]
Copyright 2008 FUJITSU LIMITED
CPU(SPARC)におけるソフトエラーのリカバリ
Noticed
6.4%
Vanished
93.6%
Among
Noticed Errors
Error Detected
90%
(5.8%)
Recovered
76%
(4.9%)
Crash w/o Log 10%
Fatal 24%
(1.5%)
[2007 H. Ando, et al.]
93.6% of estimated Latch flips were Vanished
Noticed Errors were 6.4% ⇒ Derating factor = 0.064.
Among Noticed Errors, 90% of them Detected
Among Noticed Errors, 76% of them Recovered
Only 1.5% of estimated latch flips resulted in Fatal errors
15
Copyright 2008 FUJITSU LIMITED
Noticed Logic Errors for each Apps.
Logic Deratings (Noticed/Estimated errors) were 4% to 11%
Floating Point Applications(■) show slightly higher values than
Integer Applications(■)
These results are higher than AVF as the detection is eager
Logic Derating
0.3
0.2
[2007 H. Ando, et al.]
0.1
0.0
SVOP LINPACK
gcc
bzip2
galgel
sixtrack
Program
16
Copyright 2008 FUJITSU LIMITED
ソフトエラー対策
様々なソフトエラー対策
回路によるソフトエラー対策
ソフトエラー対策効果の評価
17
Copyright 2008 FUJITSU LIMITED
ソフトエラー対策
RAMにおけるソフトエラー対策
ECC (Error correction code)
→パリティビットを付加しエラーを検出(detection)&修正(correction)
(例:64bit + 8bitのパリティ→1bit error correction, 2bit error detection)
Logicにおけるソフトエラー
システムレベルの対策
• TMR (Triple module redundancy) → ロジックの3重化
• Parity retry → エラーを検出した場合のみ命令を再発行
回路レベルの対策
• Latch →内部冗長回路機能をもった対策Latchを使用。
• 組合せ回路 →2重化、ノイズフィルター
18
Copyright 2008 FUJITSU LIMITED
回路でのソフトエラー
Latch回路
Inverter
0
1
0を入力すると、1を出力する
1を入力すると、0を出力する
0
1
Latch回路で、放射線により電流ノイズが発生すると、データが書き
換わってしまう。→ソフトエラー
19
Copyright 2008 FUJITSU LIMITED
ソフトエラー対策ラッチ
Type A
in
out
in
in
Type B
in
in
out
in
out
out
in
in
in
out
in
in
in
out
Truth table
[T. Uemura, 2007]
If noise comes from somewhere in
this chip, this gate will prevent the
output data from moving to false data.
Truth table
inpu
t
inpu
t
output
0
0
1
0
1
input input
output
0
0
1
1
1
1
0
1
0
0
1
mid-voltage
1
Previous
value
1
0
Previous
value
0
Previous
value
The latch is not upset due to one node data inversion
and the latch should be soft error free.
20
Copyright 2008 FUJITSU LIMITED
Normalized SER [A. U]
対策ラッチの中性子加速試験
Sample: 320 kbit-FF array chips
DATA: ALL0, ALL1
通常のラッチ
1
DATA 0
0.8
0.6
0.4
0.2
0
DATA 1
対策ラッチ DATA 0
1.0
1.2
VDD [V]
DATA 1
1.4
[T. Uemura, 2008]
中性子加速試験では、
中性子ソフトエラーを1/10に低減
21
Copyright 2008 FUJITSU LIMITED
なぜエラーが発生するか?
100% protection
中性子加速試験
90% protection
α線加速試験結果
99.8% protection
Current
Current
シミュレーション
ion
MNSEU (Multi-node-SEU)が発生。
微細化が進むにつれ、二つのドレインの物理キョリは小さくなる。
→対策ラッチのソフトエラー耐性は弱くなる。
22
Copyright 2008 FUJITSU LIMITED
対策ラッチの課題
[07. N. Seifert]
テクノロジ世代が進むほど、同時に2カ所でノイズが発生する確率が
上がる。
→回路での対策効果が低下する。
23
Copyright 2008 FUJITSU LIMITED
新しいソフトエラー対策ラッチSEILA
大規模なシステムでは、一つの電子デバイスにおいて、非常に高
い信頼性が求められる。
ソフトエラー耐性を高めるため、
新しい対策ラッチSEILA (Soft Error Immune latch)を考案
24
Copyright 2008 FUJITSU LIMITED
MNSEUを防止する(DHC technology)
クリティカル
エリア
Cancelling
キャンセリング
エリア
クリティカル
エリア
[T. Uemura, 2010]
クリティカルな二つのノードの間に、
それをキャンセリングするノードを間に配置。
25
Copyright 2008 FUJITSU LIMITED
対策ラッチにおける、複数個所での電荷収集
1.2
2 critical area
1.2
1.0
0.8
データが反転
0.4
Voltage [V]
Voltage [V]
1.0
0.6
2 critical area
& 1 cancelling area
0.8
0.6
0.2
0.2
0.0
0.0
-0.2
0
-0.2
20 40 60 80 100
Time [pico sec]
データが反転しない
0.4
0
20 40 60 80 100
Time [pico sec]
[T. Uemura, 2010]
二つのクリティカルエリアでノイズが発生すると、ラッチの保持データ
は反転。
二つのクリティカルエリアと同時に、一つのキャンセリングエリアでノイ
ズが発生すると、ラッチの保持データは反転しない。
26
Copyright 2008 FUJITSU LIMITED
SEU(データノードでのソフトエラー)の評価
SER [A.U.]
1000
Un-robust latch DATA1
Un-robust latch DATA0
SEILA DATA1
SEILA DATA0
[T. Uemura, 2010]
Normalized
SER
1
普通のラッチ
0.1020
以前の対策ラッチ
SEILA
0.0068
100
10
1
0.7
0.8
0.9
1.0
Voltage [V]
1.1
SEILAは、さらに10倍以上ソフトエラー耐性が向上した。
27
Copyright 2008 FUJITSU LIMITED
SEILA (Soft Error Immune Latch)の効果
対策なし
対策ラッチ
クロック起因
クロック起因
SEILAによる対策
クロック起因
ラッチ内部
ラッチ内部
ラッチ内部
SEILA は、99.3% のラッチ内部のソフトエラーと 、
ほとんどのクロック起因のソフトエラーを防止する。
28
Copyright 2008 FUJITSU LIMITED
ソフトエラー評価のまとめ
フィールド試験評価
最も信頼されるデータ
評価には長い時間と、大量のサンプルが必要になる。
• 1種類のデバイスに対して、約1000sample、1yearが必要
中性子加速試験評価
低いエラー率を、短時間で評価することが可能
• 1種類のデバイスに対して、4~40[sample]、10~[hour]
→対策効果の検証、実製品の評価
白色中性子のスペクトルが重要になる。
シミュレーション
全ての半導体デバイスの構成要素、全ての製品を、実験することは不可能。
テクノロジの進歩が早く、実物が完成する前に評価する必要がある。
→ありとあらゆる対象を評価できる手段として精度が必要。
29
Copyright 2008 FUJITSU LIMITED
Fly UP