...

IvyBridgeEP ベンチマーク

by user

on
Category: Documents
11

views

Report

Comments

Transcript

IvyBridgeEP ベンチマーク
IvyBridgeEP ベンチマーク
SandyBridgeEP(SBEP)とIvyBridgeEP(IBEP)の比較
2013年11月
株式会社ソフトウェアクレイドル
システムG 阿部
©2013 Software Cradle
|1
ベンチマーク実施環境
 IvyBridgeEP機
– 筐体
– OS
– CPU
DELL™ PowerEdge™ R720 Bios 2.0.11
CentOS6.4-kernel2.6.32-358.el6.x86_64
Intel® Xeon® [email protected],12CORE*2CPU,TurboBoost有効
– MEM DDR3-1600MHz , 8GB*16
 SandyBridgeEP機
– OS
CentOS6.2-kernel2.6.32-220.17.1.el6.x86_64
– CPU Intel® Xeon® [email protected],8CORE*2CPU,TurboBoost有効
– MEM DDR3-1600MHz , 4GB*8
 開発環境(CPUcache,メモリベンチマーク用)
– Compiler
– MPI
Intel® C/C++,Intel® Fortran v13.1.3.192
Intel® MPI v4.1.1.036
STREAM、およびSCRYU/Tetraは、日本における株式会社ソフトウェアクレイドルの登録商標です。
本資料で使用するその他の会社名、商品名・サービス名は、各社の商標または登録商標です。
©2013 Software Cradle
|2
MemoryBandwidth (Triad)
 メモリ帯域を測定するベンチマークを実施した。
– HPCChallengeにも使われているSTREAMというベンチマークプログ
ラムを使用した。
– メインメモリの帯域を測定することができる。
– MPIで並列にメモリを読み書きする。1MPIプロセスあたり1GBを読み
書きする。
– 詳細は http://www.cs.virginia.edu/stream/
©2013 Software Cradle
|3
MemoryBandwidth (Triad)
 結果
– メモリモジュールのスペックは同等だが、SBEPとIBEPで挙動に差がある。
– 特に並列数を増やした時にSBEPは8並列程度で頭打ちになるがIBEPではも
う少し伸びる。
– 総帯域はIBEPが上回る。
BandWidth:Triad
100000
90000
BandWidth[MB/s]
80000
70000
60000
50000
Triad_SBEP
40000
Triad_IBEP
30000
20000
10000
0
1
2
4
8
10
12
16
24
並列数
©2013 Software Cradle
|4
CPUcache,MemoryのLatency測定
 L1,L2,L3キャッシュとメインメモリのLatencyを測定し、
SandyBridgeEPとIvyBridgeEPで比較した。
 結果(Latencyが小さいほど優秀)
–
–
CPUキャッシュではSBEPが優勢(memory_depth30MB以下くらいの領域)
メインメモリ(memory_depth30MB以上くらいの領域)ではIBEPが優勢になる。
latency_SBEP
80
70
70
60
60
50
stride_32
40
stride_64
30
stride_128
latency[nanosec]
80
50
stride_32
40
stride_64
30
stride_128
20
stride_256
20
stride_256
10
stride_512
10
stride_512
0
512B
8KB
20KB
32KB
56KB
96KB
160KB
256KB
448KB
768KB
1.25MB
2MB
3.5MB
6MB
10MB
16MB
28MB
48MB
80MB
128MB
224MB
0
512B
8KB
20KB
32KB
56KB
96KB
160KB
256KB
448KB
768KB
1.25MB
2MB
3.5MB
6MB
10MB
16MB
28MB
48MB
80MB
128MB
224MB
latency[nanosec]
latency_IBEP
memory_depth
memory_depth
©2013 Software Cradle
|5
MemoryRandomAccess
 メインメモリのランダムアクセス性能を測定し、SandyBridgeEP
とIvyBridgeEPで比較した。
– RandomAccessベンチマークの詳細はhttp://icl.cs.utk.edu/hpcc/
– GU/s=GigaUpdate per Second
 結果
– ランダムアクセス性能もIBEPが良い。
StarRandomAccess
IBEP
memorysize[MB]
©2013 Software Cradle
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
SBEP
IBEP
2
50
162
338
578
882
1250
1682
2178
2738
3362
4050
4802
5618
6498
7442
SBEP
GUPS[GU/s]
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
2
50
162
338
578
882
1250
1682
2178
2738
3362
4050
4802
5618
6498
7442
GUPS[GU/s]
SingleRandomAccess
memorysize[MB]
|6
メモリ周りのベンチマーク簡単なまとめ
 CPUキャッシュのLatencyはSBEPが上回る。動作クロックなりの
結果とも言える。
 メインメモリへのアクセスではLatency、帯域、ランダムアクセス
性能共にIBEPがSBEPを上回る。
 メモリモジュールの性能は同じものを使用していることからIBEP
ではメモリコントローラーやその周辺の改善が伺える。
©2013 Software Cradle
|7
STREAM®ベンチマーク1
 ソフトウェアクレイドル製 熱流体解析ソフト
STREAM®のベンチマークを実施した。
– STREAM® V10 8月版を使用
– 添え字の意味
IBEP = IvyBridgeEP
SBEP = SandyBridgeEP
ii
= Intel® Compiler + Intel® MPI v4.1.1.036
ih
= Intel® Compiler + Platform Computing MPI v8.2
– STREAM®に関する詳細は
http://www.cradle.co.jp/products/stream.html
©2013 Software Cradle
|8
STREAM®ベンチマーク2
 STREAM® V10で2つのケースのベンチマークを実施した。
– coli70mil:古代円形競技場(7000万要素)
– st8ex2 : PC筐体(1200万要素)
 結果
– 並列数が低い場合にはSBEPが優勢だが、並列数を上げるとIBEPが逆
転する。
TIME:st8ex2_1200m
TIME:coli70mil
16000
14000
10000
IBEP_ii
8000
IBEP_ih
6000
SBEP_ii
4000
SBEP_ih
2000
0
1
2
4
8
並列数
©2013 Software Cradle
12
16
24
TIME[sec]
TIME[sec]
12000
2000
1800
1600
1400
1200
1000
800
600
400
200
0
IBEP_ii
IBEP_ih
SBEP_ii
SBEP_ih
1
2
4
8
12
16
24
並列数
|9
STREAM®ベンチマーク3
 下図は並列無しの場合を基準にし、並列演算時の速度向上倍率を示
したもの。
 IBEPはSBEPよりも並列演算効率が良いことを見て取れる。
– STREAM®はメモリ性能の影響を大きく受けるため、メモリ周りの性
能が向上したIBEPで、SBEPより良い結果が出たと考えられる。
coli70mil並列演算時の速度向上倍率
st8ex2並列演算時の速度向上倍率
12
12
10
10
8
IBEP_ii
6
IBEP_ih
倍率
倍率
8
IBEP_ii
6
IBEP_ih
4
SBEP_ii
4
SBEP_ii
2
SBEP_ih
2
SBEP_ih
0
0
1
2
4
8
並列数
©2013 Software Cradle
12
16
24
1
2
4
8
12
16
24
並列数
|10
SCRYU/Tetra®ベンチマーク1
 ソフトウェアクレイドル製 熱流体解析ソフト
SCRYU/Tetra®のベンチマークを実施した。
– SCRYU/Tetra® V10 8月版
– 添え字の意味
IBEP = IvyBridgeEP
SBEP = SandyBridgeEP
ii
= Intel® Compiler + Intel® MPI v4.1.1.036
ih
= Intel® Compiler + Platform Computing MPI v8.2
– SCRYU/Tetra®に関する詳細は
http://www.cradle.co.jp/products/scryutetra.html
©2013 Software Cradle
|11
SCRYU/Tetra®ベンチマーク2
 SCRYU/Tetra® V10で2つのケースのベンチマークを実施した。
– Full05g :自動車空力(1500万要素)
– v7f1mdl:自動車空力(3000万要素)
 結果
– 並列数が低い場合にはSBEPが優勢だが、並列数を上げるとIBEPが逆
転する。
TIME:Full05g
TIME:v7f1mdl
1800
3000
1600
2500
1400
2000
1000
IBEP_ii
800
IBEP_ih
600
SBEP_ii
400
SBEP_ih
IBEP_ii
1500
IBEP_ih
SBEP_ii
1000
SBEP_ih
500
200
0
0
1
2
4
8
並列数
©2013 Software Cradle
TIME[sec]
TIME[sec]
1200
12
16
24
1
2
4
8
12
16
24
並列数
|12
SCRYU/Tetra®ベンチマーク3
 下図は並列無しの場合を基準にし、並列演算時の速度向上倍率を示
したもの。
 IBEPはSBEPよりも並列演算効率が良いことを見て取れる。
– SCRYU/Tetra®でもIBEPがSBEPよりも並列効率が良い。特に24並列
で20倍を超えていることは非常に評価できる。
v7f1mdl並列演算時の速度向上倍率
25
25
20
20
15
IBEP_ii
IBEP_ih
10
倍率
倍率
Full05g並列演算時の速度向上倍率
15
IBEP_ii
IBEP_ih
10
SBEP_ii
5
SBEP_ih
0
SBEP_ii
5
SBEP_ih
0
1
2
4
8
並列数
©2013 Software Cradle
12
16
24
1
2
4
8
12
16
24
並列数
|13
Fly UP