Comments
Description
Transcript
IvyBridgeEP ベンチマーク
IvyBridgeEP ベンチマーク SandyBridgeEP(SBEP)とIvyBridgeEP(IBEP)の比較 2013年11月 株式会社ソフトウェアクレイドル システムG 阿部 ©2013 Software Cradle |1 ベンチマーク実施環境 IvyBridgeEP機 – 筐体 – OS – CPU DELL™ PowerEdge™ R720 Bios 2.0.11 CentOS6.4-kernel2.6.32-358.el6.x86_64 Intel® Xeon® [email protected],12CORE*2CPU,TurboBoost有効 – MEM DDR3-1600MHz , 8GB*16 SandyBridgeEP機 – OS CentOS6.2-kernel2.6.32-220.17.1.el6.x86_64 – CPU Intel® Xeon® [email protected],8CORE*2CPU,TurboBoost有効 – MEM DDR3-1600MHz , 4GB*8 開発環境(CPUcache,メモリベンチマーク用) – Compiler – MPI Intel® C/C++,Intel® Fortran v13.1.3.192 Intel® MPI v4.1.1.036 STREAM、およびSCRYU/Tetraは、日本における株式会社ソフトウェアクレイドルの登録商標です。 本資料で使用するその他の会社名、商品名・サービス名は、各社の商標または登録商標です。 ©2013 Software Cradle |2 MemoryBandwidth (Triad) メモリ帯域を測定するベンチマークを実施した。 – HPCChallengeにも使われているSTREAMというベンチマークプログ ラムを使用した。 – メインメモリの帯域を測定することができる。 – MPIで並列にメモリを読み書きする。1MPIプロセスあたり1GBを読み 書きする。 – 詳細は http://www.cs.virginia.edu/stream/ ©2013 Software Cradle |3 MemoryBandwidth (Triad) 結果 – メモリモジュールのスペックは同等だが、SBEPとIBEPで挙動に差がある。 – 特に並列数を増やした時にSBEPは8並列程度で頭打ちになるがIBEPではも う少し伸びる。 – 総帯域はIBEPが上回る。 BandWidth:Triad 100000 90000 BandWidth[MB/s] 80000 70000 60000 50000 Triad_SBEP 40000 Triad_IBEP 30000 20000 10000 0 1 2 4 8 10 12 16 24 並列数 ©2013 Software Cradle |4 CPUcache,MemoryのLatency測定 L1,L2,L3キャッシュとメインメモリのLatencyを測定し、 SandyBridgeEPとIvyBridgeEPで比較した。 結果(Latencyが小さいほど優秀) – – CPUキャッシュではSBEPが優勢(memory_depth30MB以下くらいの領域) メインメモリ(memory_depth30MB以上くらいの領域)ではIBEPが優勢になる。 latency_SBEP 80 70 70 60 60 50 stride_32 40 stride_64 30 stride_128 latency[nanosec] 80 50 stride_32 40 stride_64 30 stride_128 20 stride_256 20 stride_256 10 stride_512 10 stride_512 0 512B 8KB 20KB 32KB 56KB 96KB 160KB 256KB 448KB 768KB 1.25MB 2MB 3.5MB 6MB 10MB 16MB 28MB 48MB 80MB 128MB 224MB 0 512B 8KB 20KB 32KB 56KB 96KB 160KB 256KB 448KB 768KB 1.25MB 2MB 3.5MB 6MB 10MB 16MB 28MB 48MB 80MB 128MB 224MB latency[nanosec] latency_IBEP memory_depth memory_depth ©2013 Software Cradle |5 MemoryRandomAccess メインメモリのランダムアクセス性能を測定し、SandyBridgeEP とIvyBridgeEPで比較した。 – RandomAccessベンチマークの詳細はhttp://icl.cs.utk.edu/hpcc/ – GU/s=GigaUpdate per Second 結果 – ランダムアクセス性能もIBEPが良い。 StarRandomAccess IBEP memorysize[MB] ©2013 Software Cradle 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 SBEP IBEP 2 50 162 338 578 882 1250 1682 2178 2738 3362 4050 4802 5618 6498 7442 SBEP GUPS[GU/s] 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 2 50 162 338 578 882 1250 1682 2178 2738 3362 4050 4802 5618 6498 7442 GUPS[GU/s] SingleRandomAccess memorysize[MB] |6 メモリ周りのベンチマーク簡単なまとめ CPUキャッシュのLatencyはSBEPが上回る。動作クロックなりの 結果とも言える。 メインメモリへのアクセスではLatency、帯域、ランダムアクセス 性能共にIBEPがSBEPを上回る。 メモリモジュールの性能は同じものを使用していることからIBEP ではメモリコントローラーやその周辺の改善が伺える。 ©2013 Software Cradle |7 STREAM®ベンチマーク1 ソフトウェアクレイドル製 熱流体解析ソフト STREAM®のベンチマークを実施した。 – STREAM® V10 8月版を使用 – 添え字の意味 IBEP = IvyBridgeEP SBEP = SandyBridgeEP ii = Intel® Compiler + Intel® MPI v4.1.1.036 ih = Intel® Compiler + Platform Computing MPI v8.2 – STREAM®に関する詳細は http://www.cradle.co.jp/products/stream.html ©2013 Software Cradle |8 STREAM®ベンチマーク2 STREAM® V10で2つのケースのベンチマークを実施した。 – coli70mil:古代円形競技場(7000万要素) – st8ex2 : PC筐体(1200万要素) 結果 – 並列数が低い場合にはSBEPが優勢だが、並列数を上げるとIBEPが逆 転する。 TIME:st8ex2_1200m TIME:coli70mil 16000 14000 10000 IBEP_ii 8000 IBEP_ih 6000 SBEP_ii 4000 SBEP_ih 2000 0 1 2 4 8 並列数 ©2013 Software Cradle 12 16 24 TIME[sec] TIME[sec] 12000 2000 1800 1600 1400 1200 1000 800 600 400 200 0 IBEP_ii IBEP_ih SBEP_ii SBEP_ih 1 2 4 8 12 16 24 並列数 |9 STREAM®ベンチマーク3 下図は並列無しの場合を基準にし、並列演算時の速度向上倍率を示 したもの。 IBEPはSBEPよりも並列演算効率が良いことを見て取れる。 – STREAM®はメモリ性能の影響を大きく受けるため、メモリ周りの性 能が向上したIBEPで、SBEPより良い結果が出たと考えられる。 coli70mil並列演算時の速度向上倍率 st8ex2並列演算時の速度向上倍率 12 12 10 10 8 IBEP_ii 6 IBEP_ih 倍率 倍率 8 IBEP_ii 6 IBEP_ih 4 SBEP_ii 4 SBEP_ii 2 SBEP_ih 2 SBEP_ih 0 0 1 2 4 8 並列数 ©2013 Software Cradle 12 16 24 1 2 4 8 12 16 24 並列数 |10 SCRYU/Tetra®ベンチマーク1 ソフトウェアクレイドル製 熱流体解析ソフト SCRYU/Tetra®のベンチマークを実施した。 – SCRYU/Tetra® V10 8月版 – 添え字の意味 IBEP = IvyBridgeEP SBEP = SandyBridgeEP ii = Intel® Compiler + Intel® MPI v4.1.1.036 ih = Intel® Compiler + Platform Computing MPI v8.2 – SCRYU/Tetra®に関する詳細は http://www.cradle.co.jp/products/scryutetra.html ©2013 Software Cradle |11 SCRYU/Tetra®ベンチマーク2 SCRYU/Tetra® V10で2つのケースのベンチマークを実施した。 – Full05g :自動車空力(1500万要素) – v7f1mdl:自動車空力(3000万要素) 結果 – 並列数が低い場合にはSBEPが優勢だが、並列数を上げるとIBEPが逆 転する。 TIME:Full05g TIME:v7f1mdl 1800 3000 1600 2500 1400 2000 1000 IBEP_ii 800 IBEP_ih 600 SBEP_ii 400 SBEP_ih IBEP_ii 1500 IBEP_ih SBEP_ii 1000 SBEP_ih 500 200 0 0 1 2 4 8 並列数 ©2013 Software Cradle TIME[sec] TIME[sec] 1200 12 16 24 1 2 4 8 12 16 24 並列数 |12 SCRYU/Tetra®ベンチマーク3 下図は並列無しの場合を基準にし、並列演算時の速度向上倍率を示 したもの。 IBEPはSBEPよりも並列演算効率が良いことを見て取れる。 – SCRYU/Tetra®でもIBEPがSBEPよりも並列効率が良い。特に24並列 で20倍を超えていることは非常に評価できる。 v7f1mdl並列演算時の速度向上倍率 25 25 20 20 15 IBEP_ii IBEP_ih 10 倍率 倍率 Full05g並列演算時の速度向上倍率 15 IBEP_ii IBEP_ih 10 SBEP_ii 5 SBEP_ih 0 SBEP_ii 5 SBEP_ih 0 1 2 4 8 並列数 ©2013 Software Cradle 12 16 24 1 2 4 8 12 16 24 並列数 |13