...

Intel 社の最新技術を使用して 構造解析を高速化

by user

on
Category: Documents
13

views

Report

Comments

Transcript

Intel 社の最新技術を使用して 構造解析を高速化
ソリューション
Intel 社の最新技術を使用して
構造解析を高速化
Windows ユーザーのハイパフォーマンスコンピューティングニーズに対応する
最新の ANSYS 16.0 と Xeon テクノロジー
Wim Slagter
(ANSYS,
リードプロダクトマネージャー)
,
Jeff Beisheim
(ANSYS,
リードソフトウェア開発者)
ANSYS の構造解析ソフトウェアを利用している企業は,信頼
性の高い設計をできるだけ迅速に開発するために必要な精度,効
率,スループットを手に入れたいと考えています.ANSYS は
Intelプロセッサ
ファミリー
反復ソルバーの
ベンチマーク
直接法ソルバー
のベンチマーク
E5
(Sandy Bridge)
1,408秒
1,067秒
E5 v3
(Haswell)
1,117秒
535秒
Intel 社と協力し,こうした企業が最新の Intel® Xeon® E5 v3 プ
ロセッサと Xeon Phi ™コプロセッサを使用してシミュレーション
の負荷を確実に処理できるよう支援しています.
構造解析では.多くの場合,メモリ,ディスクスペース,I/O
などの大量の計算リソースが必要になり,このことが計算時間に
影響します.CPU クロックの高速化は 10 年前と比べるとペース
が鈍り,計算速度を維持するために CPU の高速化をあてにする
ことはできなくなりました.新しい性能向上の枠組みは,大量の
CPU コアを使用する並列計算です.このコア数が数年ごとに増
えていき,1 クロックサイクル当たりの計算量が増加したことで,
構造解析ソフトウェアのパフォーマンスが大幅にアップしました.
しかし,エンジニアはメッシュ密度や非線形挙動を増やすなどし
てモデルを複雑化したり,単に大量のシミュレーションを所定の
時間内に行ったりすることができるよう,常にシミュレーション
非常によく似た2つのシステム上でANSYS 16.0を使用し,ベンチマークス
イートを実行した.一方のシステムには,2つのIntel Xeon E5-2670(Sandy
Bridge,2.6GHz,合計16個のコア)プロセッサが,もう一方のシステムには,2つの
Intel Xeon E5-2697 v3(Haswell,2.6GHz,合計28個のコア)プロセッサが搭載
されている.表に示した時間は,1個,2個,4個,8個,16個のコアを使用して行っ
た各ベンチマークの総所要時間の幾何平均を用いて求めたものである.これによ
り,HaswellシステムがE5 v2に比べ,反復ソルバーのベンチマークで平均20%,直
接法ソルバーのベンチマークで平均40%速いということが分かった.
時間を最小限に抑えようとしています.
構造解析を高速化する 1 つの方法は,入手できる最新のハー
ドウェアをフル活用することです.コンピュータ業界では,CPU
当たりの計算コア数の増加,統合 I/O プロセッサ(高メモリ帯
Intel Xeon E5 v3 プロセッサの利用
20 年前から並列処理をサポートしている ANSYS の構造解析
域幅を実現)
,増設・高速メモリ(チャネル)
,大容量 L3 キャッ
製品では,マルチコアプロセッサ / クラスターを効率的に使用
シュサイズ,高速ディスクストレージ(ANSYS Mechanical では
してシミュレーションを高速化することができます.ANSYS は
ソリッドステートドライブなど)
,高速インターコネクト,Intel
ANSYS 16.0 のリリースで,Intel 社の最新のプロセッサ技術を利
Advanced Vector Extensions 2(AVX2)サポートなど,プラッ
用できる機能を追加することによって,自社製品への投資を継続
トフォームの機能を絶えず強化し,計算性能の大幅な向上を図っ
的に行っています.
ています.Intel 社と ANSYS は,ANSYS のソリューションでこ
れらの高度なハードウェアを活用できるようにするために継続的
に協力しています.
Intel 社の最新の Xeon E5 v3 プロセッサにより,ANSYS ユー
ザーはシミュレーション時間を大幅に短縮できるようになりま
エンジニアはモデルを複雑化したり,単に大量のシミュレーションを所定の
時間内に行ったりすることができるよう,常にシミュレーション時間を
最小限に抑えようとしています.
52
ANSYS Advantage • Volume IX, Issue 2, 2015
INTEL社のソリッドステートドライブにより,
製品の設計とシミュレーションの生産性向上を
実現(英語)
ansys.com/92coprocessor
す.これは主に,追加コア(最大 18 個)
,
Intel AVX2 サポート,大容量 L3 キャッ
シ ュ( 最 大 35MB)
, 高 速 メ モ リ( 最
大 2,133MHz) を 利 用 で き る か ら で す.
ANSYS Mechanical 16.0 は,Intel 社の
E5 v3 世代プロセッサ(コードネーム:
Haswell)に対して優れた性能を発揮しま
す.この E5 v3 システムは E5 v2 に比べ,
反復ソルバーのベンチマーク(一般に,メ
モリ帯域速度を評価するのに適した指標)
で平均 20%,直接法ソルバーのベンチマー
ク(一般に,生の計算速度を評価するのに
適した指標)で平均 40% 速いという結果
が出ています.
Intel Xeon Phi コプロセッサの利用
最先端の高度なハードウェアを活用して
ります.ただし,このコプロセッサはグラ
らず,
(高速化が可能な場合は)速く
フィックス向けのものではなく,映像出力
ならなければならない .
• Xeon Phi によって,解析の精度が低
端子(HDMI やディスプレイポートなど)
エンジニアリングシミュレーション技術の
を備えていません.各 Xeon Phi コプロセッ
高速化を図っている ANSYS は,ANSYS
サには,1 テラフロップ以上の計算能力を
下してはならない.
13.0 のリリース以降,NVIDIA 社と協 力
持つ約 60 個のコアのほか,広いメモリ帯
ANSYS の構造解析シミュレーションを
して,汎用グラフィックプロセッシングユ
域幅を提供する 8 ~ 16GB の GDDR5 メモ
Xeon Phi コプロセッサで高速化するには,
ニット(GPU)上で動作する並列ソルバー
リが搭載されています.この新しいハード
ソフトウェアで GPU アクセラレーター機能
を開発し,リリースしています.GPU を使
ウェアアクセラレーターは,構造解析の高
を有効にします.Xeon Phi は他の実行モデ
用して,流体解析,構造解析,電磁界解析
速化を実現する可能性を秘めています.
ルにも対応しますが,このコプロセッサを使
実装
最も自然な選択でした.ANSYS の構造解析
を高速化し,ANSYS のハイパフォーマン
スコンピューティング(HPC)機能の価値
を高めることができるようになりました.
Intel 社は先ごろ,ハイエンド GPU と似
用するためには,GPU アクセラレーターが
ANSYS は,構造解析製品で Xeon Phi
ソフトウェアのスパース直接法ソルバーはデ
コプロセッサをサポートするための実装に
フォルトのソルバーであり,あらゆるタイプ
着手する前に,以下の要件を設定しました.
の解析に一般的に利用されているため,この
た設計を持つコプロセッサ「Xeon Phi シ
リーズ」をリリースしました.Xeon Phi
シリーズは,PCI Express スロットに挿
線形方程式ソルバーが最良の出発点となりま
• ユーザーエクスペリエンスを単純明快
した.
なものにする.
入して使用するフルサイズのカードであ
• Xeon Phi ハードウェアによって,シ
ANSYS Mechanical 15.0 では,Xeon Phi
り,少なくとも 200W の電力が余計にかか
ミュレーション速度が遅くなってはな
コプロセッサを利用できるものの,Linux ®
ANSYS 16.0 — 効率とロバスト性
ANSYS は,ANSYS 16.0 のリリース以降,継続的な
投資を行い,構造解析の効率とロバスト性の向上に
取り組み続けています.
計算手法の改良が,シミュレーションの高速化とロバ
スト性向上をもたらします.
• 様々な機能強化を行い,非線形解析の収束性を改善
分散メモリ並列計算の分野で様々な改良を行いました.
• 特にコア数の多いケースで高速化と拡張性向上が図
れるよう,領域分割法を大幅に改良
• 新しい機能を追加し,イナーシャリリーフ,QRDAMP
固有値抽出法(モーダル解析)
,
モード重ね合わせ法(周
波数応答・過渡解析)に対応
• スパースソルバーを改良して,多数のジョブをインコ
アモードで実行できるようにし,ソルバー性能を改善
ANSYS Advantage • Volume IX, Issue 2, 201553
ソリューション
7
シミュレーションに対するハイパフォーマンス
コンピューティングの価値
2つのCPUコア
2 CPU cores
6
ansys.com/92value
5.8
2 CPU cores + +Xeon
PhiPhi
2つのCPUコア
Xeon
16 CPU cores
16個のCPUコア
16 CPU cores ++22つのXeon
Xeon PhisPhi
16個のCPUコア
5.1
5
ロセッサの使用数を設定することもできま
す.–na N の N は,0 よりも大きい整数値
高速化
Speedup
を表します(デフォルトでは,ソフトウェ
アは 1 つのコプロセッサを使用します)
.
4.0
4
3.4
3.2
3
2.8
2.8
ANSYS Workbench の ユ ー ザ ー は,
[Solve Process Settings] の [Advanced
2.7
2.3
2
3.3
3.1
3.0
2.2
2.0
Properties] ページで GPU アクセラレー
ションオプションを変更することで,解
析時に GPU アクセラレーター機能を簡単
1.2
に有効にすることができます.関連する
1
ドロップダウンボックスで INTEL を選択
してから,シミュレーションで使用する
0
V16ln-2
V16sp-2
V16sp-3
V16sp-4
V16sp-5
シミュレーション全体の時間短縮係数(Intel Xeon PhiコプロセッサとANSYS Mechanical 16.0を使用)
Xeon Phi コプロセッサ数を指定します.
この機能を有効にする場合は,コプロセッ
サごとに 1 つの HPC ライセンスを追加す
る必要があります.
ベンチマーク
V16in-2
V16sp-2
V16sp-3
V16sp-4
V16sp-5
GPU アクセラレーター機能を有効にす
ると,Xeon Phi ハードウェアを自動的に
シミュレー
ションの
種類
周波数の
低い方から
50個の固有値の
モーダル解析
非線形・
過渡・
構造解析
調波構造
解析
非線形・
静的・
構造解析
非線形・
過渡・
構造解析
使用して,解析を可能な限り高速化するこ
とができます.ユーザーの入力は不要です.
高速化できない場合は,CPU コアが引き
続き使用され,Xeon Phi 機能は解析の進
行に何の影響も及ぼしません.
方程式の数
200万個
470万個
170万個
320万個
600万個
性能
ANSYS は,ANSYS Mechanical の一連
の標準ベンチマークを実施して,性能デー
タを収集しました.このベンチマークで
Intel社の最新のXeon E5 v3プロセッサにより,
ANSYSユーザーはシミュレーション時間を大幅に
短縮できるようになります.
は,128GB の RAM のほか,合計 16 個の
CPU コアを実装した 2 つの Intel E5-2670
(2.6GHz)プロセッサが 搭 載され ている
Windows 7 x 64 SP1 ベースのワークス
テーションを使用しました.このワークス
テーションには,2 つの Xeon Phi 7120A
コプロセッサを組み込みました.
これらのベンチマークの結果を確認した
ところ,Xeon Phi を使用することによっ
す.ほぼすべての ANSYS ユーザー(各計算
ハイパフォーマンスコンピューティングに関する
6つの誤解
ansys.com/92myth
プラットフォーム上の共有メモリ並列処理
に適用が限定されていました.しかし,一
般 に 共 有 メモリ並 列 処 理 よりも 分 散 メモ
リ並列処理の方が解析を高速化できます.
て,常にある程度の高速化が図れることが
ノードに 1 つ以上のコプロセッサを搭載した
分かりました.しかし,高速化の度合いは,
クラスターにアクセスするユーザーを含む)
ベンチマークによって大きく異なるほか,
が Xeon Phi コプロセッサを利用して構造解
使用された CPU コアの数によっても差が
析を高速化できるようになりました.
出ます.たとえば,2 つの CPU コアと 1
Xeon Phi アクセラレーションの利用
ANSYS Mechanical で Xeon Phi ハード
つの Xeon Phi コプロセッサを使用した場
合には,2 つの CPU コアのみの場合に比
べて,シミュレーション全体の速度が平均
2.1 倍になりました.
ま た,ANSYS の 構 造 解 析 ソ フ ト ウ ェ ア
ウェアを使用できるようにするには,コマ
は,Windows ® プラットフォーム上で実行
ンドライン引数のリストに – acc intel オ
され ることも 少 なくありま せ ん.ANSYS
プションを追加し,ソフトウェアを起動し
また,16 個の CPU コアと 2 つの Xeon
Mechanical 16.0 では,Linux と Windows の
た後すぐに GPU アクセラレーター機能が
Phi コプロセッサを使用した場合には,16
両方のプラットフォーム上で共有メモリ / 分
有効になるようにします.また,–na N オ
個の CPU コアのみの場合に比べて,
シミュ
散メモリ並列処理を実行することができま
プションを用いることで,Xeon Phi コプ
レーション全体の速度が平均 1.4 倍に向上
54
ANSYS Advantage • Volume IX, Issue 2, 2015
しました.この性能はベンチマークごとに
シミュレーションによっては,Xeon Phi
うした取り組みにより,複雑化が進むシ
異なるため,Xeon Phi コプロセッサを利
を利用した高速化の度合いが大きくなる場
ミュレーションを企業が短時間で実行でき
用した高速化に最も有効な構造解析モデ
合があります.ANSYS Mechanical を使
るようになり,その結果,革新的でロバス
ルを把握するには,いくつかのガイドライ
用したシミュレーションでは,以下の場合
トな製品を市場に投入し,競争優位を確立
ンが必要になります.
に高速化の度合いが大きくなります.
することが可能になります.
利用ガイドライン
Xeon Phi コプロセッサを利用すること
で得られる高速化の度合いは,使用する
ハードウェアとシミュレーションするモデ
• スパースソルバーがインコアメモリ
モードで実行されている場合
• 生成された行列のサイズが 200 万個の
方程式よりも大きい場合
Intel 社と ANSYS は今後も協力し,最
適化された信頼性の高い高付加価値ソ
リューションを継続的に提供していきたい
と考えています.Xeon Phi コプロセッサ
ルによって大きく異なります.こうしたガ
• モデルが 3 次元の場合,モデルの形状
などの新しいタイプのハードウェアアクセ
イドラインは,コプロセッサによって解析
が大きめまたは厚めの場合,モデルが
ラレーターでは,そのアクセラレーターデ
を高速化できるかどうかを判断するのに役
高次要素で構成される場合,またはモ
バイスにオフロードできる計算の量が制
立つ可能性があります.
デルに特定の種類の境界条件(拘束
限されることが主な問題となります.今後
方程式など)が含まれる場合
の Xeon Phi 製品では,大量の計算を高速
一般に,より新しく,より高速な CPU
ハードウェアを使用すると,Xeon Phi カー
ドによって得られる高速化の度合いが小さ
くなります.また,Xeon Phi コプロセッ
継続的なコラボレーションにより,
価値の向上を実現
ANSYS では,ハードウェアベンダーが
サ当たりの CPU コア数を増やすことも,
提供する計算能力の向上に合わせて,この
高速化の度合いが小さくなる原因になりま
新技術の可能性を最大限に引き出してい
す.1 つ以上のコプロセッサを指定した場
きたいと考えています.また,様々なベン
合には,有効なすべてのコプロセッサを使
ダーが並列ハードウェアを提供している現
用することができますが,Xeon Phi コプ
在,ANSYS の開発者は,ソフトウェアで
ロセッサ当たりのプロセス数は,性能上の
多くのアルゴリズムを並列化し続けていま
理由から,最大 8 個に制限されています.
す.構造シミュレーションにおいては,こ
化できる機能を搭載したり,PCI Express
チャネル経由でこのデバイスにデータを転
送する必要があるという制約を取り除いた
りすることを目指しています.
INTELプラットフォーム上でANSYS
MECHANICAL 16.0を使用(英語)
ansys.com/92accelerate
ANSYS Advantage • Volume IX, Issue 2, 201555
Fly UP