Comments
Description
Transcript
Intel 社の最新技術を使用して 構造解析を高速化
ソリューション Intel 社の最新技術を使用して 構造解析を高速化 Windows ユーザーのハイパフォーマンスコンピューティングニーズに対応する 最新の ANSYS 16.0 と Xeon テクノロジー Wim Slagter (ANSYS, リードプロダクトマネージャー) , Jeff Beisheim (ANSYS, リードソフトウェア開発者) ANSYS の構造解析ソフトウェアを利用している企業は,信頼 性の高い設計をできるだけ迅速に開発するために必要な精度,効 率,スループットを手に入れたいと考えています.ANSYS は Intelプロセッサ ファミリー 反復ソルバーの ベンチマーク 直接法ソルバー のベンチマーク E5 (Sandy Bridge) 1,408秒 1,067秒 E5 v3 (Haswell) 1,117秒 535秒 Intel 社と協力し,こうした企業が最新の Intel® Xeon® E5 v3 プ ロセッサと Xeon Phi ™コプロセッサを使用してシミュレーション の負荷を確実に処理できるよう支援しています. 構造解析では.多くの場合,メモリ,ディスクスペース,I/O などの大量の計算リソースが必要になり,このことが計算時間に 影響します.CPU クロックの高速化は 10 年前と比べるとペース が鈍り,計算速度を維持するために CPU の高速化をあてにする ことはできなくなりました.新しい性能向上の枠組みは,大量の CPU コアを使用する並列計算です.このコア数が数年ごとに増 えていき,1 クロックサイクル当たりの計算量が増加したことで, 構造解析ソフトウェアのパフォーマンスが大幅にアップしました. しかし,エンジニアはメッシュ密度や非線形挙動を増やすなどし てモデルを複雑化したり,単に大量のシミュレーションを所定の 時間内に行ったりすることができるよう,常にシミュレーション 非常によく似た2つのシステム上でANSYS 16.0を使用し,ベンチマークス イートを実行した.一方のシステムには,2つのIntel Xeon E5-2670(Sandy Bridge,2.6GHz,合計16個のコア)プロセッサが,もう一方のシステムには,2つの Intel Xeon E5-2697 v3(Haswell,2.6GHz,合計28個のコア)プロセッサが搭載 されている.表に示した時間は,1個,2個,4個,8個,16個のコアを使用して行っ た各ベンチマークの総所要時間の幾何平均を用いて求めたものである.これによ り,HaswellシステムがE5 v2に比べ,反復ソルバーのベンチマークで平均20%,直 接法ソルバーのベンチマークで平均40%速いということが分かった. 時間を最小限に抑えようとしています. 構造解析を高速化する 1 つの方法は,入手できる最新のハー ドウェアをフル活用することです.コンピュータ業界では,CPU 当たりの計算コア数の増加,統合 I/O プロセッサ(高メモリ帯 Intel Xeon E5 v3 プロセッサの利用 20 年前から並列処理をサポートしている ANSYS の構造解析 域幅を実現) ,増設・高速メモリ(チャネル) ,大容量 L3 キャッ 製品では,マルチコアプロセッサ / クラスターを効率的に使用 シュサイズ,高速ディスクストレージ(ANSYS Mechanical では してシミュレーションを高速化することができます.ANSYS は ソリッドステートドライブなど) ,高速インターコネクト,Intel ANSYS 16.0 のリリースで,Intel 社の最新のプロセッサ技術を利 Advanced Vector Extensions 2(AVX2)サポートなど,プラッ 用できる機能を追加することによって,自社製品への投資を継続 トフォームの機能を絶えず強化し,計算性能の大幅な向上を図っ 的に行っています. ています.Intel 社と ANSYS は,ANSYS のソリューションでこ れらの高度なハードウェアを活用できるようにするために継続的 に協力しています. Intel 社の最新の Xeon E5 v3 プロセッサにより,ANSYS ユー ザーはシミュレーション時間を大幅に短縮できるようになりま エンジニアはモデルを複雑化したり,単に大量のシミュレーションを所定の 時間内に行ったりすることができるよう,常にシミュレーション時間を 最小限に抑えようとしています. 52 ANSYS Advantage • Volume IX, Issue 2, 2015 INTEL社のソリッドステートドライブにより, 製品の設計とシミュレーションの生産性向上を 実現(英語) ansys.com/92coprocessor す.これは主に,追加コア(最大 18 個) , Intel AVX2 サポート,大容量 L3 キャッ シ ュ( 最 大 35MB) , 高 速 メ モ リ( 最 大 2,133MHz) を 利 用 で き る か ら で す. ANSYS Mechanical 16.0 は,Intel 社の E5 v3 世代プロセッサ(コードネーム: Haswell)に対して優れた性能を発揮しま す.この E5 v3 システムは E5 v2 に比べ, 反復ソルバーのベンチマーク(一般に,メ モリ帯域速度を評価するのに適した指標) で平均 20%,直接法ソルバーのベンチマー ク(一般に,生の計算速度を評価するのに 適した指標)で平均 40% 速いという結果 が出ています. Intel Xeon Phi コプロセッサの利用 最先端の高度なハードウェアを活用して ります.ただし,このコプロセッサはグラ らず, (高速化が可能な場合は)速く フィックス向けのものではなく,映像出力 ならなければならない . • Xeon Phi によって,解析の精度が低 端子(HDMI やディスプレイポートなど) エンジニアリングシミュレーション技術の を備えていません.各 Xeon Phi コプロセッ 高速化を図っている ANSYS は,ANSYS サには,1 テラフロップ以上の計算能力を 下してはならない. 13.0 のリリース以降,NVIDIA 社と協 力 持つ約 60 個のコアのほか,広いメモリ帯 ANSYS の構造解析シミュレーションを して,汎用グラフィックプロセッシングユ 域幅を提供する 8 ~ 16GB の GDDR5 メモ Xeon Phi コプロセッサで高速化するには, ニット(GPU)上で動作する並列ソルバー リが搭載されています.この新しいハード ソフトウェアで GPU アクセラレーター機能 を開発し,リリースしています.GPU を使 ウェアアクセラレーターは,構造解析の高 を有効にします.Xeon Phi は他の実行モデ 用して,流体解析,構造解析,電磁界解析 速化を実現する可能性を秘めています. ルにも対応しますが,このコプロセッサを使 実装 最も自然な選択でした.ANSYS の構造解析 を高速化し,ANSYS のハイパフォーマン スコンピューティング(HPC)機能の価値 を高めることができるようになりました. Intel 社は先ごろ,ハイエンド GPU と似 用するためには,GPU アクセラレーターが ANSYS は,構造解析製品で Xeon Phi ソフトウェアのスパース直接法ソルバーはデ コプロセッサをサポートするための実装に フォルトのソルバーであり,あらゆるタイプ 着手する前に,以下の要件を設定しました. の解析に一般的に利用されているため,この た設計を持つコプロセッサ「Xeon Phi シ リーズ」をリリースしました.Xeon Phi シリーズは,PCI Express スロットに挿 線形方程式ソルバーが最良の出発点となりま • ユーザーエクスペリエンスを単純明快 した. なものにする. 入して使用するフルサイズのカードであ • Xeon Phi ハードウェアによって,シ ANSYS Mechanical 15.0 では,Xeon Phi り,少なくとも 200W の電力が余計にかか ミュレーション速度が遅くなってはな コプロセッサを利用できるものの,Linux ® ANSYS 16.0 — 効率とロバスト性 ANSYS は,ANSYS 16.0 のリリース以降,継続的な 投資を行い,構造解析の効率とロバスト性の向上に 取り組み続けています. 計算手法の改良が,シミュレーションの高速化とロバ スト性向上をもたらします. • 様々な機能強化を行い,非線形解析の収束性を改善 分散メモリ並列計算の分野で様々な改良を行いました. • 特にコア数の多いケースで高速化と拡張性向上が図 れるよう,領域分割法を大幅に改良 • 新しい機能を追加し,イナーシャリリーフ,QRDAMP 固有値抽出法(モーダル解析) , モード重ね合わせ法(周 波数応答・過渡解析)に対応 • スパースソルバーを改良して,多数のジョブをインコ アモードで実行できるようにし,ソルバー性能を改善 ANSYS Advantage • Volume IX, Issue 2, 201553 ソリューション 7 シミュレーションに対するハイパフォーマンス コンピューティングの価値 2つのCPUコア 2 CPU cores 6 ansys.com/92value 5.8 2 CPU cores + +Xeon PhiPhi 2つのCPUコア Xeon 16 CPU cores 16個のCPUコア 16 CPU cores ++22つのXeon Xeon PhisPhi 16個のCPUコア 5.1 5 ロセッサの使用数を設定することもできま す.–na N の N は,0 よりも大きい整数値 高速化 Speedup を表します(デフォルトでは,ソフトウェ アは 1 つのコプロセッサを使用します) . 4.0 4 3.4 3.2 3 2.8 2.8 ANSYS Workbench の ユ ー ザ ー は, [Solve Process Settings] の [Advanced 2.7 2.3 2 3.3 3.1 3.0 2.2 2.0 Properties] ページで GPU アクセラレー ションオプションを変更することで,解 析時に GPU アクセラレーター機能を簡単 1.2 に有効にすることができます.関連する 1 ドロップダウンボックスで INTEL を選択 してから,シミュレーションで使用する 0 V16ln-2 V16sp-2 V16sp-3 V16sp-4 V16sp-5 シミュレーション全体の時間短縮係数(Intel Xeon PhiコプロセッサとANSYS Mechanical 16.0を使用) Xeon Phi コプロセッサ数を指定します. この機能を有効にする場合は,コプロセッ サごとに 1 つの HPC ライセンスを追加す る必要があります. ベンチマーク V16in-2 V16sp-2 V16sp-3 V16sp-4 V16sp-5 GPU アクセラレーター機能を有効にす ると,Xeon Phi ハードウェアを自動的に シミュレー ションの 種類 周波数の 低い方から 50個の固有値の モーダル解析 非線形・ 過渡・ 構造解析 調波構造 解析 非線形・ 静的・ 構造解析 非線形・ 過渡・ 構造解析 使用して,解析を可能な限り高速化するこ とができます.ユーザーの入力は不要です. 高速化できない場合は,CPU コアが引き 続き使用され,Xeon Phi 機能は解析の進 行に何の影響も及ぼしません. 方程式の数 200万個 470万個 170万個 320万個 600万個 性能 ANSYS は,ANSYS Mechanical の一連 の標準ベンチマークを実施して,性能デー タを収集しました.このベンチマークで Intel社の最新のXeon E5 v3プロセッサにより, ANSYSユーザーはシミュレーション時間を大幅に 短縮できるようになります. は,128GB の RAM のほか,合計 16 個の CPU コアを実装した 2 つの Intel E5-2670 (2.6GHz)プロセッサが 搭 載され ている Windows 7 x 64 SP1 ベースのワークス テーションを使用しました.このワークス テーションには,2 つの Xeon Phi 7120A コプロセッサを組み込みました. これらのベンチマークの結果を確認した ところ,Xeon Phi を使用することによっ す.ほぼすべての ANSYS ユーザー(各計算 ハイパフォーマンスコンピューティングに関する 6つの誤解 ansys.com/92myth プラットフォーム上の共有メモリ並列処理 に適用が限定されていました.しかし,一 般 に 共 有 メモリ並 列 処 理 よりも 分 散 メモ リ並列処理の方が解析を高速化できます. て,常にある程度の高速化が図れることが ノードに 1 つ以上のコプロセッサを搭載した 分かりました.しかし,高速化の度合いは, クラスターにアクセスするユーザーを含む) ベンチマークによって大きく異なるほか, が Xeon Phi コプロセッサを利用して構造解 使用された CPU コアの数によっても差が 析を高速化できるようになりました. 出ます.たとえば,2 つの CPU コアと 1 Xeon Phi アクセラレーションの利用 ANSYS Mechanical で Xeon Phi ハード つの Xeon Phi コプロセッサを使用した場 合には,2 つの CPU コアのみの場合に比 べて,シミュレーション全体の速度が平均 2.1 倍になりました. ま た,ANSYS の 構 造 解 析 ソ フ ト ウ ェ ア ウェアを使用できるようにするには,コマ は,Windows ® プラットフォーム上で実行 ンドライン引数のリストに – acc intel オ され ることも 少 なくありま せ ん.ANSYS プションを追加し,ソフトウェアを起動し また,16 個の CPU コアと 2 つの Xeon Mechanical 16.0 では,Linux と Windows の た後すぐに GPU アクセラレーター機能が Phi コプロセッサを使用した場合には,16 両方のプラットフォーム上で共有メモリ / 分 有効になるようにします.また,–na N オ 個の CPU コアのみの場合に比べて, シミュ 散メモリ並列処理を実行することができま プションを用いることで,Xeon Phi コプ レーション全体の速度が平均 1.4 倍に向上 54 ANSYS Advantage • Volume IX, Issue 2, 2015 しました.この性能はベンチマークごとに シミュレーションによっては,Xeon Phi うした取り組みにより,複雑化が進むシ 異なるため,Xeon Phi コプロセッサを利 を利用した高速化の度合いが大きくなる場 ミュレーションを企業が短時間で実行でき 用した高速化に最も有効な構造解析モデ 合があります.ANSYS Mechanical を使 るようになり,その結果,革新的でロバス ルを把握するには,いくつかのガイドライ 用したシミュレーションでは,以下の場合 トな製品を市場に投入し,競争優位を確立 ンが必要になります. に高速化の度合いが大きくなります. することが可能になります. 利用ガイドライン Xeon Phi コプロセッサを利用すること で得られる高速化の度合いは,使用する ハードウェアとシミュレーションするモデ • スパースソルバーがインコアメモリ モードで実行されている場合 • 生成された行列のサイズが 200 万個の 方程式よりも大きい場合 Intel 社と ANSYS は今後も協力し,最 適化された信頼性の高い高付加価値ソ リューションを継続的に提供していきたい と考えています.Xeon Phi コプロセッサ ルによって大きく異なります.こうしたガ • モデルが 3 次元の場合,モデルの形状 などの新しいタイプのハードウェアアクセ イドラインは,コプロセッサによって解析 が大きめまたは厚めの場合,モデルが ラレーターでは,そのアクセラレーターデ を高速化できるかどうかを判断するのに役 高次要素で構成される場合,またはモ バイスにオフロードできる計算の量が制 立つ可能性があります. デルに特定の種類の境界条件(拘束 限されることが主な問題となります.今後 方程式など)が含まれる場合 の Xeon Phi 製品では,大量の計算を高速 一般に,より新しく,より高速な CPU ハードウェアを使用すると,Xeon Phi カー ドによって得られる高速化の度合いが小さ くなります.また,Xeon Phi コプロセッ 継続的なコラボレーションにより, 価値の向上を実現 ANSYS では,ハードウェアベンダーが サ当たりの CPU コア数を増やすことも, 提供する計算能力の向上に合わせて,この 高速化の度合いが小さくなる原因になりま 新技術の可能性を最大限に引き出してい す.1 つ以上のコプロセッサを指定した場 きたいと考えています.また,様々なベン 合には,有効なすべてのコプロセッサを使 ダーが並列ハードウェアを提供している現 用することができますが,Xeon Phi コプ 在,ANSYS の開発者は,ソフトウェアで ロセッサ当たりのプロセス数は,性能上の 多くのアルゴリズムを並列化し続けていま 理由から,最大 8 個に制限されています. す.構造シミュレーションにおいては,こ 化できる機能を搭載したり,PCI Express チャネル経由でこのデバイスにデータを転 送する必要があるという制約を取り除いた りすることを目指しています. INTELプラットフォーム上でANSYS MECHANICAL 16.0を使用(英語) ansys.com/92accelerate ANSYS Advantage • Volume IX, Issue 2, 201555