Comments
Description
Transcript
最新事例とベンチマーク結果から学ぶ クラウドHPCの実力
最新事例とベンチマーク結果から学ぶ クラウドHPCの実力 アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト 松尾康博 ソリューションアーキテクト 小川貴士 © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. アジェンダ • HPC on AWSが求められる背景 • 自工会様による評価結果のご紹介 • HPC on AWSの最新事例と技術詳細 Who am I ? • 名前 • 所属 • 経歴 – 松尾康博 – アマゾンウェブサービスジャパン株式会社 – ソリューションアーキテクト – 製造業のHPC、CAE、ビッグデータ解析等を担当 – – – – – 九州大学でスパコンの効率化研究 SIerで 分散キューの開発・導入、分散処理研究 Web系スタートアップCTO SIerで仮想化基盤の研究・導入・運用 現職 HPCに求められる計算機環境 • • • • コア数制限無く最適な環境(CPU/OS/etc.)を使いたい 待ち時間を短縮してほしい 計算機クラスタの管理・更改が面倒 解析結果を共有してコラボレーションしたい キュー(待ち時間)は見えないコスト(損失) 立場による目的の相違 • HPC利用者は出来る限り早く計算結果を得たい • 様々なジョブがある(コア数、計算時間) • ITインフラチームは稼働率を高めようとする 結果: ? • キューが計算資源の調整弁になる • 待ち時間を含めたジョブ完了時刻の予測は困難 • ユーザはジョブ投入数を妥協し、きめ細やかなシ ミュレーションが行われなくなる ジョブ単体の速度とジョブのスループット ユーザ満足度、業務効率の面で有利なのは? コア数有限(オンプレ) 1週間 コア数無制限(クラウド) 1日 HPCインフラとしてAWSが選ばれる背景 • Scale and Elasticity – 必要な時に待たずに必要なキャパシティを利用。従量課金。 • Code as Infrastructure – コードとして定義することでクラスタ環境の用意を自動化 • Ability to Experiment – いつでも様々な実験、テストを、並列に繰り返し、実行できる – 失敗のリスクを最低限に抑えることができる 膨大なリソース要求に答えるインフラ 12 のリージョン 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. US EAST (Virginia) US WEST (N. California) US WEST 2 (Oregon) EU WEST (Ireland) JAPAN (Tokyo) South America (Sao Paulo) ASP 1 (Singapore) ASP 2 (Sydney) GovCloud BJS 1 (Beijing China) limited preview EU (Frankfurt) Seoul (2016年1月 NEW) 33 のアベイラビリティ・ゾーン 54 のエッジロケーション ※2017年にかけてカナダ、中国寧夏、インド、オハイオ、イギリスにもリージョン開設予定 Scale and Elaticity 18 時間 205,000 個の分子分析ジョブ 156,314 コア(ピーク時) 2.3M コア時間( 264コア年) トータル費用: $33,000 EC2インスタンスタイプ X1 様々なスペックの仮想マシンをご用意 Memory (GiB) • 244 コアあたりのメモリ大 122 60 バランスのとれた 汎用インスタンス 30 16 コア性能重視 8 4 2 小規模向け 1 1 2 4 https://aws.amazon.com/jp/ec2/instance-types/ 8 16 32+ vCPU 10 高性能インスタンスの変遷 CC1 CC2 C3 C4 vCPU 16 32 32 36 RAM (GiB) 23 60.5 60 60 CPU Xeon X5570 (Nehalem) Xeon E5-2670 (Sandy Bridge) Xeon E5-2680v2 Xeon E5-2666v3 (Ivy Bridge) (Haswell) NIC 10Gbps 10Gbps 10Gbps 10Gbps Launch Date Jul, 2010 Nov, 2011 Nov, 2013 Jan, 2015 既存のOS/アプリ/ミドルウェアが利用可能 開発言語・アプリケーション・ミドルウェア OS × AWSをHPCとして使う際の懸念点 • 計算性能 • セキュリティ • 構築と運用 この後のJAMA様の発表にて! この後のJAMA様の発表にて! 後半にご説明! 日本自動車工業会様 CAEクラウド評価タスクとその結果 一般社団法人 日本自動車工業会 電子情報員会デジタルエンジニアリング部会 次世代スパコン検証WG CAEクラウド調査タスク 本田技研工業株式会社 IT本部システム基盤部インフラ推進ブロックチーフ 多田歩美様 © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2016年6月3日 : AWS Summit Tokyo 2016 自動車業界におけるCAEクラウド利用に向けた取組みとベンチマーク結果のご紹介 一般社団法人 日本自動車工業会 電子情報委員会 デジタルエンジニアリング部会 次世代スパコン検証WG CAEクラウド調査タスク リーダー 多田歩美 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 アジェンダ ・自工会ご紹介 ・2014年 調査フェーズ ・ 本タスク発足の背景 ・ CAEクラウド調査タスク体制 ・ 本タスク活動開始時の課題と狙い ・ 2014年度活動内容振り返り ・2015年 利用確認フェーズ ・ CAEクラウド調査タスク体制 ・ 2015年度目標・スケジュール ・ CSP性能調査 ・ セキュリティ ・まとめ ~2016年の活動に向けて(活用フェーズ) ・最後に・・・ Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 自工会のご紹介 名称: 一般社団法人 日本自動車工業会(略称:自工会) Japan Automobile Manufacturers Association, Inc.(略称:JAMA) 所在地: 〒105-0012 東京都港区芝大門1-1-30 日本自動車会館 設立: 1967年(昭和42年)4月3日 目的: 本会は、我が国の自動車工業の健全な発達を図り、 もって経済の発展と国民生活の向上に寄与すること。 東京MOTOR SHOW 2015 主催 http://www.jama.or.jp/intro/summary.html SMART MOBILITY CITY 2015 主催 自動車工業 の発展に 貢献してます Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 自工会の組織と本タスクの位置づけ ※2016年3月現在の組織体制です http://www.jama.or.jp/intro/organize/index.html DE統括分科会 標準企画タスク 標準維持タスク 3DAMS・JIS化検討タスク LTAR WG 3D図面活用検討WG デジタルエンジニアリング部会 -デジタルエンジニアリング部会 基本理念個社では解決できない課題に業界として取り組み 業界を超えた標準化による基盤強化と 将来動向を踏まえた先端技術の実用検証により 質の高い新たな日本の「ものづくり」をリードする 次世代スパコン検証WG 今後とも ご協力を お願致します 10年後のスーパーコンピュータ環境を 想定したシミュレーション技術の可能性 について研究・検証 CAEクラウド調査タスク CAEのクラウド利用に関する先行調査 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2014年 調査フェーズ ~CAEクラウド調査タスク体制 CAEクラウドの ビジネス活用に向けて 取り組み開始! タスクリーダー 2014 調査 フェーズ 2015 利用確認 フェーズ 2016 活用 フェーズ 3つのフェーズで 「CAEクラウドの良い活用」 を目指す ~ CAEクラウド調査タスク活動フェーズ ~ Step1 調査: 現状分析・調査 Step2 利用確認: 利用確認と課題の洗い出し Step3 活用: 理想のCAEクラウドを描く Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2014年 調査フェーズ ~本タスク発足の背景(1/2) • CAE(H/W)リソース制約からの開放 →解析利用の変動に応じたリソース調達を実現したい! →研究開発の自由度を高めたい! 構想設計 車両開発A 1次元解析 基本設計・詳細設計 構造・衝突・流体解析 試作 実験 よしっ! クラウドを 活用しよう 金型解析等・・・ 車両開発B 車両開発C リソース不足 CAEリソース上限 CAEリソース リソース不足 リソース不足をどう 補おうか・・・ CAE計算が できないよ! Cloud CAE向けパブリッククラウドの進出 一時的に大量リソースを必要とする場合は 「CAEクラウド」 を活用していく Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2014年 調査フェーズ ~本タスク発足の背景(2/2) 本タスク発足前(2014年度前)は上位WGである「次世代スパコン検証WG」 の中でクラウド活用が検討されていた。 トライアルBMの結果では本CFD計算においては CFD解析計算時間 実用レベル まで向上 time Ethernetを用いたクラウド環境でも「2013年末時点の サービスレベル」が 社内環境※とほぼ同等の計算速度に近づきつつある ことが確認できた。 ※社内環境・・・XeonE5-2670,InfiniBand QDR 2011年末時点のサービスレベル 2013年末時点のサービスレベル 社内環境 社内環境との性能差はなくなってきたけど、 「セキュリティは?」 「コストは?」 大丈夫? CAE用途で用いることができるクラウドを共同で調査・検証し、 自動車向けCAEクラウドサービスの底上げと調査の効率化を図ることを 目的として昨年度(2014年度)発足・活動がスタートした。 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2014年 調査フェーズ ~本タスク活動開始時の課題と狙い なぜCAE領域ではクラウドの利用が進んでいないのか? ビジネス系でのクラウド利用との大きな違いは? S/W契約には 利用制約・制限 がありますよ! 高速のCPU(コア) 大量・高速のメモリ ノード間高速通信 (InfiniBand等) 環境構築には 専門スキルが 必要ですよ! 大量の計算ノード ソフトウェア ベンダ様 これらを満たす要件のクラウドサービスのコストは高い! ITサポート ベンダ様 サーバーリソースを常に100%使うCAE・・・。ビジネス系のリソースとは特性に違いがある 自工会各社がCAEクラウドを利用できるような仕組みにしていくだけでなく、 技術的な観点にも注目し、サービス提供各社様とディスカッションをしながら ユーザーとしてCAEクラウド利用のビジネスモデルをリードしていく。 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2014年 調査フェーズ ~活動内容振り返り(1/2) • 目指したもの: “クラウドサービス”全般に対する理解を深め、みんなが狙いたいCAEクラウドサービスの理想像を 描いたり、評価を行えるだけの材料を集める。 クラウド を知る クラウド 全体像 各CSPの サービス を知る クラウド 調査項目 1年後・・・ • クラウドサービスプロバイダー様(CSP) クラウドサービス内容の調査項目を作成 ディスカッション実施。 結果:自工会各社がクラウドサービスに対して気になる点を洗い出し、共通した調査項目を策定 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2014年 調査フェーズ ~活動内容振り返り(2/2) • 調査残項目 CSP性能評価 S/Wも ご検討ください オンプレと 比較しよう! 自社CAEテストデータ SWベンダ各社様とのディスカッション 各CSP提供のクラウドサービス 善処・改善 致します 自工会 SWベンダ様 CAEクラウドを使ってみる(構造・流体・衝突解析) SWベンダ様への提言とご協力のお願い (S/Wもクラウド活用しやすくなる為に) 最新情報のキャッチアップ セキュリティの確保(安全性・信頼性) • 活動した中で見えてきた課題 最新情報を ウォッチ! クラウドサービスは日進月歩! 常に最新の情報をキャッチアップ する必要がある! 安全性は 大丈夫? 本タスクだけで評価基準作成や情報収集をする のではなく、JAMAとして横串での活動も必要。 これらの項目を順次、2015年度以降の活動内で実施していくこととした。 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~CAEクラウド調査タスク体制 2014年度から活動を開始し、2年目。 いすゞ様が加わり自工会11社、ベンダー様は12社にご協力をいただいて推進いたしました。 タスクリーダー CSP+ITサポートベンダ CSP様 SWベンダ ANSYS 他CSP 3社 ITサポートベンダ様 CD-adapco Dassault JSOL CDH SCSK MSC Software 掲載位置は順不同です。 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~目標・スケジュール • 目標:残調査項目となっていたものの対応 本日はAWSで実施した ベンチマーク結果を 共有します ① CSP性能調査(実データによるベンチマーク) (実際に各社の環境でCAE計算を実行し、課題・問題点を探る) ② 主要SWベンダ各社様とのディスカッション (要件整理と今後のクラウド対応の考え方についての意見交換会 2015年度タスク活動スケジュール(実績) タスク目標(課題) ①CSP性能調査 ②SWベンダ各社様 とのディスカッション Q1 4 5 協力ベンダーへの 説明 ディスカッション① Q2 6 7 自工会内 準備 (BMモデル等) 8 Q3 9 10 Q4(2016年) 11 12 CSP様ベンチマーク環境準備・ 実施・報告 ディスカッション② ディスカッション③ 1 2 3 自工会内まとめ まとめ Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~CSP性能調査 (ベンチマーク対象アプリとデータ仕様) ISV 主要4社 からご協力 頂きました 自工会各社から構造・衝突・流体それぞれ以下のような計算モデ ルを提供し、協力会社の皆様から多大なご協力を頂きました。 MSC Nastran LS-DYNA BMTデータ 提出データ1 (SOL111 AMLS) 提出データ2 (SOL111 ACMS) BMTデータ 提出データ1 提出データ2 (3cars) 並列数 計算時間 2~8 ~3.25h モデルサイズ 解析タイプ 480万自由度 モーダル周波数 応答解析 備考 自工会メンバー自社データ - 3.4h 並列数 32~256 計算時間(目安) ~ モデルサイズ 450万要素 解析タイプ 側突 32~128 ~0.9h 82万要素 3cars 並列数 計算時間(目安) モデルサイズ 解析タイプ 備考 256 4.3h 6,800万要素 空力解析 自工会メンバー自社データ 6,380万要素 熱流体解析 CD-Adapco様モデル 300万要素 混相流解析 CD-Adapco様モデル 10,400万要素 空力解析 CD-Adapco様モデル モデルサイズ 2300万 440万 解析タイプ 空力定常解析 空力非定常解析 備考 自工会メンバー自社データ 自工会メンバー自社データ 備考 自工会メンバー自社データ 汎用ベンチ マークモデル Star-CCM+ BMTデータ 提出データ1 Star-CCM+ ANSYS Fluent 提出データ2 (アンダーフードモデル) 提出データ3 (KCS船体モデル) 提出データ4 (ルマンモデル) BMTデータ 提出データ1 提出データ2 64,128,256 64,128,256 64,128,256 並列数 64~256 64~256 100イタレーション (スケーラビリティ確認のため) 100イタレーション (スケーラビリティ確認のため) 100イタレーション (スケーラビリティ確認のため) 計算時間(目安) ~4.6h ~11h Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~CSP性能調査:AWS(BM環境) 東京リージョン インターネット経由SSH データ転送はSCP SSH/SCP PCoIP File Server License License Node1 Node2 NFS Placement Group 172.31.16.0/20 Placement Group 計算用ノード 計算ノード 計算ノード インターネット経由 – C4.8xlarge PCoIP VPC Subnet VPC Subnet – R3.8xlarge 可視化ノード G2.2xlarge • 管理系ノード – NFS:C4.xlarge インターネット経由 • OS +500GiB EBS – RHEL6.6 Power – License:t2.micro On CD-adapco管理の (2.6.32Demand ライセンスサーバ • 可視化ノード 504.3.3.el6.x86_64) – G2.2xlarge 28 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 • 2015年 利用確認フェーズ ~CSP性能調査 (全CSP BM結果考察まとめ 1/2) MSC Nastran ・全クラウドがデータ提出元オンプレ環境に対して計算時間が遅かった。 (クロック速度の影響もあったと推測する) NASTRAN特有(コア潰し・スクラッチ領域等)のチューニングは必要。 (CPU世代選びよりもハードウェアチューニングの方が重要) + 高速CPU S/Wにあわせて 特有の設定が 必要だな + 大量・高速のメモリ チューニング LS-DYNA ・計算並列数を上げるとインターコネクト種類の違いによる性能差が顕著に表れるため、高並列計算を実行する 場合は、CPU性能だけでなくノード間通信速度も考慮する必要がある。 大量・高速CPU + ノード間低遅延インターコネクト Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~CSP性能調査 (全CSP BM結果考察まとめ 2/2) Star-CCM+ ・InfiniBand搭載しているCSPはEthernetより10%程度速い。また、コア飛ばしの効果は5%程度。 ・仮想化による計算時間のゆらぎはほとんどない。クラウドでの実行はオンプレミスの環境と遜色ない。ハード ウェア仕様によっては早くなる。 + + 大量・高速のメモリ 大量・高速CPU ANSYS Fluent ノード間高速インターコネクト (Infiniband) ・InfiniBand搭載のサービスでもEthernet搭載のものより計算が遅くなる場合が見られた。 計算の種類およびサービス種類(CPU/仮想・物理)の組合せによってはEthernetでも 十分な性能がでることがある。 ・スケーラビリティは今回の最大並列実行数である256まで出ているところが多い。 必ずしもInfiniband が早いとは限らないね + 大量・高速CPU 大量・高速のメモリ Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~CSP性能調査 (総括) 総括: ・AWSをはじめ、各クラウドともに 概ね計算時間は許容範囲。 ・計算サーバの仮想化に起因する「計算時間のゆらぎ」はほぼない。 ・CSPによってサービス種類(CPU/インターコネクト/仮想・物理)やMPI、 組み合わせ・費用が異なり、また、計算時間も計算内容・ソルバーにも依存 するため、 ”一律でこのCSPがベスト”という結論は出せない。 MSC Nastran LS-DYNA SWの アドバイス します SW ベンダ様 STAR-CCM+ ANSYS Fluent CAEクラウドを使いたい時は・・・ 社内IT管理者 CAEエンジニア ITサポート ベンダ様 構築の アドバイス します 「CAEクラウドサービス利用」は「従来のリソース確保=H/Wリソースを購入する」感覚とはまったく別物 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~セキュリティ(1/4) クラウド(DataCenter)は安全なのか・・・・? 重要データの持ち出しや紛失 リスクがありそうで 重要データ 重要データを をクラウドへ クラウドに出すのは 保管したい… 不安・・・ 自然災害 スキミング 成りすまし ウィルス汚染 (クラッキング) Internet DataCenter 個人情報やユーザ ディレクトリの機密 漏えい 契約終了時 の データ消去 DCへの不当進入 CSPの皆様にご協力いただき、「クラウドセキュリティ他業界調査」を実施。 不正侵入・データ流出に対する防御手段として、スタンダードな方法を把握したい。 データセキュリティに対し厳しい業界の「基準」を知りたい Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~セキュリティ(2/4) 基準に厳しい3業界のセキュリティの考え方の調査を実施。 ⇒業界や用途によっても基準や対策レベルは異なることがわかった。 ⇒「自社のポリシーと利用用途にマッチした具体的な対策」 を検討する必要がある AWS様も ホワイトペーパー等で セキュリティに関する 情報を出しているの で参考にしよう! http://aws.amazon.com/jp/compliance/ https://aws.amazon.com/jp/whitepapers/ Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~セキュリティ(3/4) さらに、ここで改めて不安に感じているリスクをみてみると、、、、 これらのリスクは「クラウド」だから起こるリスクなのでしょうか? リスクがありそうで 重要データを クラウドに出すのは スキミング 不安・・・ 重要データの持ち出しや紛失 自然災害 成りすまし Internet ウィルス汚染 (クラッキング) DataCenter 個人情報や ユーザディレクト リの機密漏えい 契約終了時の データ消去 DCへの不当進入 天災・人災…オンプレもクラウドも、どんな環境でも「100%安全」はありえません。どんなリスクが あるのかを理解し、事が起きた時にどう対応するのかを考えておくことが大事です。 つまり、「自社のセキュリティポリシーを参考に実際の利用用途に応じてしっかりとリスク評価をし、 具体的な対策を考え、実施する」ことが重要となる! Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 2015年 利用確認フェーズ ~セキュリティ(4/4) では、クラウド利用をする上ではどうやってリスクを把握していく必要があるのでしょうか? クラウドサービスを利用する上で重要な考え方:責任共有モデル 特にクラウドサービスにおいては、利用者が責任を持つ範囲と、クラウドサービスプロバイダ (CSP)が責任を持つ範囲を明確に区分し、それぞれが責任を果たすために必要な対策を 実施することでサービス全体のセキュリティを保つという考えが大事です。 利用者自身でクラウドセキュリティの コントロールを実施する範囲 クラウドにおける セキュリティは利用者がコントロール AWSはクラウドの セキュリティを管理 AWSがクラウドのセキュリティを 担当する範囲 AWSホワイトペーパー「Introduction to AWS Security July 2015」より抜粋 https://d0.awsstatic.com/whitepapers/Security/Intro_to_AWS_Security.pdf Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 まとめ ~2016年の活動に向けて CSP性能評価について • 今回調査した各CSP様の各サービスを含むCAEクラウド環境は「使えるレベル」まで向上。 • SWの計算特性に合わせたサービス種類(Infini・Ethernet/CPU/仮想・物理)の組み合わ せが大事。事前にSWベンダ様・ITサポートベンダ様へ相談が必要です。 セキュリティについて • CSPが保有するセキュリティの第三者認証の銘柄を信頼するだけではなく、「CSP/自社の責任 範囲を明確にし、自社にマッチした具体的なセキュリティ対策」を検討する事が大事。 • デジタルエンジニアリング特有のセキュリティの考え方は大きな課題。 Cloud Service 2014年は「調査」、2015年は「利用(確認)」とステップを進めてきました。 2016年は「活用」に向けた仕上げの活動を実施します。 「活用(ビジネス)」に向けて引き続き皆様のご協力をお願い致します。 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 最後に・・・AWS様へのお願い 1.契約締結までのリードタイム短縮対策 BMテストをするだけでも契約(主にNDA)にかなり時間を要した。 法務部門間の条項調整に時間がかかる場合があるので 契約書のサンプルが事前に入手できるようにしてほしい。 2.低遅延インターコネクト(Infiniband等の設置) 大量のノードを利用する計算時は低遅延ネットワークが重要。 CAEクラウドサービスの充実性を図るため、ご検討をお願い致します。 3.CAEクラウドサービスの全体最適化に向けた取組み 即時利用を目指すにはCAEサービス全体のコーディネートが 重要になってくる。SaaS形体で提供されるようなサービス拡 充が進むことを期待している。 (関係各社一体となり、CAEクラウドサービス向上にむけて の協力をお願い致します。) CSP様 ネットワーク ITサポート ベンダ様 べンダ様 ISV様 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 ご参考 • JAMA電子情報委員会およびデジタルエンジニアリング部会では年に1回 (2~3月頃)に各活動の成果報告会を実施しています。 案内告知などはJAMAサイトに掲載されますので、ご興味のある方は定期的にチ ェックされることをお勧めします。 • 2015年度のフォーラムの開催報告(発表資料)は以下に掲載してありますの で、ご覧ください。 http://www.jama.or.jp/it/event/jdf2016/report/index.html • その他、デジタルエンジニアリングに関する活動成果物の一部は 以下に掲載してありますので、合わせてご覧ください。 http://www.jama.or.jp/it/dg_egr/index.html Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 引き続きJAMA活動へのご理解とご協力を 宜しくお願い致します。 Copyright (C) Japan Automobile Manufacturers Association, Inc.2016 一般社団法人 日本自動車工業会 電子情報員会デジタルエンジニアリング部会 次世代スパコン検証WG CAEクラウド調査タスク 本田技研工業株式会社 IT本部システム基盤部インフラ推進ブロックチーフ 多田歩美様 アジェンダ • HPC on AWSが求められる背景 • 自工会様による評価結果のご紹介 • HPC on AWSの最新事例と技術詳細 Who am I 名前:小川 貴士 (おがわ たかし) 所属:アマゾンウェブサービスジャパン ソリューションアーキテクト CAEを中心としたHPCのお客様を担当 経歴: SIerでインフラエンジニア 長年に渡りCAE/HPCインフラの 設計構築・運用サポート・プリセールスを担当 ←AWSオンラインセミナーの企画運営もやってます! AWSテクノロジのキャッチアップに是非ご活用下さい。 HPC on AWS 事例 多様な分野で使われるHPC on AWS 先端研究 設計・開発 ライフサイエンス エネルギー クラウドHPCで起こされるイノベーション HGST ピーク時85000コアを同時利用し従来1か月 掛かる計算を数時間で完了 Walt Disney Animation Studios オンプレミスの拡張リソースでAWSを利用 最大40000coreのリソースをコアあたり $0.02/hで利用 NOVARTIS ピーク時90000コアを同時利用し38年分の 計算処理を9時間で完了 最先端の研究基盤として HEP (High Energy Physics) Cloud project フェルミ研究所のオンプレミス 環境に58000コアを伸縮自在 に追加する環境を構築。 290万ジョブを処理し、従来 6週間かかるシミュレーション を10日間で完了 https://aws.amazon.com/jp/blogs/news/ experiment-that-discovered-the-higgs-boson-uses-aws-to-probe-nature/ Fermilab HEP Cloud 稼働中の様子 如何にして使うのか How to use HPC for AWS ? 従来のHPC環境 社内サーバルーム or データセンター環境 sshアクセス Internet VPN or 専用線 自社オフィス 環境 ログイン ライセンス サーバ ノード マスターサーバ NFSサーバ 計算ノード AWSでも基本的なシステム構成は同じ AWSクラウド環境 sshアクセス Internet VPN or 専用線 自社オフィス 環境 ログイン ライセンス サーバ ノード マスターサーバ NFSサーバ 計算ノード 違いは 必要な時に必要なだけ利用すること 従来のクラスタ 構成は固定 Elastic Data Center ジョブが無い時は 最小限のノード M ジョブが 無ければ 無駄発生 Corporate Data Center 違いは 必要な時に必要なだけ利用すること 従来のクラスタ 構成は固定 必要に応じて 必要な台数で クラスタを構成 Elastic Data Center M ジョブが 無ければ 無駄発生 Corporate Data Center 違いは 必要な時に必要なだけ利用すること 従来のクラスタ 構成は固定 Elastic Data Center M ジョブが 無ければ 無駄発生 Corporate Data Center 処理が終了すると インスタンスを終了 課金停止 CLIやAPIで aws ec2 run-instances \ --image-id ami-f8832490 \ --key-name id_rsa \ --security-group-ids sg-6128f804 \ --instance-type c4.8xlarge \ --subnet-id subnet-52484126 \ --count 3 \ --region us-east-1 2016年2月 NICE社がAWSにJoin + https://aws.amazon.com/jp/blogs/news/amazon-web-services-to-acquire-nice/ 可視化もクラウドで • Rendering on Linux g2.2xlarge • r3 application server running Windows, up to 244 GB of RAM Remote rendering delivers 3D graphics performance and large memory, providing a high-end workstation experience in the cloud. どうやって始めるのか How to start AWS for HPC ? AWS HPCポータルサイト https://aws.amazon.com/jp/hpc/ HPCホワイトペーパー AWS上で最適なHPC環境を構築・運用する 為のベストプラクティスが記載された1冊。 基礎概念からシステム構成例をはじめ セキュリティ、ISVの扱いについても触れて います。 https://d0.awsstatic.com/International/ja_JP/Whitepapers/Intro_to_HPC_on_AWS.pdf HPCユーザーコミュニティ <JAWS-UG HPC専門支部> http://jawsug-hpc.connpass.com/ 昨年8月発足し、過去5回開催! 次回は来週6/10(金)開催予定!! ツールを活用する CfnCluster ジョブ本数を監視して計算ノードを自動でスケールさせる クラスターを簡単に構成 マスター&計算ノードのOS: -CentOS -Ubuntu -Amazon Linux ジョブスケジューラ: -Torque -SGE -OpenLava -SLURM https://aws.amazon.com/hpc/cfncluster/ HPC on AWS パートナーを活用する 構築運用を頼む システムインテグレーター アプリケーションを使う SaaS環境提供ベンダー HPC SaaS on AWS 事例 ISID PLEXUS CAE https://portal.plexusplm.com/plexus-cae まとめ 性能 クラウドHPCを阻む不安材料 セキュリティ エコシステム キャパシティ 実績 まとめ 性能 セキュリティ エコシステム キャパシティ 実績 アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト 松尾康博 ソリューションアーキテクト 小川貴士