Comments
Description
Transcript
補足資料 - スケーラブルシステムズ株式会社
並列処理におけるIO処理の問題 補足資料 クラスタ利用時のボトルネック クラスタ⇒パラレルコンピューティング⇒ パラレルI/Oが必要 一般的なNAS パラレルストレージ ストレージに対する単一 のデータパス ストレージに対するパラ レルなデータパス スケーリング スケーラビリティ 限定されたIOバンド幅 高いIOバンド幅 システム拡張の限界 グローバルネームスペー ス 柔軟性の欠如 容易な運用管理 高価なシステム構成 低価格 スケーラブルシステムズ株式会社 Panasasストレージクラスタ DirectFLOW クライアントS/W •クライアントからの同時アクセスを並列に処理可能 • RedHat,SUSEなどの主要なLinuxディストリビューショ ンで利用可能 • pNFSにも対応可能 スケーラブルな NFS/CIFS/NDMPサーバ • 負荷を自動的にストレージクラスタ全体に分散 • クライアント数の増加に合わせてスケーラブルな性能増強 が可能 • 全てのDirectorBladeが全てのファイルにアクセス可能 シングルネームスペース • 同一データへのいずれのプロトコルでのアクセスも可能 • シングルファイルシステム • DirectFLOW/NFS/CIFS/NDMP間での完全なコヒレンシ の実現 • 非Linuxのデバイスをシステムに統合 • グローバルネームスペースによるシステムの容易な拡張と 運用の容易さ オブジェクトベース • 優れたスケーラビリティ、信頼性、運用管理 • Panasas Tiered Parityによるデータ保護の強化 スケーラブルシステムズ株式会社 CAEにおけるI/Oボトルネック CAEでのシングルジョブのI/O処理の比重 1999: Desktops Typical overnight job – single thread read = 10 min compute = 14 hrs write = 35 min 2004: SMP Servers 5% I/O 注意: 以下の推定ではジョブのI/O時間は一定で、並列処理によって、非I/O処理部分の時 間は短縮されると仮定しています...... 8-way 10 min 1.75 hrs I/O significant 35 min 30% I/O I/O-bound – growing bottleneck 35 min 63% I/O 2009: HPC Clusters 10 min 32-way 26 min 注意: I/O処理部分に関して、性能向上や並列化などの改善がないという極端な仮定での推定であり、実際の CAEでのシングルジョブのI/O処理を完全にシュミレーションした結果ではありません。 スケーラブルシステムズ株式会社 並列処理でのI/O処理の課題 • IO処理 – 遂次処理の典型であり、I/O処理自身を並列に 処理することが高いスケーラビリティの実現 のためには必須 • 並列処理でのI/O処理の課題(問題点) – マルチスレッド(マルチプロセッサ)を利用 する並列アプリケーションの実行時の課題 – 複数ジョブの同時実行における課題 スケーラブルシステムズ株式会社 アムダールの法則 • 実行時間 = 逐次処理 + 並 列処理 逐次処理部分の比率によるスケー ラビリティの限界 70 60 0.00% speedup 50 0.50% 1.00% 40 5.00% 10.00% 30 理論的な性能向上の限界 • 実行時間 = 逐次処理 + 並 列処理時/P 50.00% 20 10 0 1 8 16 24 32 processors 40 48 56 64 • 64プロセッサで50倍の性 能向上を得るには、逐次 処理部分を0.5% 以下に する必要がある I/O処理は遂次処理の典型であり、I/O処理自身を並列に処理することが 高いスケーラビリティの実現のためには必須である スケーラブルシステムズ株式会社 アムダールの法則 並列処理での性能向上の上限値(スケーリング) (1-P) P/∞ (1-P) Tserial P Tparallel = {(1-P) + P/n} Tserial + O n = number of processors Scaling = Tserial / Tparallel プログラムの逐次処理部分(非並列処理)部分の排除が必要 例えば、n=8, P = 0.8 の場合 Scaling = 1.0 / (0.2 + 0.1) = 3.3 スケーラブルシステムズ株式会社 アプリケーションの並列実行 シングル スレッド8 スレッド7 スレッド6 スレッド5 スレッド4 スレッド3 スレッド2 スレッド1 例えば、n=8, P = 0.8 の場合 Scaling = 1.0 / (0.2 + 0.1) = 3.3 スレッド8 スレッド7 スレッド6 プログラムの逐次処理部分(非並列処 理)部分の排除が必要 スレッド5 スレッド4 スレッド3 スレッド2 スレッド1 IO部分を並列処理す ることで、2.4倍の性 能向上が可能 計算処理部分 IO処理部分 スケーラブルシステムズ株式会社 FLUENT: Serial I/O (6.2) 64-way 128-way 192-way 50000 Elapsed Time in Seconds 46145 37572 37500 1時間から 3時間に増加 10.5時間から 3時間に短縮 並列度を上げる メリットは? 3088131625 25000 16357 12500 9670 6848 4120 1時間から 3時間に増加 10667 11288 7676 4453 0 File Read Solve File Write Total Time 90 M Cells Source: Barb Hutchings Presentation at SC06, Nov 2006, Tampa, FL スケーラブルシステムズ株式会社 FLUENT: Serial I/O (6.2) vs. Parallel I/O (6.4/12-beta) 64-way Elapsed Time in Seconds 50000 46145 128-way クラスタ導入の メリットは? 192-way 44479 より多くのIO にも対応可能 38656 37500 30881 31625 10.5時間から 3時間に短縮 25000 23266 17442 17582 12500 11759 PanFSは、 Serial I/O に 対して3倍以 上の性能( 192コア) より多くのI/O でもスケーラ ブルな性能 を実現 0 6.2 - Serial I/O PanFS - 1 Write PanFS - 100 Writes 90 M Cells Panasas導入による並列処理の劇的な向上 Source: Barb Hutchings Presentation at SC06, Nov 2006, Tampa, FL スケーラブルシステムズ株式会社 STAR-CD v4 性能評価 14000 12000 2666 18% その他(NFS) ソルバー(NFS) その他(PanFS) ソルバー(PanFS) 688 Number of cells 19,921,786 Solver CGS, Steady Iterations 500 total iterations - data save after every 10 iters Each solution output (50 total) ~1,500 MB 10000 8000 6000 10509 2340 32% 10441 488 4000 2000 5085 2409 5121 75% 349 0 2326 2350 32並列(32コア) 並列度(コア数)が大きくなるに伴って、非ソ ルバー部分の比重が大きくなる ↓ アムダールの法則(非並列部分が性能を左右) ↓ 並列IO処理などによる非並列計算部分の削減が 重要 64並列(64コア) 128並列(128コア) この性能評価はPanasas社とインテル社が、インテル社のクラスタシステム(2048コア)を利用して計測した性能です。 File Systems -- Panasas,: 7 shelves, 35 TB storage;(各シェルフは、4xGbE接続でトータル 2.8GB/sec のバンド幅) NFS: Dell 2850 File Server, 6 x 146 GB SCSI drives, RAID 5 スケーラブルシステムズ株式会社 STAR-CD v4 性能評価 25000 4495 20000 その他(NFS) ソルバー(NFS) その他(PanFS) ソルバー(PanFS) 24% 17M Cell CFD model 173 Number of cells 16,930,109 Solver CGS, Single Precision Iterations 300 total iterations – data save after every 100 iters Total solution output ~48 GB 15000 10000 18323 3144 18212 32% 134 5000 9196 4079 9212 85% 172 0 4462 4455 64並列(64コア) 並列度(コア数)が大きくなるに伴って、非ソ ルバー部分の比重が大きくなる ↓ アムダールの法則(非並列部分が性能を左右) ↓ 並列IO処理などによる非並列計算部分の削減が 重要 128並列(128コア) 256並列(256コア) この性能評価はPanasas社とインテル社が、インテル社のクラスタシステム(2048コア)を利用して計測した性能です。 File Systems -- Panasas,: 7 shelves, 35 TB storage;(各シェルフは、4xGbE接続でトータル 2.8GB/sec のバンド幅) NFS: Dell 2850 File Server, 6 x 146 GB SCSI drives, RAID 5 スケーラブルシステムズ株式会社 マルチジョブでのIO処理 IO処理が逐次的に実行され、ジョブのIO処理時は他のジョブは処理の終了を待つ Job1 Jon2 Jon3 Job4 Job5 Job6 Job7 問題点① 経過時間が伸びる 問題点② ジョブ毎に処理 時間が異なる Job8 各ジョブが同時にIO処理を行うことが可能な場合には、IO待ちによる遅延は発生しない Job1 Jon2 Jon3 Job4 Job5 Job6 Job7 Job8 複数ジョブの同時IO処理に 対応可能なシステムでのIO 処理 計算処理部分 IO処理部分 スケーラブルシステムズ株式会社 Abaqusマルチジョブ性能 Abaqus/Standard 6.8-3: Comparison of PanFS vs. Local FS Ext2 Average Times for 8 Jobs, Each 16 Cores; Mem 90% PanFS Local FS Total Time in Seconds 2000 1500 1294 1000 Average of 8 Jobs 1360 Average of 8 Jobs Lower is better 5M DOF Engine Block 500 0 NOTE: PanFS and Local FS difference ~ 5% 8 Jobs x 16 Nodes x 128 Cores Average Times for 8 Jobs | Each Job on 2 Nodes | Each Job on 16 Cores | Total 128 Cores スケーラブルシステムズ株式会社 お問い合わせ 0120-090715 携帯電話・PHSからは(有料) 03-5875-4718 9:00-18:00 (土日・祝日を除く) WEBでのお問い合わせ www.sstc.co.jp/contact この資料の無断での引用、転載を禁じます。 社名、製品名などは、一般に各社の商標または登録商標です。なお、本文中で は、特に® 、TMマークは明記しておりません。 In general, the name of the company and the product name, etc. are the trademarks or, registered trademarks of each company. Copyright Scalable Systems Co., Ltd. , 2009. Unauthorized use is strictly forbidden. 12/10/2009 スケーラブルシステムズ株式会社