...

補足資料 - スケーラブルシステムズ株式会社

by user

on
Category: Documents
19

views

Report

Comments

Transcript

補足資料 - スケーラブルシステムズ株式会社
並列処理におけるIO処理の問題
補足資料
クラスタ利用時のボトルネック
クラスタ⇒パラレルコンピューティング⇒ パラレルI/Oが必要
一般的なNAS
パラレルストレージ
ストレージに対する単一
のデータパス
ストレージに対するパラ
レルなデータパス
スケーリング
スケーラビリティ
限定されたIOバンド幅
高いIOバンド幅
システム拡張の限界
グローバルネームスペー
ス
柔軟性の欠如
容易な運用管理
高価なシステム構成
低価格
スケーラブルシステムズ株式会社
Panasasストレージクラスタ
DirectFLOW クライアントS/W
•クライアントからの同時アクセスを並列に処理可能
• RedHat,SUSEなどの主要なLinuxディストリビューショ
ンで利用可能
• pNFSにも対応可能
スケーラブルな NFS/CIFS/NDMPサーバ
• 負荷を自動的にストレージクラスタ全体に分散
• クライアント数の増加に合わせてスケーラブルな性能増強
が可能
• 全てのDirectorBladeが全てのファイルにアクセス可能
シングルネームスペース
• 同一データへのいずれのプロトコルでのアクセスも可能
• シングルファイルシステム
• DirectFLOW/NFS/CIFS/NDMP間での完全なコヒレンシ
の実現
• 非Linuxのデバイスをシステムに統合
• グローバルネームスペースによるシステムの容易な拡張と
運用の容易さ
オブジェクトベース
• 優れたスケーラビリティ、信頼性、運用管理
• Panasas Tiered Parityによるデータ保護の強化
スケーラブルシステムズ株式会社
CAEにおけるI/Oボトルネック
CAEでのシングルジョブのI/O処理の比重
1999: Desktops
Typical overnight job – single thread
read = 10 min
compute = 14 hrs
write = 35 min
2004: SMP Servers
5% I/O
注意: 以下の推定ではジョブのI/O時間は一定で、並列処理によって、非I/O処理部分の時
間は短縮されると仮定しています......
8-way
10 min
1.75 hrs
I/O significant
35 min
30% I/O
I/O-bound – growing bottleneck
35 min
63% I/O
2009: HPC Clusters
10 min
32-way
26 min
注意: I/O処理部分に関して、性能向上や並列化などの改善がないという極端な仮定での推定であり、実際の
CAEでのシングルジョブのI/O処理を完全にシュミレーションした結果ではありません。
スケーラブルシステムズ株式会社
並列処理でのI/O処理の課題
• IO処理
– 遂次処理の典型であり、I/O処理自身を並列に
処理することが高いスケーラビリティの実現
のためには必須
• 並列処理でのI/O処理の課題(問題点)
– マルチスレッド(マルチプロセッサ)を利用
する並列アプリケーションの実行時の課題
– 複数ジョブの同時実行における課題
スケーラブルシステムズ株式会社
アムダールの法則
• 実行時間 = 逐次処理 + 並
列処理
逐次処理部分の比率によるスケー
ラビリティの限界
70
60
0.00%
speedup
50
0.50%
1.00%
40
5.00%
10.00%
30
理論的な性能向上の限界
• 実行時間 = 逐次処理 + 並
列処理時/P
50.00%
20
10
0
1
8
16
24
32
processors
40
48
56
64
• 64プロセッサで50倍の性
能向上を得るには、逐次
処理部分を0.5% 以下に
する必要がある
I/O処理は遂次処理の典型であり、I/O処理自身を並列に処理することが
高いスケーラビリティの実現のためには必須である
スケーラブルシステムズ株式会社
アムダールの法則
並列処理での性能向上の上限値(スケーリング)
(1-P)
P/∞
(1-P)
Tserial
P
Tparallel = {(1-P) + P/n} Tserial + O
n = number of processors
Scaling = Tserial / Tparallel
プログラムの逐次処理部分(非並列処理)部分の排除が必要
例えば、n=8, P = 0.8 の場合
Scaling = 1.0 / (0.2 + 0.1) = 3.3
スケーラブルシステムズ株式会社
アプリケーションの並列実行
シングル
スレッド8
スレッド7
スレッド6
スレッド5
スレッド4
スレッド3
スレッド2
スレッド1
例えば、n=8, P = 0.8 の場合
Scaling = 1.0 / (0.2 + 0.1) = 3.3
スレッド8
スレッド7
スレッド6
プログラムの逐次処理部分(非並列処
理)部分の排除が必要
スレッド5
スレッド4
スレッド3
スレッド2
スレッド1
IO部分を並列処理す
ることで、2.4倍の性
能向上が可能
計算処理部分
IO処理部分
スケーラブルシステムズ株式会社
FLUENT: Serial I/O (6.2)
64-way
128-way
192-way
50000
Elapsed Time in Seconds
46145
37572
37500
1時間から
3時間に増加
10.5時間から
3時間に短縮
並列度を上げる
メリットは?
3088131625
25000
16357
12500
9670
6848
4120
1時間から
3時間に増加
10667
11288
7676
4453
0
File Read
Solve
File Write
Total Time
90 M Cells
Source: Barb Hutchings Presentation at SC06, Nov 2006, Tampa, FL
スケーラブルシステムズ株式会社
FLUENT: Serial I/O (6.2) vs.
Parallel I/O (6.4/12-beta)
64-way
Elapsed Time in Seconds
50000
46145
128-way
クラスタ導入の
メリットは?
192-way
44479
より多くのIO
にも対応可能
38656
37500
30881 31625
10.5時間から
3時間に短縮
25000
23266
17442
17582
12500
11759
PanFSは、
Serial I/O に
対して3倍以
上の性能(
192コア)
より多くのI/O
でもスケーラ
ブルな性能
を実現
0
6.2 - Serial I/O
PanFS - 1 Write
PanFS - 100 Writes
90 M Cells
Panasas導入による並列処理の劇的な向上
Source: Barb Hutchings Presentation at SC06, Nov 2006, Tampa, FL
スケーラブルシステムズ株式会社
STAR-CD v4 性能評価
14000
12000
2666
18%
その他(NFS)
ソルバー(NFS)
その他(PanFS)
ソルバー(PanFS)
688
Number of cells
19,921,786
Solver
CGS, Steady
Iterations
500 total iterations - data
save after every 10 iters
Each solution output (50 total)
~1,500 MB
10000
8000
6000
10509
2340
32%
10441
488
4000
2000
5085
2409
5121
75%
349
0
2326
2350
32並列(32コア)
並列度(コア数)が大きくなるに伴って、非ソ
ルバー部分の比重が大きくなる
↓
アムダールの法則(非並列部分が性能を左右)
↓
並列IO処理などによる非並列計算部分の削減が
重要
64並列(64コア)
128並列(128コア)
この性能評価はPanasas社とインテル社が、インテル社のクラスタシステム(2048コア)を利用して計測した性能です。
File Systems -- Panasas,: 7 shelves, 35 TB storage;(各シェルフは、4xGbE接続でトータル 2.8GB/sec のバンド幅)
NFS: Dell 2850 File Server, 6 x 146 GB SCSI drives, RAID 5
スケーラブルシステムズ株式会社
STAR-CD v4 性能評価
25000
4495
20000
その他(NFS)
ソルバー(NFS)
その他(PanFS)
ソルバー(PanFS)
24%
17M Cell
CFD model
173
Number of cells
16,930,109
Solver
CGS, Single Precision
Iterations
300 total iterations –
data save after every 100 iters
Total solution output
~48 GB
15000
10000
18323
3144
18212
32%
134
5000
9196
4079
9212
85%
172
0
4462
4455
64並列(64コア)
並列度(コア数)が大きくなるに伴って、非ソ
ルバー部分の比重が大きくなる
↓
アムダールの法則(非並列部分が性能を左右)
↓
並列IO処理などによる非並列計算部分の削減が
重要
128並列(128コア)
256並列(256コア)
この性能評価はPanasas社とインテル社が、インテル社のクラスタシステム(2048コア)を利用して計測した性能です。
File Systems -- Panasas,: 7 shelves, 35 TB storage;(各シェルフは、4xGbE接続でトータル 2.8GB/sec のバンド幅)
NFS: Dell 2850 File Server, 6 x 146 GB SCSI drives, RAID 5
スケーラブルシステムズ株式会社
マルチジョブでのIO処理
IO処理が逐次的に実行され、ジョブのIO処理時は他のジョブは処理の終了を待つ
Job1
Jon2
Jon3
Job4
Job5
Job6
Job7
問題点①
経過時間が伸びる
問題点②
ジョブ毎に処理
時間が異なる
Job8
各ジョブが同時にIO処理を行うことが可能な場合には、IO待ちによる遅延は発生しない
Job1
Jon2
Jon3
Job4
Job5
Job6
Job7
Job8
複数ジョブの同時IO処理に
対応可能なシステムでのIO
処理
計算処理部分
IO処理部分
スケーラブルシステムズ株式会社
Abaqusマルチジョブ性能
Abaqus/Standard 6.8-3: Comparison of PanFS vs. Local FS Ext2
Average Times for 8 Jobs, Each 16 Cores; Mem 90%
PanFS
Local FS
Total Time in Seconds
2000
1500
1294
1000
Average of 8 Jobs
1360
Average of 8 Jobs
Lower
is
better
5M DOF
Engine Block
500
0
NOTE: PanFS
and Local FS
difference ~ 5%
8 Jobs x 16 Nodes x 128 Cores
Average Times for 8 Jobs | Each Job on 2 Nodes | Each Job on 16 Cores | Total 128 Cores
スケーラブルシステムズ株式会社
お問い合わせ
0120-090715
携帯電話・PHSからは(有料)
03-5875-4718
9:00-18:00 (土日・祝日を除く)
WEBでのお問い合わせ
www.sstc.co.jp/contact
この資料の無断での引用、転載を禁じます。
社名、製品名などは、一般に各社の商標または登録商標です。なお、本文中で
は、特に® 、TMマークは明記しておりません。
In general, the name of the company and the product name, etc. are the
trademarks or, registered trademarks of each company.
Copyright Scalable Systems Co., Ltd. , 2009. Unauthorized use is
strictly forbidden.
12/10/2009
スケーラブルシステムズ株式会社
Fly UP