PSI-NSIM：大規模並列システムの性能解析に向けた相互結合網

by user

on 28 марта 2017

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download PSI-NSIM：大規模並列システムの性能解析に向けた相互結合網

Transcript

PSI-NSIM：大規模並列システムの性能解析に向けた相互結合網

PSI-NSIM：大規模並列システムの
性能解析に向けた
相互結合網シミュレータ
柴村英智
（財）九州システム情報技術研究所（ISIT）
薄田竜太郎
（財）福岡県産業・科学技術振興財団
本田宏明、稲富雄一、于雲青
九州大学情報基盤研究開発センター
井上弘士
九州大学大学院システム情報科学研究院
青柳睦
九州大学情報基盤研究開発センター
PSI とは？
Petascale System Interconnect Project
– 文部科学省「次世代IT基盤構築のための研究開発」、
研究開発領域「将来のスーパーコンピューティングのための
要素技術の研究開発」（H17-H19）
➠ 研究開発課題「ペタスケール・システム
インターコネクト技術の開発」
 http://www.psi-project.jp/
スーパーコンピュータの計算ノードを相互結合する
システムインターコネクトの技術開発プロジェクト
システムインターコネクト
計算ノード0 計算ノード1
…
プロセッサ
2007/10/26
…
計算ノード2
…
…
計算ノード10,000
…
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
2
PSIプロジェクトにおけるミッション
実効性能 1P FLOPSの実現を目標とする３つの技術開発
– 超高速光パケットスイッチの実現を目指した物理層技術
– MPIから物理層までを通したインターコネクト全体の高機能化、
高性能化技術
– ペタフロップス級マシンの振舞いをシミュレーション可能とする
統合型システム性能評価技術
本研究では！
「メモリ・通信性能」対「計算性能」比に優れた
ペタスケールアーキテクチャの確立
テラスケールシステムでペタスケールシステムの性能予測を
可能にする大規模シミュレーション技術の確立
システムインターコネクト
システムインターコネクト
計算ノード0 計算ノード1
…
プロセッサ
…
計算ノード2
…
計算ノード10,000
…
を使って、
2007/10/26
…
計算ノード0 計算ノード1
…
プロセッサ
…
計算ノード2
…
…
計算ノード10,000
…
の性能予測
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
3
本研究の目的
次世代スーパーコンピュータの設計開発に向けた
システム性能予測技術の開発
性能評価環境(PSI-SIM)を構築
– コンピュータシミュレーションによる性能見積ツールキット
– 高機能な検索機能を備えた可視化・解析ツールキット
PSI-SIMが目指すところ
– 数千から数万プロセッサを持つ大規模システムでも
実用時間内でシミュレーションを完了 ⇒ 速い！
– 様々なシステムアーキテクチャに容易に対応できるよう、
スケーラブルかつ高い柔軟性を持つ ⇒ 易い！
– スケルトン・コード実行と呼ぶプログラムコード抽象化技術を用い
て、様々な評価項目を精度良く見積もる ⇒ 巧い！
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
4
PSI-SIMのワークフロー
評価アプリ
ケーション
（実機実行：可能）
評価アプリ
ケーション
（実機実行：不可能）
プログラムコード抽象化
(BSIM-Parser)
1. BSIM-Parser
プロセッサ情報
データベース
スケルトン
コード
通信プロファイル生成
(BSIM-Logger)
予測実行時間
ネットワーク性能
2. BSIM-Logger
評価イン
ターコネク
ト構成
通信プロファイル
（ゼロ通信遅延）
モデル化
インターコネクト
シミュレーション
(NSIM)
インターコネクト
コンフィグレーション
（NDLファイル）
通信プロファイル
（通信遅延有）
可視化／解析
（ANA）
評価アプリケーションのプログラ
ムコード抽象化（通信プロファイル
の高速生成を目的）
通信プロファイルの生成（中規模
システムによる大規模システムの
通信プロファイル生成を目的）
3. NSIM
ネットワークシミュレーション（ゼロ
通信遅延プロファイルへの実遅延
時間付加が目的）
4. ANA
アプリケーションの可視化／解析
（アプリケーションの評価や開発
支援が目的）
通信トラフィックの可視化
プログラム最適化の指針提供
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
5
BSIM-Parser/Logger
プログラムコード抽象化技術に基づく
通信プロファイルの高速生成環境
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
6
BSIM-Parser/Logger
評価アプリ
ケーション
（実機実行：可能）
評価用アプリケーションの制御フロー
を維持したスケルトンコードの生成
（BSIM-Parser）
評価アプリ
ケーション
（実機実行：不可能）
プログラムコード抽象化
(BSIM-Parser)
プロセッサ情報
データベース
– 命令ブロックから演算ブロックを抽出
スケルトン
コード
通信プロファイル生成
(BSIM-Logger)
予測実行時間
ネットワーク性能
評価インター
コネクト構成
モデル化
インターコネクト
シミュレーション
(NSIM)
インターコネクト
コンフィグレーション
（NDLファイル）
可視化／解析
（ANA）
通信トラフィックの可視化
プログラム最適化の指針提供
2007/10/26
– 出力コードへの見積り実行時間の埋
め込み
通信プロファイル
（ゼロ通信遅延）
通信プロファイル
（通信遅延有）
– 演算と制御・通信の分離
通信・計算処理の履歴を含む通信プ
ロファイルの生成（BSIM-Logger）
– 実機（クラスタ計算機）によるスケルト
ンコード化されたアプリケーションの
擬似実行
– 通信遅延時間０（理想的なネットワー
ク環境）の通信プロファイルを生成
– 通信イベントの依存関係を保持
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
7
通信プロファイルの高速生成に向けた
プログラムコード抽象化
スケルトンコード
オリジナルコード
foo( ) {
Inst. Block A
for (i=0;i<n;i++) {
Inst. Block B
if (hoge) {
Inst. Block C
} else {
Inst. Block D
}
Inst. Block E
}
MPI_Comm.
Inst. Block F
for (j=0; j<n; j++)
for (k=0; k<n; k++)
Func( );
}
2007/10/26
foo( ) {
BSIM_ADD_TIME(10ms)
MPI_Comm.
BSIM_ADD_TIME(1ms)
BSIM_ADD_TIME(15s)
}
●演算ブロックを見積り実行時間に置換
→大規模アプリケーションの評価に有効
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
8
NSIM
通信プロファイルを入力とする
大規模インターコネクトシミュレータ
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
9
NSIM
評価アプリ
ケーション
（実機実行：可能）
通信プロファイルに基づいたインター
コネクトシミュレータ
評価アプリ
ケーション
（実機実行：不可能）
– 超大規模インターコネクトへの対応
プログラムコード抽象化
(BSIM-Parser)
プロセッサ情報
データベース
スケルトン
コード
通信プロファイル生成
(BSIM-Logger)
予測実行時間
ネットワーク性能
通信プロファイル
（ゼロ通信遅延）
モデル化
インターコネクト
シミュレーション
(NSIM)
インターコネクト
コンフィグレーション
（NDLファイル）
通信プロファイル
（通信遅延有）
可視化／解析
（ANA）
通信トラフィックの可視化
プログラム最適化の指針提供
2007/10/26
評価インター
コネクト構成
– 実用時間内におけるシミュレーション
の完了を目的
– 設計開発現場での実用性
（シミュレーション解像度：１ナノ秒～）
– 評価インターコネクトをコンフィグレー
ションファイルによってモデル化
– ゼロ通信遅延時間の通信プロファイ
ルを入力
– 通信遅延時間を付加した通信プロファ
イルを出力 → PSI-ANAへ
– 並列離散事象シミュレーション
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
10
インターコネクトコンフィグレーション
; Reference Network Description for PSI-NSIM
; by [email protected]
(topology
(name "psihexa-infiniband-cluster")
;
; Node-Switch interconnection part
;
(connect (pcc:0:0 ibsw0:0:0) (pcc:1:0 ibsw0:0:1)
(pcc:2:0 ibsw0:0:2) (pcc:3:0 ibsw0:0:3))
(connect (pcc:4:0 ibsw0:0:4) (pcc:5:0 ibsw0:0:5)
(pcc:6:0 ibsw0:0:6) (pcc:7:0 ibsw0:0:7))
(connect (pcc:8:0 ibsw0:0:8) (pcc:9:0 ibsw0:0:9)
(pcc:10:0 ibsw0:0:10) (pcc:11:0 ibsw0:0:11))
; Node configuration (Intel Xeon 3.0GHz, Single Core)
(connect (pcc:12:0 ibsw0:0:12) (pcc:13:0 ibsw0:0:13)
(network "psihexa-linux"
(node
(pcc:14:0 ibsw0:0:14) (pcc:15:0 ibsw0:0:15))
(name "pcc")
) ; end topology
(number node 16)
) ; end network
(number port 1)
(simulation "sim-psihexa" ; Simulation name
; (clog_filename "xhpl.n2000.4x4.16nodes.0.clog2")
(clog_filename "xhpl.n5000.4x4.16nodes.0.clog2")
(nlog_filename “log/psi-nsim")
(olog_filename “log/nsim")
(stdoutput true)
(debug false)
) ; end simulation
;
(powerconsumption 0.001mW)
) ; end node
; InfiniBand switch configuration
(switch
(name "ibsw0")
(number switch 1)
(number port 16)
(bandwidth 4Gbps)
(packet 2048B:size)
(packet 1024B:payload)
(latency 17usec:startup)
(latency 200nsec:pre)
(latency 10nsec:post)
; (powerconsumption 0.002mW)
) ; end switch
2007/10/26
インターコネクトの仕様を容易に変更できるため、
スケーラブルかつ柔軟な評価が可能
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
11
通信遅延付プロファイル
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
12
イベントキューを用いた離散事象シミュレーション
例）メッセージの送信
・ノード・リンク情報
リンクAの開放予定時刻：170、通信遅延時間：２
0
リンク A
Rank0
1
Rank1
❹ 時刻：100→150 時刻の更新
イベントキュー
（現在・将来に起こる事象を
時刻順に格納）
SendMsg: メッセージ転送イベント
SendPkt：パケット転送イベント
LockLink：リンクのロックイベント
UnlockLink：リンクのアンロックイベント
250
……
200
……
178 UnlockLink Rank0→Rank1
176 SendPkt Rank0→Rank1
174 SendPkt Rank0→Rank1
172 SendPkt Rank0→Rank1
時刻
250
……
250
……
170 SendPkt Rank0→Rank1
200
……
200
……
170 LockLink Rank0→Rank1
150
……
150
……
150
……
178 UnlockLink Rank0→Rank1
100 SendMsg Rank0→Rank1
❶ 時刻:100 イベントの取得
176 SendPkt Rank0→Rank1
174 SendPkt Rank0→Rank1
172 SendPkt Rank0→Rank1
❸ キュー内の適切な
時刻位置へ登録
170 SendPkt Rank0→Rank1
170 LockLink Rank0→Rank1
❷ パケット転送イベントへの分解、ノード・リンク情報を
もとにロックイベントと通信遅延時間を付加
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
13
NSIMの処理フロー（メイン）
通信プロファイルの
読込／解析
イベントキュー
ランク外からの
イベント受信
ノード
シミュレーション
分散時刻の
更新チェック
イベント処理
: イベント操作
実MPIの１ランクで、評価アプリ
ケーションの複数ノード（ランク）
と評価対象システムのインター
コネクトをシミュレート
さらに、複数ランク（並列処理）
で評価時間の短縮を図る
通信プロファイルの
読込／解析
通信プロファイルの
読込／解析
通信プロファイルの
通信プロファイルの
読込／解析
読込／解析
イベントキュー
イベントキュー
通信プロファイルの
通信プロファイルの
読込／解析ランク外からの
読込／解析ランク外からの
イベントキュー
イベントキュー
イベント受信
イベント受信
通信プロファイルの
通信プロファイルの
読込／解析ランク外からの
読込／解析ランク外からの
イベントキュー
イベントキュー
イベント受信
イベント受信
ノード
ノード
ランク外からの
ランク外からの
シミュレーション
シミュレーション
イベントキュー
イベントキュー
イベント受信
イベント受信
ノード
ノード
ランク外からの
ランク外からの
シミュレーション
シミュレーション
分散時刻の
分散時刻の
イベント受信
イベント受信
ノード
ノード
更新チェック
更新チェック
シミュレーション
シミュレーション
分散時刻の
分散時刻の
ノード
更新チェック
シミュレーション
分散時刻のイベント処理
更新チェック
分散時刻のイベント処理
ノード
更新チェック
シミュレーション
分散時刻のイベント処理
更新チェック
分散時刻のイベント処理
更新チェック
イベント処理
更新チェック
イベント処理
イベント処理
イベント処理
 プロセッサの模擬
 受信メッセージの遅延時間計算
 送信メッセージイベントの生成
 時刻更新の可能性をチェック
 時刻更新請求イベントの生成
 メッセージ／パケットイベントの転送処理
 ネットワーク／スイッチにおける遅延時間計算
 時刻更新イベントの処理
 リンク情報の問合せ・回答処理
 スイッチ情報の問合せ・回答処理など
: イベント送信
: イベント受信
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
14
PSI-NSIMの拡張可能な機能
対故障性の評価
– 動的なリンクの切断指示を設定可能
➭リンク故障などによる性能低下の見積り
➭適応ルーティング手法の評価
消費電力の評価
– リンク、スイッチ、ノードに関する電力パラメータを設定可能
➭ネットワークやシステム全体における電力消費量の見積り
開発時に基本構造を実装済み➭必要に応じて利用可能
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
15
ここまでのまとめ
PSI-SIMとは？
– 大規模並列システムの性能評価環境
どのように使うの？
1. BSIM-Parser：プログラム中の演算ブロックを見積り実行時間に
置換（プログラムコード抽象化）
2. BSIM-Logger：小規模並列システムでプログラムを実行。大規
模システムでの実行に相当する、通信遅延時間０の通信プロファ
イル（演算処理時間や通信履歴）を生成
3. NSIM：相互結合網シミュレータによって正確な通信遅延時間を
算出し、通信プロファイルに印加
何がわかるの？
– アプリケーションの実行時間を予測
– 相互結合網の諸性能を出力
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
16
要点
精度の良い「どんぶり勘定」
アプリケーション開発者の観点から
開発したプログラムの実行時間を適切なオーダで
知りたい
ネットワークアーキテクトの観点から
設計した相互結合網の長所／短所が知りたい
双方の観点から
相互結合網とプログラムの親和性を知りたい
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
17
PSI-NSIMの性能評価
BSIM-LoggerとNSIMを用いて
「シミュレーション時間」と「実行時間の予測性能」
について調査
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
18
評価実験（BSIM-Logger + NSIM）
調査項目
– 実験（１）： NSIMが要するシミュレーション時間
• 実用時間内での性能評価が遂行可能か？
• 理想ネットワーク環境下（ゼロ通信遅延時間）で実行し、シミュレー
ション時間の下限（最低必要時間）を測定
– 実験（２）：評価アプリケーションの実行時間の予測性能
• 実用的な予測精度を有するか？
• 評価アプリケーションの実機実行時間と、シミュレーションによる予測
実行時間を比較する
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
19
実験（１）
NSIMが要するシミュレーション時間の調査
1. 問題サイズやプロセス数を変化させた通信プロファイルを生成
– ゼロ通信遅延時間
2. 各通信プロファイルをNSIMで実行
•
理想ネットワーク環境下を想定してシミュレート
•
NSIMの利用CPU数を１、２、４、８、１６、３２CPU と変化
•
各NSIMのシミュレーション時間を測定
（プロファイルの読み込み時間は含まない）
最低限のシミュレーション時間、並列化効率が得られる
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
20
通信プロファイルの生成
評価アプリケーション： HPL
– 問題サイズ（N）： 500、1000、2000、5000
– プロセス数（PxQ）： 4x4、16x16、32x32
– ブロックサイズ： 128
BSIM-Loggerによる通信プロファイル生成
– 上記パラメータの組合せから数種を選択
– ゼロ通信遅延時間の通信プロファイルを生成
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
21
実験環境
１CPU（デスクトップPC）
– CPU: Intel Xeon 3.8GHz (EM64T)
– Memory: 2GB
– OS: Linux 2.6.20-1.2320.fc5
– Compiler: GNU C Compiler ver.4.1.1
– MPI: Mpich2-1.0.5p4
2CPU～（クラスタシステム）
– CPU: Intel Xeon 3.0GHz (EM64T)
– Memory: 7GB MEM
– OS: RedHat Enterprise Linux AS rel.3 (Linux Kernel 2.4.21)
– Compiler: Fujitsu Fortran&C compiler ver.5.0
– MPI: Fujitsu MPI over Score
– Network: InfiniBand (1xLink DDR)
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
22
シミュレーション時間（プロセス数固定：１６）
30
1CPU
25
2CPU
実行時間（秒）
4CPU
20
15
8CPU
16CPU
10
5
0
HPL.N500.4x4.16R
HPL.N1000.4x4.16R
HPL.N2000.4x4.16R
HPL.N5000.4x4.16R
実行アプリケーション
問題サイズ：小 ⇒ 通信/時刻同期処理：大 ⇒ 並列処理効率：低
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
23
シミュレーション時間（問題サイズ固定：2000）
実行時間（秒）
500
450
1CPU
400
2CPU
350
4CPU
300
8CPU
16CPU
250
32CPU
200
150
100
50
0
HPL.N2000.4x4.16R
HPL.N2000.16x16.4R
HPL.N2000.32x32.16R
実行アプリケーション
評価アプリケーションのプロセス数増加 ⇒ 並列処理効率が向上
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
24
実験（２）
評価アプリケーションの実行時間の予測性能
1. 評価アプリケーション(HPL)を既存のクラスタシステムで実行
•
実際の実行時間を測定
2. BSIM-Loggerを利用して、評価アプリケーションを理想ネットワーク環境
下（ゼロ通信遅延時間）で実行した場合の通信プロファイルを生成
3. NSIMを利用して、1.のクラスタシステムと同等のネットワーク（InfiBand
スイッチによる単一段接続）をシミュレート
•
CPU: Intel Xeon 3.0GHz、ノード構成：16ノード（1CPU/ノード）
•
InfiniBandスイッチ：1xLink DDR （4Gbps）、スタートアップ遅延：11.6μsec.
（実測、ポート間遅延を含む）、パケットペイロード: 1,024B、パケットルーティ
ング遅延：100nsec.、 3m銅線ケーブルで接続
•
予測実行時間を算出
実行時間の予測精度が得られる
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
25
実行時間の予測性能（１）
10
100%
実機
実機/予測実行時間（秒）
8
90%
予測（BSIM-Logger + NSIM）
71.4%
7
80%
予測内訳（BSIM-Logger分）
70%
誤差（実機：予測）
6
60%
47.6%
5
50%
4
40%
28.9%
3
30%
2
20%
5.3%
1
0
予測誤差（％）
9
10%
0%
HPL.M500.4x4.16N
HPL.M1000.4x4.16N
HPL.M2000.4x4.16N
HPL.M5000.4x4.16N
実行アプリケーション
評価アプリケーションの規模増加 ⇒ 予測精度が向上
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
26
実行時間の予測性能（２）
300
140%
実機
125.9%
予測（BSIM-Logger + NSIM）
120%
相対誤差
100%
200
80%
150
45.5%
60%
相対誤差(%)
実機/予測実行時間(秒)
250
100
40%
50
20%
14.0%
3.9%
0.8%
0.7%
0
R
4.
16
.4
x
N1
6
PL
.
H
H
PL
.
N8
0
00
00
00
N4
0
PL
.
H
0.
4x
4.
16
.4
x4
.1
6
R
R
R
.4
x4
.1
6
00
H
PL
.
N2
0
N1
0
PL
.
H
H
PL
.
N5
0
00
0.
4x
4.
16
.4
x4
.1
6
R
R
0%
実行アプリケーション
評価アプリケーションの規模増加 ⇒ 予測精度が向上
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
27
現在の問題点と解決方法
大規模通信プロファイルの生成が困難（BSIM-Logger）
– 16ノードシステム ⇒ 4,096ノードシステム規模の通信プロファイルまで生
成可能
⇒ 通信プロファイルを人工的に生成するツールを開発（中）
巨大な通信プロファイルの読込／解析処理の肥大化（NSIM）
– ペタスケール級のアプリケーションでは、テラ～ペタバイトサイズ
⇒ 通信プロファイルのコンパクト化、および読込／解析処理とネットワークシ
ミュレーションのオーバラップ化
時刻同期処理のオーバヘッド（NSIM）
⇒ 時刻同期ルーチンを最適化中（約1.5倍の高速化が実現可能）
相互結合網のシミュレーション速度の改善（NSIM）
⇒ 評価目的に応じたシミュレーションの解像度を設定
１ｎ秒→１μ秒に変更した場合でも、予測精度の変化は１%以内
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
28
解像度とNSIM実行時間
実験環境
• HPL（問題サイズ2000, NB=50, P=Q=4）
• 16ノードクラスタシステム（16並列）
解像度1ns
スタートアップ時間(秒)
シミュレーション時間(秒)
NSIM実行時間(秒)
有効時刻同期（率）
理想／予測実行時間(秒)
メッセージ処理性能(msg/秒)
解像度1us
スタートアップ時間(秒)
スイッチ遅延ゼロ
スイッチ遅延有り
12.447
20.756
4.042
5070.138
16.489
5090.894
86,740 of 91,524 (94.77%)
140,157,062 of 140,281,477 (99.91%)
0.657461
0.706836
9,038.2
7.2
スイッチ遅延ゼロ
スイッチ遅延有り
11.916
8.662
2.652
8.414
14.568
17.076
61,456 of 65,881 (93.28%)
169,992 of 227,442 (74.74%)
理想／予測実行時間(秒)
0.657461
0.704750
メッセージ処理性能(msg/秒)
13,776.4
4,341.9
シミュレーション時間(秒)
NSIM実行時間(秒)
有効時刻同期（率）
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
29
All-to-all通信（4Kノード）のシミュレーション時間
※Bruckアルゴリズムを利用
1,000.00
遅延無-解像度ナノ秒
遅延有-解像度ナノ秒
138.383
116.309
100.00
遅延有-解像度マイクロ秒
シミュレーション時間（秒）
76.112
56.132
44.089
38.462
27.184
20.927
19.898
17.614
14.079
10.900
10.00
8.462
8.111
5.134
5.972
6.343
4.475
3.265
2.790
1.397
1.00
1
2
4
8
16
32
64
128
0.455
0.276
0.215
0.10
CPU数
2007/10/26
九州大学スーパーコンピュータPRIMERGY利用による
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
30
まとめ
次世代スーパーコンピュータの設計開発に向けた
システム性能予測技術の開発
– システム性能評価環境（PSI-SIM）の開発
– コンピュータシミュレーションによる性能見積ツールキット
– 高機能な検索機能を備えた可視化・解析ツールキット
速い、易い、巧いを提供
– 高速な並列シミュレーション技術による実用時間内での評価
– 評価ツールが兼備するスケーラブルかつ高い柔軟性
– プログラムコード抽象化技術による高精度な性能予測
次世代スーパーコンピュータの設計開発のみならず、
アプリケーション開発時の支援ツールとしても活用可能
2007/10/26
All Rights Reserved, Copyright (C) PETASCALE SYSTEM INTERCONNECT PROJECT 2005,2006,2007
31

PSI-NSIM：大規模並列システムの 性能解析に向けた 相互結合網

Comments

Description

Transcript

PSI-NSIM：大規模並列システムの性能解析に向けた相互結合網