Comments
Description
Transcript
PCクラスタシステムの 適用事例とその実現まで
PCクラスタシステムの 適用事例とその実現まで ー性能、構築、応用ー 2001年 年7月 月17 株式会社 ソフテック 加藤 努 SofTek 今日の話題 PCクラスタ技術は、どのように使われているの? z z z PCクラスタシステム導入に際して考えること z z z 今後の利用分野の潜在性に気づくこと 次世代の主要計算機インフラの一つとなる 並列 ・分散(並行)処理のニーズが高い 利用目的と性能必要要件を明確に! H/Wの価格性能比を考える(同じ予算で最大性能) 並列・分散適用方法に応じたシステム設計 テクニカル・サービス・プロバイダの必要性 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 クラスタ構築における留意点 予算を大切に使い、ユーザの特性に合った最 大限のPCクラスタ・リソースを構築する。 z z z z z PC性能(アプリケーション性能)を理解する 並列・分散処理等の用途を特定する 適切なクラスタ部材選択、システム設計をする PCクラスタ構築・応用開発のためのコンサル ティングを利用する 本当に使えるシステムを導入する => SofTek Cluster Solution Service SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 クラスタリングは自然の流れ computer •高速性(Scalability) •安価 (Price/ Perform.) •冗長性(High Avail.) 管理S/ Wの欠如 分散処理 協調処理のS/ Wの出現 耐障害性 cluster SofTek ノード管理S/ ノード管理 W 分散(並行)処 並列処理 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 科学技術分野でのPCクラスタ適用 Scientific & Engineering Simulations (他、多数) 差分法 x2 x1 並 x3 2 1 x4 3 x5 4 探索問題 x6 5 並列・分 6 N体問題 Parametric study 1CPUに相 に相 0 1 高速性を求め I 5 W 2 並 SofTek W W W 4 3 Interactions O 分 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 ビジネス分野でのPCクラスタ適用(1) ビジネス分野での一例 (複雑なものから探し出す) z z z 経路最小最適化問題 (通信、交通、scheduling等) データ探索(データマイニング) 金融ポートフォリオ、リスク管理(最適化問題) 探索 抽出 CPU 3 CPU 1 CPU 3 CPU 2 CPU 1 CPU 2 現在社会の最重要課題 のシミュレーション(Decision Support Systems) SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 ビジネス分野でのPCクラスタ適用(2) ビジネスアプリケーション(バックエンドシステム) z z z z z インターネットアプリケーション z z Web serving Infowares (検索エンジンサイト、google.com) その他 z z SofTek 金融デリバティブーバッチ処理計算(J.P.モルガン….) E-コマース (Amazon.com, eBay.com ….) データベース (Oracle on cluster,IBM-Microsoft-Intel Project) Decision Support Systems データマイニング 映画デジタルフィルムの作成 ネットワーククラッキング解析 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Search Engine (www.google.com) Google combines an easy-to-use interface with complex algorithms to determine the importance and relevancy of Web pages--a task that requires a high-performance back-end system. サーチエンジンと そのバックエンド処理 a cluster of more than 4,000 PCs SofTek 検索スピードを実感してみて下さい=>速い www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Linux Clusterの応用(大規模) http://www.genetic-programming.com/ z z z z 遺伝子複製的処理(ツリー階層)によるプログラム自動生 成/合成手法 高位レベルの問題から自動的にプログラムを作って実行 Beowulf-style 1,000 Pentium II 350 MHz processors Connected with 100Mbps Ethernet “Titanic” filmの作成 (Digital Domain社 ‘97) z z z 3Dモデルの基本要素を作成後、ショットのフレームを並 行(分散)処理で作成。floating-point-intensive部分 W 160 433MHz DEC Alpha - Linux systems Connected with 100Mbps Ethernet I W W W O SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 クラスタシステムをどのように使う? ● 動機付けを明確に 高速性能 : 並列処理 : 分散(並行)処理 高スループット : HA、ノード管理、フェールオーバ 高信頼性 生産性に対する、求める性能要件の定義 アプリケーションの特性・機能性 性能 SofTek 価格 信頼性 必要十分なH/ コンポーネントを揃える 必要十分な Wコンポーネントを揃える 例えば 4倍の並列性能で 倍の並列性能で 10倍のスループット 日本のユーザは 常にOver Spec. 常に を望む? www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 ここからの話 z z z z PC性能(アプリケーション性能)を理解する 通信性能について理解する 並列性能について理解する 並列・分散処理の適用について理解する 分散処理 (Parametric Study) – 並列計算処理 – z z SofTek 適切なクラスタ部材選択、システム設計をする PCクラスタ構築・応用開発のためのコンサル ティングを利用する www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 現在のプロセッサ性能を理解しよう 性能と価格 : カタログ値では分からない 賢く購入するには、実アプリ性能で比較しよう! クロック周波数 (MHz) バスクロック(FSB:MHz) 2nd Cache Size 理論ピーク性能(MFLOPS) 理論メモリバンド幅(GB/s) 実効メモリバンド幅(MB/s) 標準価格(万円)(Mem:256MB) 実勢価格(含キャンペーン価格) Alpha-21264 DS10L XP1000 DS20E 600 667 667 100 333 333 2MB 2MB 4MB 932 1334 1334 1.3 2.6 5.2 677 967 1346 ? ? ? 65 90 200 P3 500 500 100 256KB 500 0.8 406 10 10 Pentium P3 800EB P4 1500 800 1500 133 400 256KB 256KB 800 1500 1.06 3.2 544 1555 13 25 13 21 AMD Athlon 1200 266 256KB 1200 2.1 907 23 20 Pentium の性能は、他の商用 MPU 性能を超える? 理論ピーク性能だけでは、価格性能比を語れない 実効メモリバンド幅:STREAMベンチマークより SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 価格性能比の一例(流体計算) ・CPU/ Mem intensive ・キャッシュ外性能重要 Pentium2 Origin2K ・実効性能比が分かれば MPU数と性能の比較 数と性能の比較 検討が可能 XP1000 DS10 NAS serial bench 1.0 1.0 23.7 1.1 4.5 2.5 3.8 2.1 価格性能比 実性能比 RATIO NAS Serial Benchmark クロック周波数 (MHz) キャッシュ内 計算主体(MFLOPS) キャッシュ外 計算主体(MFLOPS) キャッシュ内 計算主体(Ratio) キャッシュ外 計算主体(Ratio) 実勢価格(概算:万円) MFLOPS当たりの単価(円) Price/Perormance Ratio SofTek Alpha-21264 MIPS Intel DS10 XP1000 Origin2K Pentium2 466 667 195 400 195 258 83.1 69.4 142 166 69.9 66.3 2.8 3.7 1.2 1.0 2.1 2.5 1.1 1.0 65 90 200 8 ¥4,577 ¥5,422 ¥28,612 ¥1,207 3.8 4.5 23.7 1.0 http:// www.nersc.gov/ research/ FTG/ pcp/ performance.html AMD Athlon 500 104.5 1.5 10 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 計算化学系アプリの実効性能(1) GAUSSIAN98の実性能比較 の実性能比較 GAUSSIAN 98 (Rel.A7) Benchmark Code bench1 : RHF OPT bench2 : RHF FREQ bench3 : MP2 OPT bench4 : MP2 FREQ bench5 : QCISD(T) bench6 : CASSCF bench7 : CIS bench8 : TD-DFT 調和平均値 Performance Ratio P-III 500 Athlon K7-550 128 MB 512 MB 9673 8645 1707 1452 13380 9998 13871 8195 13947 5609 2658 2260 2371 2003 1042 831 3001.4 2388.2 1.0 0.80 RS6000 397 512 MB 6602 1097 7952 5868 3741 3531 1766 652 1995.1 0.66 Origin 2000 15.5 GB 10042 1743 12546 12213 7785 3222 2706 953 2971.1 0.99 低いほど速い Source:http://www.chm.tu-dresden.de/ edv/ bench/ bench.html SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 計算化学系アプリの実効性能(2) GAMESS(US)の実性能比較 の実性能比較 実行時間(秒) GAMESS (US) Ver.1 as 1998 bench1 : RHF OPT bench2 : RHF FREQ bench3 : MP2 OPT bench4 : CASSCF OPT bench5 : CASSCF EN bench6 : MCQDPT EN 調和平均値 Performance Ratio P-III 500 Athlon K7-550 128 MB 512 MB 12.9 9.4 6.5 4.9 33.4 25.9 431.0 68.2 79.3 63.5 194.3 163.0 21.3 15.6 1.00 0.73 RS6000 397 512 MB 13.0 6.4 28.3 123.0 77.9 298.0 20.5 0.96 Origin 2000 15.5 GB 14.9 9.3 43.0 137.2 90.0 250.4 27.2 1.28 Alpha ES 40 4 GB 5.2 3.0 14.1 46.2 32.2 85.4 9.1 0.43 667MHz Pentiumは、既存の商用プロセッサと比較して遜色ない は、既存の商用プロセッサと比較して遜色ない Source:http://www.chm.tu-dresden.de/ edv/ bench/ bench.html SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Gaussian98 : Pentium3 vs Pentium 4 Gaussian 98, revision A.7. b)Ethylene, 16 electrons, 1Ag, D2h point group, Basis Set = 6-311++G**, (6-term d's) c)Ethylene, 16 electrons, 1Ag, D2h point group, Basis Set=6-311++G(3df,3pd), (7-term f's, 5-term d's) d)18-crown-6, C12H24O6, 144 electrons, Ci, Set=aug-cc-pVDZ, (5-term d÷s) Dual Pentium® III 933 MHz 512 MB Rambus memory, 18 GB Ultra 160 disk, Red Hat Linux release 7.0. Pentium® 4 1.5 MHz 512 MB Rambus memory, 18 GB Ultra 160 disk, Red Hat Linux release 7.0. From: "Nordwall, Douglas J" <[email protected]> To: [email protected] Date: Thu, 12 Apr 2001 08:54:01 SofTek Molecule Method Ethylene b Conv. RHF Direct RHF In-core RHF RHF Gradient RHF Hes s ian UHF Conv. MP 2 Direct MP 2 MP 2 Gradient MP 2 Hes s ian MP 4(S DTQ) S DCI CCS D CCS D(T) QCIS D QCIS D(T) CAS S CF S VWN (LDA) BLYP (NLDA) Ethylene c Conv. RHF Direct RHF RHF Gradient RHF Hes s ian Conv. MP 2 Direct MP 2 MP 2 Gradient 18-crown-6 d Direct RHF Total Dell P recis ion 420 h (P III 933 MHz) CP U Wall Clock 4.9 4.9 11.9 11.9 4.9 4.9 9.4 9.4 41.4 41.4 6.5 6.5 7.3 7.3 14.2 14.2 19.5 19.5 239.1 246.1 40.5 40.6 27.6 31.7 37.7 41.6 71.2 75.2 38 48.6 72 79.2 57.8 80.9 31.7 32.4 57 57.1 31.9 119.4 94.2 659.8 227.1 161.9 270.7 32 119.9 95.3 662 252.7 162.4 284.5 Dell P recis ion 330 i (P 4 1.5 GHz) CP U Wall Clock Ratio(wall) 3.3 3.3 0.67 8.2 8.2 0.69 4.5 4.5 0.92 6.1 6.1 0.65 27.9 27.9 0.67 4.2 4.2 0.65 4.8 4.8 0.66 9.7 9.7 0.68 12.1 12.1 0.62 129.9 130 0.53 29.3 29.3 0.72 15.1 15.2 0.48 20 20.3 0.49 46.6 46.6 0.62 17.2 17.2 0.35 43.4 43.5 0.55 33.4 58.6 0.72 22.1 22.2 0.69 33.2 33.2 0.58 21.6 77.3 54.7 398.6 226 94.4 133.3 21.6 77.4 54.8 398.8 348.5 94.4 136.3 0.68 0.65 0.58 0.60 1.38 0.58 0.48 43,589.10 43,560.70 25,994.90 26,048.20 0.60 45,946.70 (C) SofTek Systems Inc.. 2000-2001 46,022.90 27,499.20 27,676.90 0.60 www.softek.co.jp SPECfp2000による実効性能比較 14 applications ・six FORTRAN77 ・four Fortran90 ・four C 678 628 700 600 500 377 400 SPECfp2000 300 383 318 322 319 226 200 SPEC95より より 実体を表す 100 0 P Ratio SofTek P3 SE440BX 800 MHz 226 1.00 0 0 X 82 0B i85 C 4 E4 P3 V P4 3S Pentium 1 DS 0 2 DS Alpha 0 0 E P 20 20 00 S 2 S I D /6 0 SG RS SPECfp2000 AlphaServer DS10 DS20 DS20E Intel-box IBM SGI P3 P4 RS/6000 SP SGI 2200 VC820 i850 High node R12000 1 GHz 1.8 GHz 600 MHz 500 MHz 833 MHz 375 MHz 400 MHz 318 628 377 383 678 322 319 1.41 2.78 1.67 1.69 3.00 1.42 1.41 接近 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 SPECfp2000で使用するアプリケーション 様々なアプリケーションの性能の幾何学平均値 特性により、プロセッサ上での性能が大きく異なる SPECfp2000 Code name 168.wupwise 171.swim 172.mgrid 173.applu 177.mesa 178.galgel 179.art 183.equake 187.facerec 188.ammp 189.lucas 191.fma3d 200.sixtrack 301.apsi SofTek Language F77 F77 F77 F77 C F90 C C F90 C F90 F90 F77 F77 Resident Virtual description size(Mbytes) size(Mbytes) 176 177 Quantum chromodynamics 191 192 shallow water modeling 56 56.7 M ulti-grid solver in 3D potential field 181 191 partial differential equations 9.5 24.7 3D graphics library 63 155 Computational Fluid dynamics 3.7 5.9 Image recoginition/neural network 49 51.1 Seismic wave propagation 16 18.5 Image processing 26 30 Computational chemistry 142 143 Number theory/primality testing 103 105 Finite-element crash simulation 26 59.8 Nuclear physics accelerator design 191 192 M eteorology:pollutant distribution www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 SPECfp2000:個々のプログラムの性能 Pentium 4 1500MHz RDRAM-PC800 552 SPECfp2000 422 301.apsi SPECfp2000値 値 255 200.sixtrack 422 191.fma3d 189.lucas 756 188.ammp 365 187.facerec 452 183.equake 808 523 525 537 179.art 178.gal 177.mesa アプリ特性によって 同じプロセッサでも 性能が異なる 635 173.applu 172.mgrid 差分・流体 602 171.swim 1288 168.wupwise 767 0 200 400 600 800 1000 1200 1400 SPECfp2000 number Sun Ultra5 (300MHz) の性能を 100 とした相対性能 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 SPECfp2000による価格性能比 Processor Pentium 4 Pentium III (Coppermine) AMD Athlon (Thunderbird) AMD Athlon (Thunderbird) UltraSPARC III Alpha (21264) UltraSPARC II PA-8700 MHz Notes L2 cach SPECint2K SPECfp2K Base Price\ \/SPECfp 256 586 628 320,000 510 (Dell,512MB,20GB) 1800 256 428 314 185,000 589 (Dell,512MB-SDRAM,20GB) 1000 256 491 374 240,000 642 (GW2K, PC133 512MB-SDRAM,20GB) 1300 256 539 445 300,000 674 (価格推定、512MB-DDR SDRAM,20GB) 1330 750 395 421 1,210,000 2,874 (Sun Blade1000) 8192 8192 533 678 2,000,000 2,950 (価格推定,DS20E) 833 8192 234 291 1,210,000 4,158 (AXd 480 750 N/A 603 581 3,000,000 5,164 (価格推定) Processor \/SPECfp Pentium 4 510 Pentium III (Coppermine) 589 AMD Athlon (Thunderbird) 642 AMD Athlon (Thunderbird) 674 UltraSPARC III 2,874 Alpha (21264) 2,950 UltraSPARC II 4,158 PA-8700 5,164 SofTek Ratio 1.0 1.2 1.3 1.3 5.6 5.8 8.2 10.1 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Pentium 4の性能(NAS serial Bench) Pentium 4 Pentium4 (1.3GHz) の性能値 Pentium4 (1.8GHz) はさらに 向上する SofTek Pentium 3(Cop) Pentium 3(Cop) Pentium 3(Kat) Cache Size 256K 256K 256K FSB 400MHz 133MHz 100MHz chipset D850 815 440BX CPU Clock 1300MHz 868MHz 797.5MHz STREAM(MB/s) 1546.4 440 381.4 Class W data MOP/Sec 278 104.81 88.3 BT 230.06 51.28 45.88 CG 4.94 4.19 3.83 EP 163.08 106.51 91.49 FT 308.51 127.32 110.21 LU 253.59 85.23 80.53 MG 170.42 74.83 66.87 SP RATIO 1.50 1.09 0.92 CPU Clock 3.51 1.00 0.87 STREAM 2.65 1.00 0.84 BT 4.49 1.00 0.89 CG 1.18 1.00 0.91 EP 1.53 1.00 0.86 FT 2.42 1.00 0.87 LU 2.98 1.00 0.94 MG 2.28 1.00 0.89 SP ※ pgf77 -fast -Mvect -Minfoでモジュール生成 ※ Cop = Coppermine ; Kat = Katmai 512K 100MHz 440BX 501.44MHz 395.5 71.67 32.83 2.52 54.38 87.09 57.95 54.36 0.58 0.90 0.68 0.64 0.60 0.51 0.68 0.68 0.73 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 PCクラスタの構成要素 スイッチングハブ 応用プログラム Linux 10/100BASE ethernetカード 100BASE-TX PC部材 部材 10/100BASE ethernetカード PC 10/100BASE ethernetカード PC 性能設計 PC PC 通信部材 1000BASE-TX ファイルサーバ Gigabit ethernet カード 10/100/1000BASE-T スイッチングハブ Linux OS TCP/IP 開発環境 コンパイラ 並列デバッガ トレース機能 数学ライブラリ 並列ライブラリ テクニカルサポート + システム・チューニング能力 システム・チューニング能力 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 分散(Distributed)処理では何が大事? Data 1 Data 2 入力等 User I/ F Data 3 並行処理 分散ノード の管理 Applications Out 1 Linux Out 1 Linux Out 1 Linux P P P P P P Hardware 出力系の の管理 EnFuzion Hardware Hardware 通信路 P Processor P SofTek Process www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Master-Slave Parallel Computing Slave Preprocessor Slave Postprocessor Script + Batch or Toolを利用 を利用 Slave Slave Supports parametric execution zExecute programs zVarying parameters zSimple scatter/gather SofTek Slave Master Slave Slave Slave www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 分散(並行)処理ソフトウェア EnFuzion TurboLinux / SofTek EnFuzion Job 1 Job 4 Job 7 Job 2 Job 5 Job 8 Job 3 Job 6 Job 9 Job 10 Job 11 Job 12 Job 13 Job 14 Job 15 Job 16 Job 17 Job 18 ・パラメータ自動生成 ・手続きのスクリプト化 パラメーター ・自動ジョブ投入・集積 の記述 ・ジョブ監視機構 ・フェールオーバー機能 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 EnFuzion SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Bioinfomatics BLASTとPCクラスタ 3 DBs 250MB 500MB Sequence alignments 1.5GB BLAST DB 300 query sequence 300 query PC 1GB Mem 1.5GB —DBは は メモリに入りきらない I/ O 処理=>遅い 1.5GB を2分割 分割 300 query 300 query sequence PC 1GB Mem PC 1GB Mem PC 1GB Mem PC 1GB Mem In-core処理 処理 さらにDBを 化 さらに をpartition化 20 query sequence に分割 20x4=80tasks 20 Master Slave Slave Slave SofTek 20x15=300 4 15queryづつ担当 づつ担当 Slave In-core内の 内の DBも小さいので も小さいので Cache効果 効果 バッチ処理システム重要 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 並列(Parallel)処理では何が大事? Parallel Programming 同じ並列プログラム Input Data 並列 ミドルウェア Applications MPI MPI メッセージの交換 Linux Linux Linux P P P P P P Hardware 性能評価 Hardware Hardware 最適な選択 通信路 P Processor P SofTek Process www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 MPI-粗粒度計算の例 領域分割法 解析領域 CPU 2 CPU 1 逐次処理 CPU 0 CPU 1 CPU 3 CPU 2 CPU 0 データの交換 CPU 3 各CPUに割り当てる 計算領域を分割 領域境界での データの交換必要 並列処理 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 MPI並列化/領域の分割指針の一例 k k j j i i i,j 方向とも 2 分割 全体領域 k k j j i SofTek i i,方向2分割 i,方向3分割 j 方向3分割 j 方向3分割 通信量を減らすためには、どの方向? www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 RedBlack法、Hyperplaneによる並列化 RedBlack red-black 法:‘●’で表されるセルは一つ前のタ イムステップの‘○’のセルのデ ータを用いて他の‘●’のセルの データに依存することなく独立に i 解ける.同様に‘○’のセルも他 の‘○’のデータに依存すること k なく独立に解ける. Hyperplane この面内で 依存性なし 計算の進行方向 k j 計算の進行方向 i k SofTek データの依存方向 i 全体領域 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 並列処理のパイプライン化 計算(パイプ)の進行方向 cpu3 6 7 8 6 7 8 6 7 8 6 7 8 6 7 3 4 5 3 4 5 3 4 5 3 4 5 3 4 5 0 1 2 2 0 1 2 0 1 2 0 1 2 0 1 8 cpu2 cpu1 i cpu0 k データの依存方向 0: 1: 2: 3: 4: 5: 6: 7: 8: 0: 1: 2: 3: 4: 5: 6: 7: 8: k=k面 0 のデータ待ち 1 のデータ待ち 0 のデータ待ち 1,3 のデータ待ち 2,4 のデータ待ち 3 のデータ待ち 4,6 のデータ待ち 5,7 のデータ待ち k=k+1面 k=k面 1 のデータ待ち k=k面 1,3 のデータ待ち 2,4 のデータ待ち 3 のデータ待ち 4,6 のデータ待ち 5,7 のデータ待ち k=k+2面 k=k+1面 k=k面 k=k+1面 k=k面 2,4 のデータ待ち k=k面 4,6 のデータ待ち 5,7 のデータ待ち k=k+3面 k=k+2面 k=k+1面 k=k+2面 k=k+1面 k=k面 k=k+1面 k=k面 5,7 のデータ待ち k=k+4面 k=k+3面 k=k+2面 k=k+3面 k=k+2面 k=k+1面 k=k+2面 k=k+1面 k=k面 6 7 8 6 7 8 6 7 8 6 7 8 6 7 3 4 5 3 4 5 3 4 5 3 4 5 3 4 5 0 1 2 0 1 2 0 1 2 0 1 2 0 1 2 k=k面 k=k面 k = k- 2 面 k = k- 1 面 k = k- 2 面 k = k- 3 面 k = k- 2 面 k = k- 3 面 k = k- 4 面 1,3 のデータ待ち k=k面 k = k- 1面 k=k面 k = k- 1面 k = k- 2面 k = k- 1 面 k = k- 2面 k = k- 3面 1,3 のデータ待ち 2,4 のデータ待ち k=k面 4,6 のデータ待ち k=k面 k = k- 1 面 k=k面 k = k- 1 面 k = k- 2 面 1,3 のデータ待ち 2,4 のデータ待ち 5 のデータ待ち 4,6 のデータ待ち 5,7 のデータ待ち k=k面 7 のデータ待ち k=k面 k = k- 1 面 8 1,3 のデータ待ち 2,4 のデータ待ち 5 のデータ待ち面 4,6 のデータ待ち 5,7 のデータ待ち 8 のデータ待ち 7 のデータ待ち 8 のデータ待ち k=k面 通信処理の最適化のために、処理のパイプライン化を設計 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 どんなものが並列化可能か 並列効果の高いアプリケーションソルバー z z z z 差分法 : レッド・ブラックSOR法、パイプライン法 : ICCG法はパイプライン法へ モンテカルロ法、分子動力学等の粒子を扱うもの ニューロンの計算: 行列・ベクトル計算が主体 境界要素法: 密行列の連立一次方程式に帰着 並列効果が低いソルバー 有限要素法(陰解法):粗行列、計算量少ない : 領域分割法へ変換 z SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 並列の効果(どの位?) 並列化不可 並列化可能 20 80 単体実行(1CPU) 並列ジョブ 並列 1CPU 並列 2CPU 20 20 2 20 20 2 並列による性能向上分 並列 3CPU 並列 4CPU 0 20 20 2 並列オーバヘッドもあるよ 20 20 2 高々100/40=2.5倍 20 ロードバランス良好の時 SofTek 並列化率 40 60 80 100 (分) www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 並列の効果 (Scalability) アムダールの法則=並列化率 P% の時の効果は = 100 / (100-P) : 理想値 並列化効率 並列化率 60.0% 70.0% 80.0% 85.0% 90.0% 91.0% 92.0% 93.0% 94.0% 95.0% 96.0% 97.0% 98.0% 99.0% 99.5% SofTek 2 1.43 1.54 1.67 1.74 1.82 1.83 1.85 1.87 1.89 1.90 1.92 1.94 1.96 1.98 1.99 Number of CPU 4 6 8 1.82 2.00 2.11 2.11 2.40 2.58 2.50 3.00 3.33 2.76 3.43 3.90 3.08 4.00 4.71 3.15 4.14 4.91 3.23 4.29 5.13 3.31 4.44 5.37 3.39 4.62 5.63 3.48 4.80 5.93 3.57 5.00 6.25 3.67 5.22 6.61 3.77 5.45 7.02 3.88 5.71 7.48 3.94 5.85 7.73 12 2.22 2.79 3.75 4.53 5.71 6.03 6.38 6.78 7.23 7.74 8.33 9.02 9.84 10.81 11.37 16 2.29 2.91 4.00 4.92 6.40 6.81 7.27 7.80 8.42 9.14 10.00 11.03 12.31 13.91 14.88 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 並列実行での性能低下の傾向 並列化率と並列効果 並列化効率(倍率) 35.00 並列化率 30.00 25.00 100% 20.00 15.00 95% 90% 10.00 5.00 0.00 0 5 10 15 20 25 30 35 並列度(CPU数) SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Pentium-box並列 or Alpha-box並列? 並列化率 95%時 %時 1台(CPU)当たりの価格性能比= 1 : ? Pentium vs. Alpha 並列実効性能の比較 Pentium4 (1CPU)性 20 18.8 18 一例 並列化効率(倍率 16 14 13.7 Alpha21264ベース 12.5 12 11.6 10 8.9 8 7.2 6 9.1 Pentium 4ベース 7.7 5.9 5.2 4.8 4 2.9 3.5 2 8CPU 1.9 16CPU 0 0 5 10 15 20 25 30 35 並列度(CPU数) SofTek 例えば、あるプログラムの1CPU実効性能比 Alpha866MHz : Pen4 1.8GHz = 1.5 : 1 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 通信性能(Fastethernet vs Myrinet2000) Fastethernet Myrinet (32bit/ 33MHz) #--------------------------------------------------------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------------------------------------------------------# Benchmarking Sendrecv # Benchmarking Sendrecv # ( #processes = 2 ) # ( #processes = 2 ) # ( 6 additional processes waiting in MPI_Barrier) # ( 6 additional processes waiting in MPI_Barrier) MPI_Barrier) MPI_Barrier) #--------------------------------------------------------------------------------------------------------------------------------------------------------- #--------------------------------------------------------------------------------------------------------------------------------------------------------#bytes #repetitions t_min[ #bytes #repetitions t_min[ Mbytes/sec t_min[usec] usec] t_max[ t_max[usec] usec] t_avg[ t_avg[usec] usec] Mbytes/sec t_min[usec] usec] t_max[ t_max[usec] usec] t_avg[ t_avg[usec] usec] 0 1000 116.37 116.41 116.39 0.00 0 1000 19.32 19.33 19.33 0.00 116.39 19.33 1 1000 127.91 127.98 127.95 0.01 1 1000 19.66 19.67 19.67 0.10 127.95 19.67 2 1000 126.59 126.72 126.66 0.03 2 1000 19.30 19.30 19.30 0.20 126.66 19.30 4 1000 124.10 124.16 124.13 0.06 4 1000 19.85 19.86 19.86 0.38 124.13 19.86 8 1000 128.12 128.16 128.14 0.12 128.14 8 1000 19.07 19.07 19.07 0.80 19.07 16 1000 165.05 165.05 165.05 0.18 16 1000 19.32 19.33 19.32 1.58 165.05 19.32 32 1000 170.47 170.47 170.47 0.36 32 1000 18.82 18.82 18.82 3.24 170.47 18.82 64 1000 188.47 188.47 188.47 0.65 64 1000 20.11 20.11 20.11 6.07 188.47 20.11 128 1000 275.83 275.83 275.83 0.89 128 1000 24.96 24.97 24.97 9.78 275.83 24.97 256 1000 336.48 336.48 336.48 1.45 256 1000 28.84 28.87 28.85 16.91 336.48 28.85 512 1000 242.23 242.24 242.23 4.03 512 1000 38.30 38.32 38.31 25.48 242.23 38.31 1024 1000 323.35 323.37 323.36 6.04 1024 1000 51.82 51.87 51.85 37.66 323.36 51.85 2048 1000 453.36 453.38 453.37 8.62 2048 1000 77.67 77.73 77.70 50.25 453.37 77.70 4096 1000 597.42 597.46 597.44 13.08 4096 1000 125.66 125.76 125.71 62.12 597.44 125.71 8192 1000 1049.75 1050.09 1049.92 14.88 8192 1000 212.47 212.50 212.49 73.53 1049.92 212.49 16384 1000 2808.09 2808.31 2808.20 11.13 16384 1000 485.85 485.85 485.85 64.32 2808.20 485.85 32768 1000 5515.63 5526.82 5521.22 11.31 5521.22 32768 1000 857.66 857.70 857.68 72.87 857.68 65536 640 11168.85 11169.77 11169.31 11.19 65536 640 2066.26 2066.34 2066.30 60.49 11169.31 2066.30 131072 320 24089.33 24091.39 24090.36 10.38 131072 320 2837.76 2837.90 2837.83 88.09 24090.36 2837.83 262144 160 47636.44 47641.49 47638.97 10.50 262144 160 5473.91 5474.03 5473.97 91.34 47638.97 5473.97 524288 80 95915.71 95929.79 95922.75 10.42 524288 80 10717.71 10717.93 10717.82 93.30 95922.75 10717.82 1048576 40 191861.33 191897.18 191879.25 10.42 1048576 40 21132.10 21132.35 21132.23 94.64 191879.25 21132.23 2097152 20 387609.00 387691.55 387650.27 10.32 2097152 20 42054.10 42056.25 42055.18 95.11 387650.27 42055.18 4194304 10 781474.60 781569.20 781521.90 10.24 4194304 10 83936.00 83937.10 83936.55 95.31 781521.90 83936.55 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 FastEthernet vs. Myrinetの価格 価格の違いは? 32 node Clusterを想定 (万円) 媒体 NICカード LANスイッチ 総合コスト FastEthernet 0.5 x 32 41.0 25.0 930.0 Myrinet 20.0 x 32 290.0 Price Ratio = 1 : 23 どっちが良いか? 賢い買い方は、 アプリケーション特性依存、CPU数とその性能にも依存 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 通信 FastEthernetかMyrinetか? 通信媒体の違いと性能の関連:アプリに依存する 8 Pentium III 550MHzを使用(8CPU-MPI並列時) (実効性能比) 100Base 1 1)LU(Linpack) 2)CG(Sparse) 1 3)MM5 1 4)ATM simulation 1 Myrinet 1.23 1.66 1.1 13.0 相対的通信量少ない Myrinet買っても損しない 通信の最適化Good! 通信遅延小のMyrinet 1) Dense matrix computation (CPU intensive & Minimum Comm.) 2) Sparse matrix computation (適度な通信量あるのでMyrinet有利) 3) Regional気候モデル(数値モデル自体が並列最適化良:good scalability) 4) 離散事象シミュレーション(ネットワーク解析) A lot of small messages (tiny messages)==>Myrinet有利(Latency) SofTek <Mr. Martin Kunz comment from Beowulf-ML> www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 3D-FFT計算における通信特性 GM / Myrinet2000 TCP/ IP / Fast Ethernet 全計算時間100% 全計算時間 通信時間 演算時間 30% 70% 通信時間 時間トレース SofTek 通信パターンの違い(4 通信パターンの違い( 並列の場合) 並列の場合) 4.67MB/sec VAMPIR / VAMPIRtrace43.1MB/sec www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 ミドルウェアの違いによる性能差 コンパイラ製品による性能の違い ・商用Compilerの比較 の比較 ・商用 Athlon-550 1.5 PenII-400MHz 150 高いH/ を買うより 高い Wを買うより 的確なコンパイラを 選択した方がよい 平均MFLOPS 100 1.0 0.95 0.94 0.79 0.34 50 0 PGI Absoft Fujits GNU NAG 系列1 69.4 65.7 65.5 54.5 PGI 23.4 104.5 コンパイラ製品名 http:// www.nersc.gov/ research/ FTG/ pcp/ performance.html その他の性能改善の方策 ・並列ライブラリ(ATLAS,ScaLapack,…) ・並列ライブラリ( ・通信ミドルウェア(MPI…) ・通信ミドルウェア( ・通信ドライバの選択(低通信遅延ソフトウェア) ・通信ドライバの選択 低通信遅延ソフトウェア) ・Linux TCP/ IPのチューニング のチューニング ・ SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 設置性と価格、熱対策と信頼性 設置性を考えたら、やっぱりラックマウントかな? DeskTop筐体 ラック筐体 型名 Dell Dimension Dell PowerEdge-Rack 周波数 866MHz/ 128MB 866MHz 700MHz 1U 高さ 大きい 2 U 54.4 (万円) 42.4 価格 20 2.72 高い! 価格比 1 2.1 高い 信頼性を上げるには、筐体熱対策に尽きる 格好良さ(サイズ)を求めると高速MPUは使えない でも、……日本は狭い… SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 並列プログラム開発環境での問題 見たいものが見えない z z 並列デバッグ時の問題箇所の特定が難しい MPI開発では、演算・通信の状況が見えない 並列プログラミング環境の導入必須 業界標準のデバッガ&ツール マルチプロセスデバッガ : TotalView MPI プログラムの性能解析 : VAMPIR SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 並列デバッガ TotalView 業界標準並列デバッガ 操作性に優れたGUIにより効率よく使用できる z マウスのボタン操作で主要なコマンドを実行可能 多様な分散、並列プログラミングモデルをサポート 巨大で、複雑なプログラムもデバッグ可能 様々な言語、プラットフォーム、アーキテクチャで利用可能 (MPIのデバッキング可能) SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 TotalView の実行状況 Root ウィンドウ Data ウィンドウ Process ウィンドウ 右クリック ダイブによりプロセスの 内部を表示可能 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 TotalView データの可視化 分散配列の可視化 SofTek Visualize array distribution www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 VAMPIRの特徴 MPI (及びアプリケーションイベント)のオフラ イントレース解析 VAMPIRtrace ツールによるトレース生成 扱いやすいユーザインタフェース スケーラブル(時間とプロセッサ空間) 秀逸なズーミング、フィルタリング機能 高性能グラフィックス MPIとアプリケーションイベントの表示、解析: z z SofTek MPI ルーチン 1対1 、集団通信 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 VAMPIR GUI (1) MPIの動作挙動が見える SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 VAMPIR GUI (2) MPICH(p4)による通信状況のスナップショット SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 VAMPIR GUI (3) 通信のサマリチャート(二つの結果の同定例) MPICH MPI/GAMMA SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 真に使えるクラスタシステムの実現 目的は何?(並列、分散、H.A.、) 使用アプリケーションの特性は?(演算、並列性、…) 要求する性能要件を定義 最適なH/Wコンポーネントを選択 価格性能比(高い計算機部材が必要か?) z 信頼性はどの程度、設置性との関連 z 最適なソフトウェアの選択 z ハードウェア購入より、安く性能を向上させることが可能 システムの構築 z 目に見えない問題の解決=>Service Providerへ 結果的にエンジニアリング費含めても安い買い物が可能 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 検討すべき項目(ランダムに明示) 【CPU構成の選択】 ・シングル筐体 ・デュアル筐体 【MPUの選択】 ・Pentiumベース ・Alphaベース ・相性の問題 【アプリケーションの演算特性】 ・浮動小数点演算特性 ・メモリアクセス特性 【アプリケーションの並列特性】 ・並列高速性かスループット高速性か ・並列特性 マイクロ並列(OpenMP、DO loopレベル) マクロ並列 (領域分割等) ・MPIによる並列 カーネルの並列(Linear Solver,FFT等) アプリ構造の並列 ・その他の並列手法(HPF等) ・解法による並列性(差分、粒子系等) ・通信の特性(近傍通信かグローバル通信か) 【価格性能比の検討】 ・MPUの性能比と価格 ・通信媒体の性能比と価格 【通信装置の選択】 ・FastEthenet ・Myrinet ・Giganet(VIA) ・SCI 【並列化技法の選択余地の見解】 ・通信の隠蔽処理が可能か ・ロードバランシング手法 ・非同期処理 【ネットワークトポロジの選択】 ・スイッチの接続形態 【性能スケーラビリティの期待値】 (運用方針) ・使用するCPU数の見解 ・CPU partitioning運用 【ソフトウェアの選択】・コンパイラ・管理ソフトウェア・運用ソフトウェア・開発環境ツール ・Linuxの相性 【通信ミドルウェアの選択】 ・MPICH ・MPI/ pro over VIA ・MVICH over VIA ・MPI over Myrinet-GM ・MPI over Myrinet-PM ・GAMMA 【保守体系の選択】 ・H/ W保守 部品センドバック 障害時On-Site保守 ・システム保守 障害切り分け システムエンジニアリング ・ソフトウェア保守 並列化サポート コンサルティング 【信頼性への対処】 ・設置性 ・熱対策と構成 ・H/ Wのスペック SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Cluster Information Directory Powered by SofTek http:// www.softek.co.jp/ CID/ PCクラスタに関する クラスタに関するH/ 、S/ W クラスタに関する W、 技術情報サイト 7/ (月)正式公開 23/ 01(月)正式公開 ・PCクラスタ一般情報 ・性能情報 ・ベンチマーク ・ハードウェア情報 ・ソフトウェア情報 ・Linux OS情報 情報 ・クラスタ構築・応用ノウハウ SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 Cluster Solutions Service by SofTek ・最適なソリューションの提供 ・最適なコストでのシステム構築 ・クラスタ総合技術力でバックアップ ソフテックは、 テクニカル・サービス・プロバイダ http:// www.softek.co.jp/ Cluster/ 7/ 23/ 01(月)正式公開 (月)正式公開 SofTek www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001 ソフテック -Technical Service Providerクラスタ関連 SofTek ミドルウェア製品 Technical Service Provider H/ W Providers お客様 最適システム選択 並列システム設計 並列システム構築 並列システムチューニング 並列アプリケーション開発 プロダクションシステム開発 ・予算とニーズ ・最適なシステムの選択 ・対投資効果の見解 ・アプリケーション 特性との相性 ソフテックのバックグラウンド ・最適な価格でのH/W ・最適な価格でのH/W購入 H/W購入 ・並列プロフェッショナル・官公庁大型スパコン・並列システムの最適設計 積算・性能評価等の総合導入コンサルティング サービス ・アプリケーションの並列化実装、性能評価実績 ・並列ミドルウェアの共同研究開発 SofTek http:// www.softek.co.jp/ Cluster/ IBM,Dell,SGI NEC,日立 日立,富士通 日立 富士通 CTC他商社系 他商社系 秋葉原ショップ系 ・ニーズに応じた選択 ・コスト最小優先 ・信頼性・保守優先 ・見積合わせ可能 ・入札システム導入 www.softek.co.jp (C) SofTek Systems Inc.. 2000-2001