Comments
Transcript
100万円で購入可能なシステムは いつLinpack実行性能で100GFlopsを
第 58 回 月例発表会(2003 年 05 月) 知的システムデザイン研究室 100 万円で購入可能なシステムは いつ Linpack 実行性能で 100GFlops を超えるか? ∼近未来 PC クラスタ量産化計画∼ 真武信和,下坂久司 Nobukazu MATAKE,Hisasi SIMOSAKA 1 はじめに スタはベクトル計算機や専用スイッチをもつスーパーコ ンピュータに比べ並列化効率が低い.しかしながら PC 計算機の性能は,1990 年代に入り,急速に向上した. クラスタはコモディティな製品で構築できるためコスト 世界中の計算機の性能をランク付けしている Top 500 パフォーマンスがよく,近年スーパーコンピュータに近 Computer Sites1) では,1993 年 11 月に最も性能のよい 計算機が 100GFlops であったのに対し,2002 年 11 月 には 35TFlops となった.また 2001 年 11 月の 500 位が 100GFlops を超える性能を記録した.このことは,一定 の性能を持つ計算機の価格が,急速に下がったことを意 味する.本発表では, 「100GFlops のシステムは,いつ 頃 100 万円を切るか」について考察する. 目し,100 万円以内で 100GFlops を超えるシステムの 2 て次の3つが挙げられる. い性能を持つ PC クラスタも増えている.本発表におい ても,コストパフォーマンスの面から PC クラスタに注 構築を目指す. 4 PC クラスタ性能向上の 3 大要因 PC クラスタでは,性能を向上させる大きな要因とし Linpack とは • CPU の性能向上 Linpack とは,米国のテネシー大学の J.Dongarra 博 士によって開発された LU 分解による連立一次方程式 の解法プログラムであり,現在 Top500 のベンチマーク として用いられている.Linpack は並列計算に向いたベ ンチマークであり,並列計算機を含め様々なアーキテク チャの計測が出来る. 以下に Linpack ベンチマークの 特徴を挙げる. • ノード間の通信性能向上 • 総メモリ容量 PC クラスタの構築に際しては,コストパフォーマン スのよいコモディティな製品を用いる必要がある. 4.1 CPU の性能向上 現在コモディティな CPU,及び次世代 CPU として注 • 問題サイズを大きくすればよい結果が得られる.問 題サイズは総メモリ容量に依存する. 目される Itanium2/Opteron の性能とコストパフォーマ • パラメータを変えることで,計算機のアーキテク チャにあった性能が引き出せる. Table 1 Cost-performance of CPU ンスを調べた.結果を Table.1 に示す 2) CPU • 並列化効率はプロセス・ノード間の通信性能に依存 する. Pentium3 1.26GHz Pentium4 2.53GHz AthlonXP 1.53GHz AthlonMP 1.53GHz Itanium2 1.0GHz Opteron 1.8GHz Linpack 値には Rmax と Rpeak という 2 つの値があ る.これはそれぞれ「実効性能値」「 ,理論ピーク値」とい うものである.実行性能値とは,Linpack を実際に計測し たときの性能値であり,理論ピーク値とは理論上の限界 性能値である.並列化効率は Rmax/Rpeak で表される. 例えば並列化効率=0.5 の場合,実行性能値 100GFlops を達成するには,理論ピーク値で 200GFlops 以上が必 要になる. 3 . 価格性能比 [¥/Mflops] 24.77 2355 22,500 9.55 1623 7,000 4.31 1705 9,980 5.85 3533 525,080 148.62 不明 99,250 不明 Table.1 を見ると,Athlon MP の Dual CPU が最もコ ストパフォーマンスが高い.よって現状では AthlonMP 基本戦略 で PC クラスタを構築するのがよい. 近年 Top500 にランキングされる計算機として,PC クラスタがその数を伸ばしている Rmax cost[¥] [Mflops] 830 20,560 3) 1) また,近年 Intel や AMD など CPU 大手はそろって .一般的に PC クラ 64bit プロセッサを発売した.さらに Intel はゲート長 33 で,現在 100GFlops を記録している PC クラスタを調 0.03µm という世界最小のトランジスタも開発しており, これにより理論的には 10GHz までの CPU が開発可能 となっている.また,Intel は 2005 年に 5GHz の CPU を発売する予定である 4) .よって CPU の性能向上は, 5∼10 年の間はムーアの法則1 に従うと思われる. べたところ,総メモリ容量が 16GB 必要なことが分かっ た 1) .よって本発表では,総メモリ容量 16GB を最低 値として考える. 5 Intel の 64bit プロセッサ“ Itanium2 ”は,Table.1 の ように高い Linpack 性能を計測している.2003 年 9 月 には Itanium2 1.5GHz が発売予定であるので,来年春 には 1.7∼1.8GHz 程度の製品が発売されるであろう.ま た AMD の 64bit プロセッサ“ Opteron ”は現時点ではま だ Linpack ベンチマーク結果は出ていない.しかしなが らの浮動小数点演算の速度は Itanium2 と同程度と言わ れている 5) .これら 64bit プロセッサの性能は非常に高 いが,Itanium2 1GHz では 52 万円,Opteron 1.8GHz でも 10 万円と,コストパフォーマンスでは 32bit プロ セッサには劣る.2003 年 9 月には AMD から Athlon64 という PC 向けの CPU も発売される.64bit プロセッ サの中では Athlon64 が一番コストパフォーマンスが良 くなると思われる.しかし 64bit プロセッサは,3∼5 年 かかり,PC 分野に浸透していくと思われるので,32bit プロセッサの性能向上は当分の間続くであろう.以上の ことから,最も早く 100 万円で 100GFlops を実現する には,CPU は AthlonMP であると考えられる. 4.2 現在 100GFlops を達成する最も安価な構成は,Athlon MP 2GHz dual Processor 28 ノードである.これなら 理論ピーク値 224GFlops となり,インターコネクトが 1000Base-T でも Linpack 性能値 100GFlops を超えると 考えられる. Table 3 PC クラスタ構成案(現状) 構成要素 AthlonMP 2.0GHz 1000Base-T LAN カード 8 ポート 1000Base-T スイッチングハブ 640MB Memory 6 128/64 28 5,000 140,000 4 25,000 100,000 28 10,000 280,000 今後の予測 T otalCost[万円] = 112 × 0.25n/3 +(14+10+28) × 0.9n Network Myrinet 上式から,T otalCost が 100 万円以下になる次期を計 算したところ,n = 1.52 という結果を得た.よって,100 Rpeak Rmax [GFlops] [GFlops] 614.4 323.4 100Base-T 614.4 52 8/4 1000Base-T 26.56 12 64/64 1000Base-T 256 117 万円で購入可能なシステムは 1.52 年後(2004 年 10 月 第 5 週頃)に 100GFlops を超える! ! 参考文献 1) Top500 Computer Sites http://www.top500.org 2) Linpack Benchmark http://performance.netlib.org/performance/html/ linpack.data.col0.html 3) 「32 ビット互換が成功をもたらす」,AMD が 64 ビット 新プロセッサ http://www.atmarkit.co.jp/news/200304/24/amd. html 4) Intel,矢継ぎ早の新技術投入でサーバの技術革新を加速 http://www.zdnet.co.jp/news/0302/21/nj00_ fister.html 5) AMD,Opteron のベンチマークデータを公開 http://pcweb.mycom.co.jp/news/2003/04/23/31. html は並列化効率はそれぞれ 0.5,0.1,0.45 程度になると考 えられる.性能とコストパフォーマンスを考え,本発表 では 1000Base-T を使用することにする. 総メモリ容量 Linpack では問題サイズが性能に大きく影響する.ま た適切な問題サイズは,総メモリ容量に依存する.そこ 1 「CPU 合計 [¥] 1,120,000 100GFlops を達成する CPU の価格は,ムーアの法則 から逆算すると,3 年で 0.25 倍になる.ネットワーク, メモリの価格が 1 年で 0. 9倍になると仮定する.仮定よ り,n 年後のシステム全体の価格は以下の式で示される. この結果から,Myrinet,100Base-T,1000Base-T で 4.3 20,000 は 1000Base-T,メモリは総容量 16GB に決定した. Table 2 Network の調査・計測結果 Xeon 2.4GHz Xeon 2.4GHz AthlonMP 1.66GHz Pentium4 2.0GHz 単体価格 [¥] 56 ここまでで,性能向上のため,インターコネクト Linpack ベンチマークでは,通信回線の性能が並列 化効率に大きく影響する.現在の PC クラスタのイン ターコネクトは,Myrinet,Myrinet2000,100Base-T, 1000Base-T の 4 つが主流である.各インターコネクト で Linpack による並列化効率の調査,計測を行ったとこ ろ Table.2 の結果を得た. Processor / Node 128/64 数量 Table.3 のような構成から,現在でも計¥1,640,000 で 100GFlops を達成出来る. ノード間の通信速度向上 CPU 現在の 100GFlops の価格 の性能は,18ヶ月で 2 倍になる」というもの. 34