...

100万円で購入可能なシステムは いつLinpack実行性能で100GFlopsを

by user

on
Category: Documents
18

views

Report

Comments

Transcript

100万円で購入可能なシステムは いつLinpack実行性能で100GFlopsを
第 58 回 月例発表会(2003 年 05 月)
知的システムデザイン研究室
100 万円で購入可能なシステムは
いつ Linpack 実行性能で 100GFlops を超えるか?
∼近未来 PC クラスタ量産化計画∼
真武信和,下坂久司
Nobukazu MATAKE,Hisasi SIMOSAKA
1
はじめに
スタはベクトル計算機や専用スイッチをもつスーパーコ
ンピュータに比べ並列化効率が低い.しかしながら PC
計算機の性能は,1990 年代に入り,急速に向上した.
クラスタはコモディティな製品で構築できるためコスト
世界中の計算機の性能をランク付けしている Top 500
パフォーマンスがよく,近年スーパーコンピュータに近
Computer Sites1) では,1993 年 11 月に最も性能のよい
計算機が 100GFlops であったのに対し,2002 年 11 月
には 35TFlops となった.また 2001 年 11 月の 500 位が
100GFlops を超える性能を記録した.このことは,一定
の性能を持つ計算機の価格が,急速に下がったことを意
味する.本発表では,
「100GFlops のシステムは,いつ
頃 100 万円を切るか」について考察する.
目し,100 万円以内で 100GFlops を超えるシステムの
2
て次の3つが挙げられる.
い性能を持つ PC クラスタも増えている.本発表におい
ても,コストパフォーマンスの面から PC クラスタに注
構築を目指す.
4
PC クラスタ性能向上の 3 大要因
PC クラスタでは,性能を向上させる大きな要因とし
Linpack とは
• CPU の性能向上
Linpack とは,米国のテネシー大学の J.Dongarra 博
士によって開発された LU 分解による連立一次方程式
の解法プログラムであり,現在 Top500 のベンチマーク
として用いられている.Linpack は並列計算に向いたベ
ンチマークであり,並列計算機を含め様々なアーキテク
チャの計測が出来る. 以下に Linpack ベンチマークの
特徴を挙げる.
• ノード間の通信性能向上
• 総メモリ容量
PC クラスタの構築に際しては,コストパフォーマン
スのよいコモディティな製品を用いる必要がある.
4.1
CPU の性能向上
現在コモディティな CPU,及び次世代 CPU として注
• 問題サイズを大きくすればよい結果が得られる.問
題サイズは総メモリ容量に依存する.
目される Itanium2/Opteron の性能とコストパフォーマ
• パラメータを変えることで,計算機のアーキテク
チャにあった性能が引き出せる.
Table 1 Cost-performance of CPU
ンスを調べた.結果を Table.1 に示す 2)
CPU
• 並列化効率はプロセス・ノード間の通信性能に依存
する.
Pentium3
1.26GHz
Pentium4
2.53GHz
AthlonXP
1.53GHz
AthlonMP
1.53GHz
Itanium2
1.0GHz
Opteron
1.8GHz
Linpack 値には Rmax と Rpeak という 2 つの値があ
る.これはそれぞれ「実効性能値」「
,理論ピーク値」とい
うものである.実行性能値とは,Linpack を実際に計測し
たときの性能値であり,理論ピーク値とは理論上の限界
性能値である.並列化効率は Rmax/Rpeak で表される.
例えば並列化効率=0.5 の場合,実行性能値 100GFlops
を達成するには,理論ピーク値で 200GFlops 以上が必
要になる.
3
.
価格性能比
[¥/Mflops]
24.77
2355
22,500
9.55
1623
7,000
4.31
1705
9,980
5.85
3533
525,080
148.62
不明
99,250
不明
Table.1 を見ると,Athlon MP の Dual CPU が最もコ
ストパフォーマンスが高い.よって現状では AthlonMP
基本戦略
で PC クラスタを構築するのがよい.
近年 Top500 にランキングされる計算機として,PC
クラスタがその数を伸ばしている
Rmax
cost[¥]
[Mflops]
830
20,560
3)
1)
また,近年 Intel や AMD など CPU 大手はそろって
.一般的に PC クラ
64bit プロセッサを発売した.さらに Intel はゲート長
33
で,現在 100GFlops を記録している PC クラスタを調
0.03µm という世界最小のトランジスタも開発しており,
これにより理論的には 10GHz までの CPU が開発可能
となっている.また,Intel は 2005 年に 5GHz の CPU
を発売する予定である 4) .よって CPU の性能向上は,
5∼10 年の間はムーアの法則1 に従うと思われる.
べたところ,総メモリ容量が 16GB 必要なことが分かっ
た 1) .よって本発表では,総メモリ容量 16GB を最低
値として考える.
5
Intel の 64bit プロセッサ“ Itanium2 ”は,Table.1 の
ように高い Linpack 性能を計測している.2003 年 9 月
には Itanium2 1.5GHz が発売予定であるので,来年春
には 1.7∼1.8GHz 程度の製品が発売されるであろう.ま
た AMD の 64bit プロセッサ“ Opteron ”は現時点ではま
だ Linpack ベンチマーク結果は出ていない.しかしなが
らの浮動小数点演算の速度は Itanium2 と同程度と言わ
れている 5) .これら 64bit プロセッサの性能は非常に高
いが,Itanium2 1GHz では 52 万円,Opteron 1.8GHz
でも 10 万円と,コストパフォーマンスでは 32bit プロ
セッサには劣る.2003 年 9 月には AMD から Athlon64
という PC 向けの CPU も発売される.64bit プロセッ
サの中では Athlon64 が一番コストパフォーマンスが良
くなると思われる.しかし 64bit プロセッサは,3∼5 年
かかり,PC 分野に浸透していくと思われるので,32bit
プロセッサの性能向上は当分の間続くであろう.以上の
ことから,最も早く 100 万円で 100GFlops を実現する
には,CPU は AthlonMP であると考えられる.
4.2
現在 100GFlops を達成する最も安価な構成は,Athlon
MP 2GHz dual Processor 28 ノードである.これなら
理論ピーク値 224GFlops となり,インターコネクトが
1000Base-T でも Linpack 性能値 100GFlops を超えると
考えられる.
Table 3 PC クラスタ構成案(現状)
構成要素
AthlonMP
2.0GHz
1000Base-T
LAN カード
8 ポート 1000Base-T スイッチングハブ
640MB Memory
6
128/64
28
5,000
140,000
4
25,000
100,000
28
10,000
280,000
今後の予測
T otalCost[万円] = 112 × 0.25n/3 +(14+10+28) × 0.9n
Network
Myrinet
上式から,T otalCost が 100 万円以下になる次期を計
算したところ,n = 1.52 という結果を得た.よって,100
Rpeak Rmax
[GFlops] [GFlops]
614.4
323.4
100Base-T
614.4
52
8/4
1000Base-T
26.56
12
64/64
1000Base-T
256
117
万円で購入可能なシステムは 1.52 年後(2004 年 10 月
第 5 週頃)に 100GFlops を超える!
!
参考文献
1) Top500 Computer Sites
http://www.top500.org
2) Linpack Benchmark
http://performance.netlib.org/performance/html/
linpack.data.col0.html
3) 「32 ビット互換が成功をもたらす」,AMD が 64 ビット
新プロセッサ
http://www.atmarkit.co.jp/news/200304/24/amd.
html
4) Intel,矢継ぎ早の新技術投入でサーバの技術革新を加速
http://www.zdnet.co.jp/news/0302/21/nj00_
fister.html
5) AMD,Opteron のベンチマークデータを公開
http://pcweb.mycom.co.jp/news/2003/04/23/31.
html
は並列化効率はそれぞれ 0.5,0.1,0.45 程度になると考
えられる.性能とコストパフォーマンスを考え,本発表
では 1000Base-T を使用することにする.
総メモリ容量
Linpack では問題サイズが性能に大きく影響する.ま
た適切な問題サイズは,総メモリ容量に依存する.そこ
1 「CPU
合計 [¥]
1,120,000
100GFlops を達成する CPU の価格は,ムーアの法則
から逆算すると,3 年で 0.25 倍になる.ネットワーク,
メモリの価格が 1 年で 0. 9倍になると仮定する.仮定よ
り,n 年後のシステム全体の価格は以下の式で示される.
この結果から,Myrinet,100Base-T,1000Base-T で
4.3
20,000
は 1000Base-T,メモリは総容量 16GB に決定した.
Table 2 Network の調査・計測結果
Xeon
2.4GHz
Xeon
2.4GHz
AthlonMP
1.66GHz
Pentium4
2.0GHz
単体価格 [¥]
56
ここまでで,性能向上のため,インターコネクト
Linpack ベンチマークでは,通信回線の性能が並列
化効率に大きく影響する.現在の PC クラスタのイン
ターコネクトは,Myrinet,Myrinet2000,100Base-T,
1000Base-T の 4 つが主流である.各インターコネクト
で Linpack による並列化効率の調査,計測を行ったとこ
ろ Table.2 の結果を得た.
Processor /
Node
128/64
数量
Table.3 のような構成から,現在でも計¥1,640,000 で
100GFlops を達成出来る.
ノード間の通信速度向上
CPU
現在の 100GFlops の価格
の性能は,18ヶ月で 2 倍になる」というもの.
34
Fly UP