Comments
Description
Transcript
主記憶バンド幅がプロセッサ性能に与える影響の評価
Vol. 41 情報処理学会論文誌 No. 6 June 2000 主記憶バンド幅がプロセッサ性能に与える影響の評価 江 口 修 平† 五 島 正 裕† 1. 概 塩 谷 亮 太† 坂 井 修 一† 表 1 主記憶,および,キャッシュに関するパラメータ Table 1 Parameters of main memory and caches 要 近年,プロセッサの処理速度の向上に伴い,新たな 主記憶モジュールの規格が出る度に広いバンド幅を持 つ主記憶モジュールが登場している.また,複数のチャ パラメータ 値 L1I 64Bytes line, 2Way, 64kB 3cycles Access latency 64Bytes line, 2Way, 64kB 3cycles Access latency 64Bytes line, 16Way, 1MB 25cycles Access latency DDR2-5300 × 2 2GB, 200 cycles Access Latency 5.3GB/s(シングル・チャネル) 10.6GB/s(デュアル・チャネル) L1D ネル上の主記憶モジュールに同時にアクセスすること L2 によりバンド幅を広げる技術も存在する.しかし,主 記憶のバンド幅の変化が,実際にどのような影響を与 主記憶 えるかについては,詳細な評価がなされて来なかった. そこで,今回我々は実機とシミュレーションを用いて, 主記憶バンド幅がプロセッサ性能に与える影響を評価 した.今回は,プロセッサの性能評価に一般的に用い 表 2 シミュレータのパラメータ Table 2 Parameters for Simulator られる SPEC20004) を用いた。その結果,バンド幅 を半減したとしても,プロセッサの動作速度に与える 影響は少ないという結果が得られた. 2. 評 価 環 境 2.1 ベンチマーク ベンチマークとしては SPEC2000 を主に用いた.そ パラメータ 値 ISA Fetch Width Issue Width Integer Units FP Units Register Files Insn Windows Alpha 4 INT:2, FP:2, MEM:2 ALU:2, iMUL:1, iDIV:1 fADD:1, fMUL:1, fDIV :1 INT:192, FP:128 INT:32, FP:32, Mem:32 の他,より基本的な性質を把握するために,主記憶リー ド (連続アドレスの読み込み),主記憶コピー (連続ア はデュアル・コアであり,表 1 の L1I,L1D,L2 キャッ ドレスのコピー),行列積の 3 種マイクロ・ベンチマー シュのパラメータは,1 コア分のものである. クを合わせて用いた. 2.2 実 2.3 シミュレータ 機 シ ミュレ ー タ に は ,本 研 究 室 で 開 発 し た cycle- 実機として,AMD Athlon 64 X21) 5200+(動 accurate なシミュレータである「鬼斬弐6) ,5) 」を用 作周波数 2.6GHz)を搭載 PC を使用した. いた. 主記憶は,DDR2-5300 1GB モジュールを 2 枚用 主記憶,および,キャッシュに関するパラメータは いた.メモリ・モジュール単体で 5.3GB/s のバンド 実機に合わせてある(表 1).命令セットやプロセッサ 幅を持つ.これをデュアル・チャネルで動作させるこ 内部の演算器の個数など,その他のパラメータは表 3 とにより,バンド幅は 10.6GB/s となる.2 枚のメモ の通りである. リ・モジュールを一方のチャネルに差すことにより, 2.4 評 価 方 法 シングル・チャネル動作となる. 実機では,実行時間を測定した.実機での測定では, Athlon 64 X2 の主記憶,および,キャッシュに関係 OS などの影響のため,ときおり異常に遅い結果が出 するパラメータは表 1 の通りである.Athlon 64 X2 ることがある.そのため,1 つのベンチマークにつき 5 回ずつ実行し,良いほうの 3 つの結果の平均値を † 東京大学大学院 情報理工学系研究科 Graduate School of Information Science and Technology, The University of Tokyo とった. シミュレータでは,主に,実行サイクル数を測定し 1234 Vol. 41 No. 6 1235 表 3 速度低下率 Table 3 Speed down of execution speed ベンチマーク シミュレータ 実 機 SPEC2000INT 平均 SPEC2000FP 平均 行列積 主記憶リード 主記憶コピー 1.1% 5.1% 4.1% 50.0% 7.9% 1.3% 5.1% 6.1% 37.6% 1.3% た.ベンチマーク全体を実行することは時間的に困 難であるので,先頭の 1G 命令をスキップして後の 100M 命令を実行した. 2.4.1 評 価 結 果 1 0.8 値測 実0.6 度 速 対 相0.4 ) ( 0.2 0 0 0.2 0.4 0.6 相対速度 予測値 ( 0.8 1 ) 図 1 相対速度の予測値と実測値の相関 2.5 主記憶バンド幅を半減させた場合の速度低下率 表 3 に,デュアル・チャネルかシングル・チャネルへ と,主記憶バンド幅を半減させた時の,各ベンチマー クの相対実行速度の.平均低下率をまとめた. クにあたる. 3. お わ り に SPEC2000int では,バンド幅を半減させても,全 主記憶バンド幅がプロセッサに与える影響を明らか てのベンチマークで速度の低下は 10%以内にとどまっ にするため,シミュレータと実機で主記憶バンド幅を た。SPEC2000fp では,一部で大幅に速度が低下した 変化させて,速度低下率を測定した.その結果,主記 ベンチマークもあったが,多くのベンチマークで速度 憶バンド幅を半減させたにも関わらず,速度低下率は の低下は少なかった. わずかであった.行列積のような,主記憶を大量に消 また,行列積のようなメモリを多く使うベンチマー クでも速度の低下は大きくなかった. 2.6 予測速度低下率 費する数値処理の典型のようなプログラムであっても, 主記憶バンド幅に対する要求は厳しくはない場合もあ ることを述べ,その原因も明らかにした. 主記憶バンド幅が 5.3GB/s であるということは,コ 今 後 は ,HPC 向 け の ベ ン チ マ ー ク で あ る 姫 野 アの動作周波数が 2.6GHz であるので,64B のキャッ ベンチ3) や,組み込み向けのベンチマークである シュ・ラインを転送するのに 30 サイクル かかること EEMBC2) でも評価を行う予定である. になるる. このことから,主記憶へのアクセス間隔の統計を取 れば,バンド幅の影響により,どれだけ実行時間が増 加するか推定することができる.すなわち,前回から 今回までの主記憶アクセスの間隔が n サイクル であ るとすれば,n ≥ 30(シングル・チャネル)であれ ば,コアは待たされることがない.n < 30 であれば, (30 − n) サイクル だけ余計に待たされることになる. 図 1 は予測速度低下率から求めた相対速度の予測値 と,シミュレータで測定した相対速度の実測値 の相 関を表したものである.同図中横軸が予測値を,縦軸 が実測値 であり,各点は 1 つのベンチマークに対応 する.同図では,全ての点がほぼ一直線上に並んでお り,このような単純な計算によって,速度低下率が高 精度に推定できることを示している. このことから,主記憶消費量が大きく,キャッシュ・ ミス率が高いベンチマークであっても,短い間隔での 主記憶へのアクセスが少なければ,バンド幅の影響を 受けにくいと言える.行列積はこのようなベンチマー 参 考 文 献 1) Amd athlon x2 dual-core processor product data sheet. http://www.amd.com/us-en/ assets/content type/white papers and tech docs/43042.pdf. 2) Eembc – the embedded microprocessor benchmark consortium. http://www.eembc.org/ home.php. 3) Himeno benchmark xp - 姫 野 ベ ン チ と は. http://accc.riken.jp/HPC/HimenoBMT/ index.html. 4) Standard performance evaluation corporation. http://www.spec.org. 5) 渡辺憲一. プロセッサ・シミュレータ「鬼斬2」 の設計と実装. 修士論文, 東京大学大学院情報理 工学系研究科, 2008. 6) 渡辺憲一, 一林宏憲, 五島正裕, 坂井修一. プロ セッサ・シミュレータ「鬼斬」の設計. 先進的計算基 盤システムシンポジウム SACSIS, pp. 194–195, 2007.