Comments
Description
Transcript
温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価
温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価 花田高彬† 井上弘士‡ 村上和彰‡ † 九州大学大学院 システム情報科学府 ‡ 九州大学大学院 システム情報科学研究院 ‡ 九州大学大学院 1 発表内容 • 研究背景 – 三次元積層マルチコア・プロセッサ – 温度問題 • 評価実験 – プロセッサ想定 – 温度解析 – 温度制約下における性能評価 • 発表のまとめ 発表 まとめ 2 三次元積層技術 • プロセッサの性能向上を実現する手段の一つ • 三次元積層集積回路の特徴: 集積回路同士を積層し接合 積層回路間は垂直に配線 三次元積層 16Gbit NAND Flash 16Gbi NAND Fl h (Samsung Electronics) ※ここでは例として 層間金属柱Through‐Silicon Via (TSV)による 垂直方向配線 • 三次元積層の利点 • ダイ面積を維持しつつ搭載可能トランジスタ数を向上 • 三次元方向配線&積層ダイの薄膜化により 総配線長を短縮 3 実現が期待されている 三次元積層(3D)プロセ サ 三次元積層(3D)プロセッサ • 主記憶 主記憶DRAM積層プロセッサ 積層 ッサ[[Loi’06][Loh’08] ][ ] – オンチップ主記憶アクセス の実現 – 多数本の層間配線によって 広いバス幅を確保可能 DRAM. die 積層 DRAM メモリ コントローラ プ プロセッサ・ダイ • 3Dマルチコア・プロセッサ – 小さい実装面積に積層ダイ数 に比例したプロセッサ・コアを 例 を 搭載可能 – 高速なプロセッサ 高速なプロセッサ・コア間通信 コア間通信 Proc. die 積層 プロセッサ ダイ 発表者はこちらの3Dプロセッサに着目している 4 3Dプ セッサの温度問題 3Dプロセッサの温度問題 • 3Dプロセッサは2つの要因により高温化 ッサは の要因 より高温化 – 温度上昇要因 • ダイ面積当たりの消費電力密度の増加 • 垂直方向熱抵抗の増加 – 積層ダイ数に伴い増加 放熱の方向 積層ダイ数増加に伴い 積層ダイの 消費電力密度が増加 消費電力が追加 放熱の方向 発熱 2D プロセッサ 積層ダイ数に比例し 熱抵抗増加 発熱 発熱 発熱 L2$ 発熱 Core 4層 3D プロセッサ 5 温度制約下における 3Dマルチコア プロセ サの性能 3Dマルチコア・プロセッサの性能 例えば,以下の想定を置く 温度制約を満たしつつ3Dマルチコア・プロセッサを動作 ⇒温度低減のため動作周波数を調整 この時,積層ダイが増えると… 2層積層 コア数は倍! 4層積層 コア数さらに倍!! 低 プロセッサ・コア数(並列度) 高 高 動作周波数 低 並列度と動作周波数のトレード・オフ関係 並列度と動作周波数 ド オ 関係 ⇒積層ダイ数増加によって性能向上するかどうかわからない!! 6 性能評価の目的と手順 • 目的 目的: 温度制約下における3Dマルチコア・プロセッサの 性能評価 – プロセッサ・ダイ積層によるコア数増加が 性能へ与える影響を明らかにする • 評価手順: 1. 温度解析 ⇒温度制約を満たす動作周波数を得る 温度制約を満たす動作周波数を得る 2. 温度制約下における性能評価 7 発表内容 • 研究背景 – 三次元積層マルチコア・プロセッサ – 温度問題 • 評価実験 – プロセッサ想定 – 温度解析 – 温度制約下における性能評価 • 発表のまとめ 発表 まとめ 8 3Dマルチコア・プロセッサの想定 3Dマルチ ア プ セッサの想定 • 積層構造 ヒ トシンク ヒートシンク Size: 10 x 10 x 2.5cm 熱伝導率: 240 W/m℃ 層間接合層 ヒートスプレッダ Size: 3 x 3 x 0.1cm 熱伝導率: 400 W/m℃ 熱伝導率: 400 W/m℃ 厚: 2um 熱伝導率: 60.24W/m℃ 想定プロセッサ 層間接続構造 断面図(4層構成) • フロアプラン ※パラメータは既存研究[Black’06]にて扱われた値を用いた L2 Shared Cache Core #1 Core #1 Core #2 Int L1 Cache MMU FPU ホットスポット り易 になり易い プロセッサ・ダイのフロアプラン(各層) Non Flip Non‐Flip Flip 2種類の積層パタン (4層8コアの場合) 9 温度解析実験の概要 • 目的: 目的 温度制約を満たす3Dマルチコア・プロセッサの 最大動作周波数を得る • 手段: 温度[℃] 制限温度 ■ ● 8コア(3D) ■ 2コア(2D) ● ● ■ ■ ● ● ※熱伝導シミュレーションには, プロセッサ熱伝導シミュレータ “HotSpot‐5.0”[Skadron’03]を用いる ● ■ ■ ● 1.熱伝導シミュレーションより, 熱伝導シミ レ ションより, 動作周波数と温度の 相関プロットを作成 ● 2.プロットより,近似曲線を作成 ● 動作周波数[Hz] 3.近似曲線より,制限温度 近似曲線より,制限温度 での動作周波数を求める 10 消費電力,動作周波数,電源電圧の想定 • 消費電力(@ 消費電力(@1.2GHz):120.11W× ) {ダイ数} – 各ダイの消費電力内訳 L2 Cache 9.17W 7.89W Core #2 55.27W Core #1 55.27W 14.45W FPU OoO Issue Logic 9.98W MMU 7 78W 7.78W Int Exe. Unit Int. Exe Unit 15.36W L1 Cache • 基準動作周波数:1.2GHz • 基準電源電圧:1.5V 基準電源電 ※コア,L2キャッシュの消費電力は,Alpha21364のピーク消費電力[Jain’01]を参考にした 11 消費電力と電源電圧の 動作周波数依存想定 • 消費電力と動作周波数,電源電圧の関係 P fVdd 2 f: 動作周波数 f: 動作周波数 V: 電源電圧 • 動作周波数を120MHz変動させる毎に 電源電圧は0 05V変動すると想定 電源電圧は0.05V変動すると想定 12 温度解析結果 プロセッ ッサ温度 (deg C) 100 90 80 2Cores(2D) 4Cores 4Cores(Flip) 8Cores 8Cores(Flip) 16Cores 16Cores(Flip) 70 60 50 40 30 0 0.24 0.48 0.72 0.96 1.2 1.44 1.68 プロセッサ動作周波数 プ セッサ動作周波数 (GHz) 1.92 2.16 2.4 • コア数増加(積層ダイ数増加)に伴い温度上昇 • 熱分散を考慮に入れた積層パタンでは比較的低温 13 温度解析結果 プロセッ ッサ温度 (deg C) 100 制限温度 88.0 (deg C) 90 80 2Cores(2D) 4Cores 4Cores(Flip) 8Cores 8Cores(Flip) 16Cores 16Cores(Flip) 70 60 50 40 30 0 0.24 プロセッサ・ コア数 動作周波数(GHz) (@ 制限温度) 0.48 0.72 0.96 1.2 1.44 1.68 プロセッサ動作周波数 プ セッサ動作周波数 (GHz) 2Cores 4Cores(3D 2Layers) (2D) Non‐Flip o p Flip p 2.00 0.98 1.18 1.92 2.16 2.4 8Cores(3D 4Layers) 16Cores(3D 8Layers) Non‐Flip o p 0.61 Flip p 0.75 Non‐Flip o p 0.37 Flip p 0.4714 Flipによる熱分散効果(3D,8コア@0.6GHz) pによる熱分散効果( , ア@ ) ヒートシンク側 第1層 第2層 第3層 第4層 Non‐ Flip ホットスポット ホ トスポ ト (温度) FPU (87.58 deg C) FPU (87.25 deg C) FPU (86.59 deg C) FPU (85.60 deg C) Int. Exe. Unit (72.04 deg C) 部分 L1 Cacheの一部分 (71.76 deg C) Int. Exe. Unit (71.33 deg C) L1 Cacheの一部分 (70.68 deg C) Flip ホットスポット (温度) ※赤字はそのプロセッサ内で最も高温となった部分(と,その温度) 発表内容 • 研究背景 – 三次元積層マルチコア・プロセッサ – 温度問題 • 評価実験 – 温度解析 – 温度制約下における性能評価 • 発表のまとめ 16 性能評価実験環境 • 評価方法:性能モデルを用いた評価 評価方法 性能 デルを用 た評価 – 指標:1秒間当たりのギガ命令実行数 (GIPS) – モデル: モデル GIPS IPC F 3D 実ベンチマーク・プログラムを用いた 実ベンチマ ク プログラムを用いた プロセッサ・シミュレーションから求める 温度制約下動作周波数 [GHz] • プロセッサ プロセッサ・シミュレータ:M5 シミ レ タ M5 • ベンチマーク・プログラム: Splash‐2より6種のプログラムを選択 ※ GIPS: Giga Instructions Per Second, IPC: Instructions Per Cycle 17 シミュレータに与えた ア キテクチャ想定パラメ タ アーキテクチャ想定パラメータ • プロセッサ・コア ッサ ア – 命令発行方式:In‐Order, 発行幅=1 – L1命令/データ・キャッシュ:32KB, 2Ways L1命令/デ タ キャッシュ 32KB 2Wa s – コア数:{ダイ数}×2コア • 共有L2キャッシュ – 容量: {ダイ数}×2MB 容量: {ダイ数}×2MB – 連想度: 8ways – L2アクセス時間: アクセス時間 10.4nsec, 13.2nsec, 17.7nsec, 24.6nsec 2D 2コア 2D 2コア 3D 4コア 3D 4コア 3D 8コア 3D 8コア 3D 16コア 3D 16コア 18 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 性能評価結果 正規化GIPS 2 1.75 Barnes ■■■:GIPS値(Non ‐ Flip) □□□:GIPS値(Flip) + :IPC値 Cholesky FFT 正規化IPC 8 7 1.5 6 1 25 1.25 5 1 4 0.75 3 0.5 2 0.25 1 0 0 Ocean Contig Raytrace Water Spatial 19 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 性能評価結果 正規化GIPS 2 1.75 Barnes 正規化IPC コア数増加につれて ア数増加 れて 8 性能向上!! 7 1.5 6 1 25 1.25 5 1 4 0.75 3 0.5 2 0.25 1 0 0 コア数増加に伴うIPC向上率が大きい ※具体的には,(IPC向上>動作周波数低下)の関係が成り立っている But.. コア数増加に見合った性能向上は得られていない Cholesky FFT Ocean Contig Raytrace Water Spatial 20 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 2Coress (2D) 4Coress(3D) 8Coress(3D) 16Coress(3D) 性能評価結果 正規化GIPS Barnes 正規化IPC 2 コア数増加につれて ア数増加に れて 1.75 Cholesky FFT Ocean Contig Raytrace 8 性能低下… 7 1.5 6 1 25 1.25 5 1 4 0.75 3 0.5 2 0.25 1 0 0 コア数増加に伴う ア数増加に伴うIPC向上率が小さい ※具体的には,(IPC向上<動作周波数低下)の関係が成り立っている Water Spatial 21 発表のまとめ • 概要: 温度制約下における3Dマルチコア・プロセッサの 性能評価 • 結論: – 性能を高めるには熱を分散するフロアプランが有効 – 動作周波数削減による温度低減においては, コア数増加に見合う性能向上は望みにくい • 今後の予定: – 低消費電力なプロセッサをベースとした性能評価 低消費電力なプ サをベ と た性能評価 – Dynamic Thermal Managementのように性能への影響 の少ない温度低減手法を取り入れた場合の性能評価 少な 温度低減手法を取り入れた場合 性能評価 22 御清聴ありがとうございました 23