Comments
Description
Transcript
温度制約を考慮した積層構造マルチコア・プロセッサの性能評価
社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE. 温度制約を考慮した積層構造マルチコア・プロセッサの性能評価 花田高彬† 井上弘士†† 村上和彰†† † 九州大学大学院システム情報科学府 †† 九州大学大学院システム情報科学研究院 E-mail: †[email protected], ††{inoue,murakami}@ait.kyushu-u.ac.jp あらまし 本稿では,動作温度を考慮に入れた場合の 3 次元積層マルチコア・プロセッサの性能評価を行う.集積回 路の積層,及び積層ダイ間の垂直配線によって実現される 3 次元積層プロセッサは,2 次元実装の場合と比較して高 集積かつ総配線長が短いといった利点を持つ.この 3 次元積層技術を用いたプロセッサの一形態として,プロセッサ・ ダイを積層した構造を持つ 3 次元積層マルチコア・プロセッサの実現が期待されている.3 次元積層マルチコア・プロ セッサは,ダイ数増加に伴い搭載コア数を増やすことができる.一方,3 次元積層マルチコア・プロセッサでは消費電 力密度の増加と熱抵抗の増大に伴い高温となるため,2 次元実装の場合と同等の温度にて動作させるためには動作周 波数を低減する等の対策が必要となる.性能評価の結果,3 次元積層マルチコア・プロセッサにおいて性能向上を満 たすためには実行プログラムの並列性が重要なファクタとなることが示された. キーワード 3 次元積層,温度,性能評価 Performance Evaluation of 3D Integrated Multi-core Processors with Temperature Consideration Takaaki HANADA† , Koji INOUE†† , and Kazuaki MURAKAMI†† † Graduate School of Information Science and Electrical Engineering, Kyushu University †† Faculty of Information Science and Electrical Engineering, Kyushu University E-mail: †[email protected], ††{inoue,murakami}@ait.kyushu-u.ac.jp Abstract In this paper, we evaluate three-dimensional (3D) multi-core processors with temperature constraint. 3D multi-core processors are structured by stacked conventional planer dies and high density through silicon vertical wires for die-to-die connections. Thus, 3D multi-core processors have a potential to integrate many number of cores. However, 3D multi-core processor’s temperature increases in keeping with stacked dies. For handling the thermal issue, power reduction techniques such as frequency scaling are required. However, this kind of approach negatively impacts on processor performance. From our experimentation, it has been observed that 3D multi-core processors can achieve performance gains at executing high parallelism applications. Key words 3D-Integration, Thermal, Performance Evaluation 1. は じ め に 近年,マイクロプロセッサの性能向上を実現する 1 つの手段 として 3 次元積層技術の活用が注目されている.これまでの 2 ロセスを経て製造した複数のダイを積層しこれらの間を多数の 貫通ビア(TSV:Through Silicon Via)で接続することによ り,従来の複数チップ構成では実現し得なかった極めて高いメ モリバンド幅を実現できる. 次元実装 LSI においては,回路の大規模化に伴いブロック間接 これまでに,配線遅延の低減を目的としたプロセッサ・コア 続のための配線が長くなり,引いては,プロセッサ動作周波数 (以降,コアと略す) の分割積層や,メモリウォール問題の解決 の低下や消費電力の増大を招くといった問題があった.これに を目指したコアと大容量 DRAM の積層など様々な研究開発が 対し,3 次元積層 LSI では,3 次元方向へ回路を集積すること 行われてきた [2] [3] [6].その中でも特に,コア同士を積層する で短い配線長を維持しつつ,回路を大規模化できるといった利 3 次元積層マルチコア/メニーコアは,実装面積の増加を伴う 点がある.これに加え,DRAM とロジックのように異なるプ ことなく搭載コア数を増やすことのできる有望なアプローチと —1— Alpha 21364 Int Exe Unit 1 Shared L2 Core 1 ヒートシンク 積層 プロセッサ・ダイ ヒートスプレッダ TSV (Through-Silicon-Via) Issue Logic 1 L1 Cache Core 2 Int Exe Unit 2 MMU 図 3 3 次元積層マルチコア・プロセッサ Issue Logic 2 FPU 図 1 Alpha21364 デュアル・コアのフロアプラン 表 1 3 次元積層構造パラメータ プロセッサ・ダイ 33um 厚, 28.1W/mdegC ボンディング層 2um 厚, 60.24W/mdegC TSV 想定 L2 Cache 9.17W ヒートシンク 5um 径, 10um 間隔 5 × 5 × 2.5cm , 240 W/mdegC ヒートスプレッダ 3 × 3 × 0.1cm , 400 W/mdegC 7.89W 14.45W Core #2 55.47W Core #1 55.47W FPU 大気温度 30.0degC OoO Issue Logic 温度制限 88.0degC 9.98W MMU 7.78W Int. Exe. Unit 15.36W L1 Cache 2. 前提とする 3 次元積層マルチコアの構成 2. 1 コア・アーキテクチャとフロアプラン 本稿では,コアとして Alpha21364 の使用を前提とする.主 図 2 Alpha21364 デュアル・コアの消費電力内訳 要なアーキテクチャ・パラメータを表 2 に示す.また,図 1 に 示すように,1 つのダイには 2 個のコア,ならびに,2MB の して期待されている.しかしながら,3 次元積層 LSI において 共有 L2 キャッシュを搭載する.Alpha21364 のフロアプランに は,その構造上,放熱特性が低下するため温度上昇が深刻な問 関しては,[4] で公開されている内容を,ダイのフロアプランに 題となる.特に,活性化率の高いコア同士を積層した場合には ついては [9] を参考に決定した.なお,一般的には,図 1 で示 電力密度の上昇が顕著になり,この問題はより深刻となる.一 したフロアプランに加え,共通 L2 とコアの間を接続するオン 般に,LSI における過度の温度上昇は経年劣化の加速化やリー チップ・ネットワークやメモリコントローラ,さらには,その ク消費電力の増大を招く.そのため,温度制約を超えるような 他の周辺回路が存在する.しかしながら,本評価においては構 場合には動作周波数を低減する等の対策を施さなければならな 成を単純化するためコアと共有 L2 キャッシュのみを対象とし い.その結果,場合によっては 3 次元積層化により性能が低下 ている. するといった事態も想定される. コアの消費電力に関しては,文献 [4] [5] に基づき図 2 に示す そこで本稿では,複数コアの 3 次元積層を前提とし,温度制 値とした.ここで,プロセス・テクノロジは 180nm,動作周波 約を考慮したマルチコアの性能評価を行う.また,コア数の増 数は 1.2GHz,電源電圧は 1.5V とする.また,動作周波数を 加による並列性の向上と温度制約に起因する動作周波数の低下 120MHz 削減するたびに電圧を 0.05V 低減可能と仮定する.な の間に存在するトレードオフを解析することで,今後の 3 次 お,本評価においては,リーク消費電力の影響は反映されてお 元積層マルチコア/メニーコアにおいて解決すべき課題を議論 らず,今後の課題である. する.本評価では,まず,積層構造を前提としたマルチコアの 2. 2 3 次元積層 熱解析を行う.これにより,温度制約下での最大動作周波数を 本稿で想定する 3 次元積層構造を図 3 に示す.ダイの積層に関 決定する.その後,ベンチマーク・プログラムを用いたマルチ してはメタル層とバルクシリコン層が向かい合う Back-To-Face コア・シミュレーションを行い,コア数を増加させた場合のス 接合である.また,バルクシリコンは薄膜化されて積層される ループットの変化を計測する.そして最後に,これらの結果を ため,積層プロセッサ・ダイの厚みは既存プロセッサ・ダイよ 統合することで 3 次元積層マルチコアの性能を得る. りも薄いと想定する.デバイス構造に関する詳細を表 1 に示す. 本稿の構成は以下の通りである.第 2 節において,想定する これらの値は,文献 [2] を参考に決定した. 3 次元積層マルチコア・プロセッサについて述べる.第 3 節で 本評価においては,図 1 で示したダイを複数積層する場合を は,積層構造を前提としたマルチコアの熱解析を行い,第 4 節 想定する.また,図 4 に示す 2 通りの積層を想定する.Non-Flip にて,温度制約下における 3 次元積層マルチコア・プロセッサ では,ダイを回転させずにそのまま積層する.そのため,局所 の性能評価を行う.第 5 節にて関連研究を紹介し,第 6 節にて 的に高温となるホットスポットが重なる可能性が高くなる.一 本稿をまとめる. 方,Flip ではダイを水平方向に 180 度回転して積層する.一般 に,キャッシュ・メモリは熱密度が低いため,コアより低温と なる傾向にある.したがって,2 つのダイを積層する場合,例 えば下層ダイのコアと上層ダイの共有 L2 キャッシュが垂直方 —2— Non-Flip Shared L2 Core 1 100 Flip ) C g e d ( Shared L2 Core 2 Core 1 Core 2 制約温度 88.0 (deg C) 90 80 度70 温 サ ッ 60 セ ロプ 50 2Cores(2D) 4Cores 4Cores(Flip) 8Cores 8Cores(Flip) 16Cores 16Cores(Flip) 40 30 0 Shared L2 Core 1 0.24 0.48 0.72 Core 2 0.96 1.2 1.44 プロセッサ動作周波数 (GHz) 1.68 1.92 2.16 2.4 図 5 動作周波数とホットスポット温度の関係 Core 1 Core 2 Shared L2 いて最も高温となった部分 (ホットスポット) の温度を抽出し, 多項式近似により動作周波数と温度の相関を求めた.2 次元実 図 4 Alpha21364 デュアルコア・ダイの 3 次元積層 装デュアルコア (2 コア),ならびに,3 次元積層マルチコアの 最大動作周波数とプロセッサ温度の関係を図 5 に示す.横軸は 表 2 アーキテクチャパラメータ L1 キャッシュ(I/D) 64KB, 2W ays, 1.66nsec プロセッサの動作周波数を示しており,縦軸はプロセッサ内部 L2 共有キャッシュ(2D) 2M B, 8W ays, 10.4nsec において最も高温となった部分の温度を表す.各構成における L2 共有キャッシュ(2 層) 4M B, 8W ays, 13.2nsec 温度制約下の最大動作周波数は表 3 に示す値となった. L2 共有キャッシュ(4 層) 8M B, 8W ays, 17.7nsec L2 共有キャッシュ(8 層) 16M B, 8W ays, 24.6nsec 主記憶アクセス時間 105nsec 測定結果より,プロセッサ・ダイ数の増加に伴いプロセッサ の温度は上昇していることが分かる.このため,多くのダイを 積層する場合にはより低い動作周波数に設定する必要がある. 一方,同じ層数において,コアが重複しない Flip では,コアが 向に重なる.この場合には,Non-Flip と比較して温度上昇を抑 重複する Non-Flip と比較して低い温度となっている.これは, 制できる.ただし,3 層以上を積層した場合には,例えば第 1 コア内部のホットスポットである機能ブロック (例えば,浮動 層と第 3 層のコアが第 2 層の共有 L2 キャッシュを介して重な 小数点演算ユニット) が垂直方向に重複しないように配置され ることになる. ており,熱分散が達成されているためである.例として,動作 なお,ダイを 2 層以上積層した場合には,共有 L2 キャッシュ 周波数が 0.6GHz における 3 次元積層 8 コア (4 層構造) の温度 は複数の層にまたがって構成される.この共有 L2 キャッシュ 分布を図 6 に示す.Flip ならびに Non-Flip いずれの場合にお は TSV によって構成される共有バスを介して全てのコアに接 いても,ヒートシンクから一番離れたダイにおいて最も温度が 続される.つまり,共通 L2 キャッシュの容量は 2MB ×積層数 高い場所が存在する.しかしながら,Non-Flip においてはコ で決定される.L1 キャッシュ,共有 L2 キャッシュ(8 層までの ア内の浮動小数点演算ユニットを中心としたホットスポットが 積層を想定),ならびに,主記憶へのアクセス時間を表 2 に示 発生しているのに対し,Flip では熱が比較的拡散している様子 す.ここで,共有 L2 キャッシュのアクセス時間に関しては,2 が分かる.なお,Flip では整数演算器ユニット周辺がホットス 次元実装を前提とし CACTI [10] を用いて求めた. ポットになっており,これは上層ダイの整数演算ユニットと近 3. 温度制約に基づく最大動作周波数解析 距離に位置するためである.したがって,このような状況が発 生しないよう,例えば整数演算ユニットをより中心に近い位置 一般に,プロセッサ設計においては温度制約を満足する必要 がある.冷却性能が一定だと仮定すると,もし温度制約を超え る場合には,何らかの方法で TDP を低減しこの問題を回避し なければならない.3 次元積層 LSI では熱抵抗が高くなるため, にレイアウトするなどの工夫により更なる改善は可能であると 考えられる. 4. 性 能 評 価 放熱特性が低下する傾向にある.特に,複数のコアを積層した 4. 1 実 験 環 境 場合には熱密度が高くなるため,この問題はより深刻となる. 性 能 評 価 を 行 う に 当 た り,性 能 指 標 と し て 以 下 に 示 す そこで,2. 節で示した 3 次元積層マルチコアに関して温度解析 を行った.また,88(deg C) を温度制約とし,それを超える場 合には動作周波数を低くする場合を想定して各構成における最 GIPS(Giga Instructions Per Second) を用いた. GIP S = IP C × fM AX (1) 大動作周波数を決定した.具体的には,プロセッサ熱解析ツー ここで,IP C はクロックサイクル当りの実行命令数 (Instruc- ルである HotSpot 5.0 [9] を用いて,様々な動作周波数におけ tions Per Clock cycle),fM AX (GHz) は第 3. 節で求めた最大 る 3 次元積層マルチコアの温度解析を実施した.ここで,第 2. 動作周波数である.プログラム実行時の IP C 値はマルチコア・ 節で述べたように,動作周波数を 120MHz 削減するたびに電 プロセッサ・シミュレータ M5 [1] を用いて計測した.本性能評 圧を 0.05V 低減すると仮定した.そして,プロセッサ内部にお 価では,様々なプログラムにおける IP C の測定を行った.ベ —3— 表 3 温度制約下における評価対象プロセッサの最大動作周波数 プロセッサ構成 2 コア (2D) 4 コア (3D-2 層) 8 コア (3D-4 層) 16 コア (3D-8 層) 最大動作周波数 (GHz) Non-Flip Flip Non-Flip Flip Non-Flip Flip 0.82 0.98 0.51 0.63 0.31 0.39 2.0 第1層 第2層 第3層 ヒートシンク側 第4層 NonFlip ホットスポット (温度) FPU (87.58 deg C) FPU (87.25 deg C) Int. Exe. Unit (72.04 deg C) L1 Cache (71.76 deg C) FPU (86.59 deg C) FPU (85.60 deg C) Int. Exe. Unit (71.33 deg C) L1 Cache (70.68 deg C) Flip ホットスポット (温度) の一部分 の一部分 図 6 8 コア (4 層)3 次元積層マルチコアにおける温度分布 表4 ベンチマーク・プログラム,入力 に基づく性能向上率であり,各プロセッサ・モデルにおける 2 Barnes 64K particles 本の棒グラフ (Non-Flip と Flip) に対応する.また,図中右の Cholesky tk29.0 縦軸は IPC 向上率であり,マーカで表している.これは,3 次 FFT 4M points OceanContig 2050 ocean Raytrace car WaterSpatial 4096 molecules 元積層化に伴う動作周波数の低下を加味しない値であり,3 次 元積層マルチコアにおいて 2 次元実装デュアルコアと同じ動作 周波数を想定した場合に達成できる性能向上率となる. Barnes,OceanContig,WaterSpatial においては,3 次元積 層により性能向上を実現している.これは,これらのプログラ ンチマーク・プログラムには SPLASH-2 [11] より表 4 に示す 6 種のプログラムを選択した.なお,本実験においては環境の都 合上,マルチコア・シミュレーションは IPC が 1 のインオーダ 実行モデルを用いている.アウト・オブ・オーダ実行を想定し たより正確な評価は今後の課題である. 4. 2 実 験 結 果 3 次元積層マルチコアは,既存の 2 次元実装プロセッサと比 較し多数のコアを有しているため,並列度を活かした処理の 高速化が狙える.その反面,温度制約のため低い動作周波数と なり,性能が低下する可能性がある.すなわち,コア数の増加 ムは比較的並列性が高いため,コア数増加に伴って IPC が向 上し続けるためである.しかしながら,例えば Barnes では 16 コアを搭載することで IPC が 7 倍近く向上するにも関わらず, 3 次元積層化により動作周波数が低下するため性能は 1.4 倍程 度しか達成していない.また,Cholesky,FFT,Raytrace にお いては,3 次元積層によるコア数の増加に伴い性能が低下して いる.これらのプログラムは並列性が低いため,コア数の増加 に伴う IPC 向上幅が小さい.これに対し,積層するダイ数が 増加するにつれ動作周波数が低くなり,この影響が顕著に表れ た結果である. による並列性の向上と温度制約に起因する動作周波数の低下 の間にトレードオフが存在する.式 (1) に基づく評価結果を図 7 に示す.各ベンチマークにおいて,2 次元実装デュアルコア (2Cores-2D) の結果で正規化している.図中左の縦軸は GIPS 5. 関 連 研 究 3 次元積層プロセッサの温度問題は様々な既存研究において 議論されてきた.Puttasuwamy らは,プロセッサ内部の機能 —4— 2 1.75 1.5 1.25 1 0.75 0.5 0.25 0 Non-Flip Flip IPC 率 上 向 能 性 ) D 2( se ro C 2 ) D 3( se ro C 4 ) D 3( se ro C 8 Barnes ) D 3( se ro C 61 ) D 2( se ro C 2 ) D 3( se ro C 4 ) D 3( se ro C 8 Cholesky ) D 3 (s er o C 6 1 ) D 2 ( se ro C 2 ) D 3 (s er o C 4 ) D 3 (s er o C 8 FFT ) D 3 (s er o C 6 1 ) D 2 ( se ro C 2 ) D 3 (s er o C 4 ) D 3 (s er o C 8 ) D 3 (s er o C 6 1 ) D 2 ( se ro C 2 Ocean Contig ) D 3 (s er o C 4 ) D 3 (s er o C 8 Raytrace ) D 3 (s er o C 6 1 ) D 2 ( se ro C 2 ) D 3 (s er o C 4 ) D 3 (s er o C 8 ) D 3 (s er o C 6 1 8 7 6 5 4 3 2 1 0 率 上 向 C IP Water Spatial 図 7 温度制約下におけるプロセッサ性能 (GIPS ならびに IPC) ブロック毎に 3 次元積層化された高性能プロセッサの温度解析 は未だ無い.Loi らの評価では,プロセッサの処理速度とメモ を行っている [8].Puttaswamy らの温度解析結果より,積層す リ・アクセス性能のトレード・オフ関係にあるプロセッサの性 るダイ数が増加するにつれて高温となることが示されている. 能評価を行われ,主記憶 DRAM 積層プロセッサが有効である また,2 次元実装時においても高温となる命令発行部やレジス プログラムが示されている.一方で,本稿にて取り扱う評価は, タ・ファイルでは,3 次元積層化による温度の上昇幅が他の機 コア単体の処理速度とプロセッサの並列度のトレード・オフ関 能ブロックと比較して増大する事も示されている.このため,3 係にあるプロセッサの性能評価であり,3 次元積層を前提とし 次元積層プロセッサにおいては高温な機能ブロックの垂直方向 たマルチコア・プロセッサにおいて有効なプログラムを示して の重複を回避するよう分散し配置させる事が重要である. いる. 同様に,Black らも 3 次元積層プロセッサの温度解析を行っ ている [2].この文献では,3 次元積層による高温化の影響はさ 6. お わ り に ほど大きくないと言及している.これは,3 次元積層により配 3 次元積層技術を用いた垂直方向へのマルチコア化は,高集 線長が短くなり,その結果として消費電力が削減されるためだ 積かつ高性能なプロセッサを実現できる.しかしながら,3 次 と主張している.しかしながら,本稿が対象とした 3 次元積層 元積層化されたプロセッサは 2 次元実装時と比較して高温とな マルチコアのように,削減可能な配線容量が少ない場合にはそ るため,低い動作周波数にて動作しなければならない.このた の恩恵を受けることができない.このため,3 次元積層マルチ め,温度制約下における動作周波数制限を考慮した場合,垂直 コア・プロセッサにおいては高温化が重大な問題となる. 方向へのコア数の増加は性能向上を導くとは限らない.そこで Loi らは,温度制約下における主記憶 DRAM 積層プロセッ 本稿では,温度制約下における 3 次元積層マルチコアの性能評 サの性能評価を行っている [7].3 次元積層技術を用いて主記憶 価を行った.その結果,より高い性能を狙うためには熱分散を DRAM が積層されたプロセッサは,既存の 2 次元実装時と比 考慮に入れた積層構造をとる必要がある事が明らかとなった. 較し高速な主記憶アクセスが実現される.しかしながら,プロ また,3 次元積層マルチコアにおいては,コア数増加に伴う性 セッサ・ダイに複数の DRAM ダイが積層された構造であるた 能向上幅と動作周波数低下に伴う性能低下幅の差が,垂直方向 め,主記憶 DRAM 積層プロセッサは 2 次元実装時と比較して へのコア数増加による性能向上と性能低下の境界条件となる事 高温となる.このため,主記憶 DRAM 積層プロセッサを 2 次 が分かった.今後は,高度なプロセッサ温度管理下を前提とし 元実装時と同等な温度にて動作させるためには,より低い動作 た 3 次元積層マルチコア・プロセッサの性能評価が必要だと考 周波数で動作させなければならない.Loi らによる温度制約下 えられる. における主記憶 DRAM 積層プロセッサの性能評価の結果,主 記憶 DRAM 積層プロセッサは,メモリ・アクセス性能を要求 謝辞 日頃から御討論頂いております九州大学安浦・村上・松永・ するプログラムの実行時には高い性能を望めることが示されて 井上研究室,ならびにシステム LSI 研究センターの諸氏に感謝 いる. します.特に,本研究を進めるに当たり多大な御助力を頂きま Puttaswamy らのように 3 次元積層プロセッサの温度解析を した九州大学大学院の福本尚人氏に深く感謝致します.なお, 行った既存研究は数多く存在するが,動作温度に制限を与えた 本研究は,一部,独立行政法人新エネルギー・産業技術総合開 状態における性能評価の既存研究は数少ない.特に,温度制約 発機構 (NEDO) 若手グラント,ならびに,科学研究費補助金 下における 3 次元積層マルチコアの性能評価を行った既存研究 (課題番号:21680005)による.本研究は主に九州大学情報基 —5— 盤研究開発センターの研究用計算機システムを利用しました. 文 献 [1] N. L. Binkert, R. G. Dreslinski, L. R. Hsu, K. T. Lim, A. G. Saidi, and S. K. Reinhardt. “The M5 Simulator : Modeling Networked Systems,” In IEEE Micro, Vol. 26, No. 4, pp. 52-60, 2006. [2] B. Black, M. Annavaram, N. Brekelbaum, J. DeVale, L. Jiang,G. H. Loh, D. McCaule,P. Morrow,D. W. Nelson, D. Pantuso, P. Reed, J. Rupley, S. Shankar, J. Shen and C. Webb. “Die Stacking (3D) Microarchitecture,” In Proc. of the 39th International Symposium on Microarchitecture(MICRO), pp. 469-479. 2006. [3] 橋口慎哉, 小野貴継, 井上弘士, 村上和彰. “3 次元 DRAM‐プロ セッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャ の提案と評価,” 情報処理学会研究報告, Vol. 2009-ARC-183, No.16, 2009. [4] A. Jain, W. Anderson, T. Benninghoff, D. Berucci, M. Braganza, J. Burnetie, T. Chang, J. Eble, R. Faber, O. Gowda, J. Grodstein,G. Hess, J. Kowaleski, A. Kumar, B. Miller, R. Mueller, P. Paul,J. Pickholtz, S. Russell, M. Shen, T. Truex, A. Vardharajan , D. Xanthopoulos, and T. Zou. “A 1.2 GHz Alpha microprocessor with 44.8 GB/s chip pin bandwidth,” In Proc. of the 58th International Conference on Solid-State Circuits Conference (ISSCC), pp. 240-241, 2001. [5] S. Li, J. H. Ahn, R. D. Strong, J. B. Brockman, D. M. Tullsen, and N. P. Jouppi. “McPAT: An Integrated Power, Area, and Timing Modeling Framework for Multicore and Manycore Architectures,” In Proc. of the 42th International Symposium on Microarchitecture(MICRO), pp. 469480, 2009. [6] G. L. Loh. “3D-Stacked Memory Architectures for MultiCore Processors,” In Proc. of the 35th Annual International Symposium on Computer Architecture(ISCA), pp. 453-464, 2008. [7] G. L. Loi, B. Agrawal, N. Srivastava, S. Lin, T. Sherwood, and K. Banerjee. “A Thermally-Aware Performance Analysis of Vertically Integrated (3-D) Processor-Memory Hierarchy,” In Proc. of the 43rd Design Automation Conference (DAC), pp. 991-996, 2006. [8] K. Puttaswamy and G. H. Loh. “Thermal Analysis of a 3D Die-Stacked High-Performance Microprocessor,” In Proc. of the 16th ACM Great Lakes symposium on VLSI (GLSVLSI), pp. 19-24, 2006. [9] K. Skadron, M. R. Stan, W. Huang, and S. Velusamy. “Temperature-Aware Microarchitecture,” In Proc. of the 30th Annual International Symposium on Computer Architecture(ISCA), pp. 2-13, 2003. [10] S. J. E. Wilton, and N. P. Jouppi. “CACTI: An enhanced cache access and cycle time model,” In IEEE Journal of Solid-State Circuits, Vol. 31, No. 5, pp. 677-688, 2002. [11] S. C. Woo, M. Ohara, E. Torrie, J. P. Singh, and A. Gupta. “The SPLASH-2 programs: characterization and methodological considerations,” In Proc. of the 22nd Annual International Symposium on Computer Architecture(ISCA), pp. 24-36, 1995. —6—