Comments
Description
Transcript
ファイルを開く - MIUSE
Master's Thesis / 修士論文 高性能と低消費電力を両立する可変段数パ イプライン構造とその応用に関する研究 秋田, 直己 三重大学, 2008. 三重大学大学院工学研究科博士前期課程情報工学専攻 http://hdl.handle.net/10076/10910 ・/㍗ .・・/イ.:?こ吾・it +:こ :-:Tl':-ll I-;-: :I-i二三-_ ・ミI-1l::-:_=Ii:':: 畢成語・窃年度 博堂節期課蟹情報濫撃琴窺 中. i-:・iて こ T:\ 模写可 修士論文 高性能と低消費電力.を両立する 可変段数パイプライン構造と その応用に関する研究 指導教員 近藤利夫教授 Y ノ▲■--一■ 27,2. -ヽ ・・ L 4 ヨ :I 2008年度 三重大学大学院工学研究科情報工学専攻 計算機アーキテクチャ研究室 秋田直己(407M501) 三重大学大学院 工学研究科 内容梗概 近年,モバイルコンピューティングからハイパフォーマンスコンピュー ティングに至るまで,幅広い分野において低消費エネルギーと高性能の 両立が要求されており,多くの研究がなされている.その一手法として 可変パイプライン段数アーキテクチャ(VSP)が提案されている. VSP (variable Stages Pipelille)はパイプライン段数を動的に変化させると同 時に,その際に発生する,無駄な消費電力の原因となるグリッチの緩和 を行うことで,高性能と低消費電力の両立を実現できる. 本論文では,この\/SI-の再構成デバイスへの適用を提案し,提案手法 の有効性を証明する. 11i構成デバイスほ特定用途向け回路であるASICと 比べ製造コスト的にも安価であり,最先端半導体プロセス技術によりト ランジスタの集積度も向上しつつあるため,その使用範囲は拡大してき ている.ここで, (LとIt・(て11-I)FF-SelcctlOl・ VSl)の要素技術であるLDS-Cell c(_?ll)は,グリッチの楳糾とrJDS-Cel1日休の低電J)化のために特殊な構f)A になっており, VSI-を巾構成デバイスに効率的にマッピングすることは困 難である.本論文で対態とする再構成デバイスであるFI'("TAは^SI(7に 比べ,消費電力を卜数[[[.-・消費するという短所があり, に直接組み込むことで, 電力を目指す. u)S-Ct?11をFP(iA VSt'のFP(壬A適用を可能にし, Ft-(二八の低汀原 また,本論文では提案手法の実装に先立って, FPGA上におけるグリッ チの影響を評価する. FP(",Aのような,再構成デバイスにおけるグリッ 卜でヲ芭 チの発生竜に関する.iLT:・紺な評価はあまり行われていない. Fl-GA 生するグリッチの影響を明らかにした後,提案手法を実装しFPGAへの vSP適用手法の有効什を示す. 実際にFPGAを搭載したFPGAボードを用いて評価をf-iったところ, FPGAにおけるグリッナの発生量は,最大でFP(;Aが消費する軍ノ]の10 %に達した.また, Lr!T路シミュレーションにより提案手法を実装する際 に生じるオーバーヘッドは1%程度に抑えられることがわかり,提案手 法によりFPGA上にVSl'プロセッサを実装した場合,消員電ノJを従来よ りも最大で10%程度削減できることを示した.本論文では,再構成デバ イスの一つであるFPGAへのVSP適用手法を提案し,提案手法の有効性 が実機実験と回路シミュレーションにより証明された. 三重大学大学院 工学研究科 Abstract Rece11tly, fol・ma11Ce in thefield fm(I lS COlnPuting va・riable stages has proposed. only dynamica・lly COmPllting low and Ill 1・11ispar)er, energy devices. lてラ(川Ifig‖1・∼1,I)1e WOrks (二Olrlp11tillgall(1 lligll llaVe T)ecll StlX・lic(・1・A as oil(〕 Of carly wol・1くS c()11'lpllti11g. proロos(?s author lnally highp(-ド clla・llgeS t・llell111Ill)erof pipelille St・ag(、S i(,批11i←-v(?lligl- lWrfoT・a・t lll={1T11(- =lne propagatioll I・e(lllCeSglitch ma11Ce so ellergy arcllitcct-・l11・e(VSP) steps pipeline VSP required, l〕11talso lIIObile colnp11ti11g tlle aChivelrl(三tlt・ ()f low COrrlputing, pcrfol・lnallCe of not Ill(, =1etllO(1 of {1・Pl -1iclllioll Of VSP lo RノeC(州fig川LIIl'l(_、 (1'.vi(▲t,. wlli(ill(・'l‖ 1;l・k(-‡l SHit=l,1(, Wire, of (:り1111uて1 ・illg iり11 1,v ∼l illl'olll山・i(,ll ap上-1i(:∼ll (ill∼111glllg ・)lし?(:tric I)(-(・II=S(? iIH-Xl-CllSiv() ill tll(、 is becol11111g r)(,i,l山Il・ it is Irmllllfa(,・hlrillgCOSt COlnpare(I f'ol・ul(_,・Ol・rCSpO11dillgtO all wi‖l ^S【C t・e(・1111Ol()gil,ト i-lil(l s(!11'li(:(川(Ill(・tOt・ ・11・() ‖(1v[111(:illg・ fr(?rL).IJr)S-Cell (Lat.c土トDFF-S(?l件t()1・ (「()ll) i=l=th(_?11バifll 1(, 1川Tl川)illg bllt it is (1i[-fi'・1山 i111lつ1Htl州frllO VSP, vie(?s I.)c川11S(? Of (,ll (てilでIlilI(I 1・(,-‖figl‖・㌻1†-1(, (l卜 i川1 I_1nlq11e ilI・ll)1(-Ill(、‖tI11 0r r,I)Sイ1(-ll. Tll(、 1-l・(W‖t illVeStigaf・ioll (I(-‖1sIVilll ∼, E:r'C・^. "・lli(・lli-,ll(, Or = lで(二(,lI figllarat)le (1evices. Energy is l∼ll・ger FPGA collSulnl)1 i川…r l 11(? t・lli= 111∼11 of ASIC, II so a allthor all proposes il叩1LllIICnt(at・io11 1n(-tJllO(()ど 1 FPGA llaVillg I」T)S-Cell. f3(?r()l・(g()illg illt・O the s=11上)t・io11 cause propag[1l.iol…11ト'Ⅰ-(".八l,1r llLiillg ;Ill(ノlglitch there a・1・e all(-1it・s (-llergy Fl-(i^ lrl∼1・i11 i11甘11tl(、Ilt. ‖Hlll川・ (,.<ti‖1‖l(、;l‖ (-ll(-、1・gy(:(,ll llOt mally F「l-(17八l-(-al.(1I,・l Ill-川I glit・(・ll I)l・ol→agflti(川 reSeaCllCS Il一)(,ut (、rf-i?(:I COllS111rlPtio11. A(℃り(1illg I., I..7(1)‖・i(m(・(-lL・Wllt 10% ol・ less ()rl)(州・<?I. tl=1 Ⅰ・(〕∼1Cll(†(I iul illCreaSe est・iuln・t亡ラ(I ;I Or power [1-(l.A (・川Ih=ll=l. ・s, glit(二Ilill Atltll(汀∼11h(, ill Ill()(‥∼lh(- ()r llトillg tノll(? (:()11ト11111l)ti川t Sllg- 1Jl tllt-l・(-Htllt: g(!sl・i('ll fl・11(I 1ワイi‖(二1竹lト(-.Jiglll (二()llrlrlrlt?(1 ^ulJll(Jl-1n・('P(JSC(_1tllC l・CCO11rlg111・.・1・l)1'll I」Ⅰ)S t-o fill(II ll(\\ノ・il (1{?\ri(‥(_-.i -(_1し?ll il一R,econRgllralっIc (1cvic(M fl・11(Iill ‖H) Case effectivelleSS Of VSP Of usil-g VSP processor ill FPGA, its cllergy 三重大学大学院 I-y (二011S11111Pt・io11(二;1pll(1t†cr(泊・Se 工学研究科 5-100/u・ 目次 1 はじめに 1 2 再構成デバイスに関する概括 2 3 先行研究 5 5 3.1パイプライン統合手法に関する概括‥. VSP 3.2 (Varial)leStages Pipelille)に関する概括. 3.3 グリッチに則する概括. 3.4 4 LDS-Cellに関する概括‥ 13 13 13 ・1.1.1実験. 消夏f:(71:,Eノ]評価 ・1.1.2 17 VSPプロセッサをFPGAへ適用した場合の考祭. ・'l.?,ロジックエレメント改造にfFう消費電力増加. ・l.(1 VSPの「1-("T.\への適用手法の提案. 19 '20 I_?I 22 ・′1.Ll-.1提案T'・はのJi;盟. 1./1.2 提案T-・はの評価. 5 9 10 ‥ VSPのFPGAへの適用.評価 VSPをFI'(i八へ旭川した場合の効果. 11.1 Ll.2 6 2:i まとめ 24 参考文献 26 付録 29 A.1改良型l.I)Sで(111レイアウト手法の提案. A.・2 低消至宝Ii宅ノJをF l指したl.I)S-Ce11レイアウト手法の提案 29 A.こi こiこi A .刑曲 三重大学大学院 工学研究科 3O 図目次 2.1標準的なFPGAのアーキテクチャ. 3.2 パイプライン段数の変更. ‥ 4 6 7 3.4 VSPプロセッサの構成図. 低消費電力モードにおける消費エネルギー比. 3.5 グリッチ. 9 3.6 グリッチの緩和. 10 3.7 LDS-Cell型パイプラインレジスタの動作. 10 3.8 I.DS-Cell型パイプラインレジスタの動作の概念図 ll 3.9 LDS-Cell. ifl 3.3 4.1∩実機環境. lLl 1 T:) ・.1.11想定する予備実験用回蹄. 4.12実際に用いる予備実験用回路 4.13 StratixIIのLE 4.14 St.ratix_IIにおける提案手法 ・1.15 C.vcl'川e 8 16 21 , 22 【tIのLFJとC.ycl''=,_‖における提案T.・法 1.16マスタースレーブ型D-FF 1.17従来LDS-Cellの構成区T. 22 29 . ?,0 1.18提案手法LDS-Cellの構成図 3() 1.19提案手法LDS-Cellの動作 1.20 コントローラのトランジスタ構成. 1.21提案手法LDS-Cellのトランジスタ構成. 31 1.22 I t'iL 1.23 LI)S-(〕e11を搭載した配列乗算器. HSモード消費エネルギー比. 1.24 I.一三モード消費エネルギー比. 35 31 32 35 1.25多ビット版LL)SICellの提案. 6 i(i 1.26提案f・法【」r)sICellで生じる遅延の隠敵. 37 三重大学大学院 工学研究科 表目次 13 4.1ターゲットデバイス 4.2 定電圧源詳細. 14 4.3 予備実験環境. 16 4.4 予備実験回路のF【)(;Aにおけるリソース利用率(8l)it) 17 4.5 予備実験回路のFPGAにおけるリソース利用率(16bit」) 18 4.6 予備実験回路のFt)(;Aにおけるリソース利用率(32t)it/) 18 4.7 消費電力評価結果(81)it) 19 ・1.8 4.9 (W) 消費電力評価結果(16hitJ) (W) 消費電力評価結果(32l)it♪) (W) 19 20 ∫′l.10プロセッサ環境. ・l.ll F'Ⅰ-(;Aにおけるリソース利用率. L/1.12 1.13 2l ') LFJ単体における消費電)]評価. LFJ単体の消費電力評価. A_?: 3:3 iii 三重大学大学院 2∩ 工学研究科 1 はじめに 近年,モバイルコンピューティングからハイパフォーマンスコンピュー ティングに至るまで,幅広い分野において低消費エネルギーと高性能の両 立が要求されている.現在の汎用プロセッサの代表的な低消費電ノJ手法で あるDVS[1]は,動的に電源電圧と動作周波数を変化させることで消費エ ネルギーを削減する.しかし, DVSは将来的に電源電圧の低ーFによる電 源電圧変化幅の減少によって消費エネルギーのi-)'り訪友効率が低 Fすること が予想される.また,動作周波数の低Fに比例して件能が低Fするという 問題点もある.先行研究では電源電圧に依(fしない低Ji=Eノ]化1・・法として, アプリケーションの特性やユーザの要求性能に応じてパイプライン段数 を動的に変化させることで低消書写電ノ]と高件能のr-LfL]J 、'!-.をrl指した可変パ イプライン段数アーキテクチャ(VSl-‥V'11・i'11'1'、 SII'gし!hPil'・'1ill(ち) L2」剛1」 が提案されている. VSPはパイプラインレジスタの代わりにI.DS-C(?ll (Latch-DFF-Selector Cell)という特殊なI)-F'Fを川いることで,動的な パイプライン段数の変更を実現している. 本論文でほこのVSPの再構成デバイスへの適川を.;,-,・モみる. .i-T=・,iWCま次節 で述べるが,再構成デバイスとは電'i川勺に何度でも.f;A.き換えることが可 能なデバイスである.粗位度,細粒度などの追いはあるが^s【(ノ1と比べ製 造コスト的にも安価であり,最先端半導体プロセス技術により集積度も 向上しつつあるため,その使用範[Tr・Tほ拡人してきている. VSPはその要素技術としてLDS-(,1ellというセルを持つ. I.I)S-Ce11は D-FFまたはLatchとしてその振る舞いをプログラムJ克行巾に変化させグ リッチを緩和する.しかし,その機能と省電ノ]の('lJ)-、(/二のために'j;装J}J法 がやや複雑になり,再構成デバイスへの適川は榊難である. そこで再構成デバイスにLDS-C(?llを直接,%flみ込むことによりVSPの 再構成デバイスヒへの適川を可能にし,グリ、ソナ桔不川こよるfl捕h;j'Eデバイ スのさらなる高惟能と低消費電力化をH桁す.本論IkAではf州毎)'Xデバイス の中でも広く普及しつつあるFPGA (Fiel(1t'l・('gl.;l・1111lrlat'l((i∼1・1('^lTay) のモデルを用いて実験,評価を行う. 三重大学大学院 工学研究科 再構成デバイスに関する概括 2 再構成デバイスとは,リコンフィギュレーションという,デバイス中の 電気的な結線位置情報を変更する動作を行うことで,アプリケーション に応じて最適なデバイス構成を取ることの出来るデバイスである.その ため効率の良い演算が可能になり,汎用プロセッサに比べ少ない消費電力 で処理を行うことが可能である.再構成デバイスは各ベンダから多様な NEC Electronics 製品が提供されており, Altera社, xilinx社のFPGA, 社のDRPなどがある.各製品によりデバイスを構成するロジックの最小 の単位や,リコンフィギュレーションの方法などが異なる.これらの再 構成デバイスについて以下で説明を行う. FPGA (Field FPGA われるLUT Programmable (Look-Up Gate Array) 【5]は1bit単位で構成が行 Table)を組み合わせることによって所望の回路 を実現する. FPGAはAND-ORアレイ構造で構成されている再構成デバ イスよりも小規模な基本論理ブロックを持つ. FPGAの詳細なアーキテ クチャはベンダによって異なる. PCA (Plastic Cell Arcbitectllre) 【5]【6]はFPGAよりもさらに汎用性 を向上させることで,従来の汎用CPUに匹敵する汎用性を持たせるべく 開発されたアーキテクチャである. PCAの基本的なプロセッサエレメン PCA トはLUTを搭載しており, 1bit単位での構成が行われる. DRP DRP (Dynamically Reconfigllrable ElecProcessor) 【5][6][7]はNEC tronics社とNEC社によって開発されたプロセッサである. 8bit単位のプ ロセッサエレメントを2次元アレイ上に構成し,これらを並列動作させる ことによって高性能化を達成している.プロセッサエレメント内には演 算器として8bitのALUとDMU (Data Manipulation Unit)を持つ. PARS PARS (Paralleland Reconfigllrable Structllre) [8][9][10]PARSアーキ テクチャは広島市立大学で開発された粗粒度リコンフィギャラブルプロ セッサである. 8bit単位のプロセッサエレメントが2次元アレイ上に構 三重大学大学院 工学研究科 成されている.プロセッサエレメント内には演算器として8bitのALUを 持つ. PipeRench pipeRencb【5】【叫は米国カーネギーメロン大学でストリーミングアプリ ケーション向捌こ開発された粗粒度リコンフィギャラブルプロセッサで ある. 8bit単位のプロセッサエレメントがパイプライン動作を前提とし たStripeという構成単位内に16個搭載されており, Stripeをパイプライ ン的に動作させることで処理が実行苦れる. MorphoSys MorpboSys【5】【12]は米国UCI大学で開発されたリコンフィギャラブル プロセッサである. 2次元アレイ上に構成され相互結合綱配線によって つながれたプロセッサエレメント内には28bitのALUと16×12bit乗算器 を持つ. Chameleon CS2112 Cbameleon CS5112【5]はChameleon社によって開発された.プロセッ サエレメント内には32bitALUを持ち, 7つのプロセッサエレメントをま とめたでileと呼ばれる構成単位には2つの16×24bit乗算器を持つ. PACT XPP (extreme Platform) 【5][6][13]はPACT社によって開 24bit, 発されたリコンフィギャラブルプロセッサである. XPPには16bit, XPP processing 32bitのバージョンがあり,設計時に選択することができるが,動的に変 更することはできない. DAP/DNA DAP/DNA (Data Application Network ArcbiProcessor/Distribllted tectllre) 【5]【6]【14]【15]はアイピーフレックス社によって開発されたリコン フィギャラブルプロセッサである.プロセッサエレメントはすべて同じ ではなく,異なった機能のプロセッサエレメントが2次元アレイ上に配置 されている. 今回は比較的広く利用されているFPGAをターゲットとする.図2.1に 標準的なFPGAのアーキテクチャを示す.図2.1に示すようにFPGAは 三重大学大学院 _ t二学研究科 図2.1:標準的なFPGAのアーキテクチャ (ロジックエレメント)から成る.また, 最小の構成単位であるLE LUで (ルックアップテーブル)とD-FFから成る.このLEを内部配線に LEは より組み合わせることによりFPGA上に回路を実現する. 近年では専用のチップを作成する際,チップに一億を超えるトランジ スタを積載するケースがあり,このようなチップを作成する場合,開発 コストが増大してしまう.対して,再構成デバイスであるFPGAを利用 することで開発期間,金銭的なコストを大きく削減できることから,近 年その需要は拡大してきている.しかしながら, FPGAはASICに比べ 消費電力が大きく,比較して十数倍の電力を消費するという短所がある FPGAにおける消費電力の低減は必須の試みで 【16].これらの理由から, あるといえる. 三電大学大学院 工学研究科 先行研究 3 本章では,プロセッサの低消費エネルギー手法に関連する研究につい て概括する.現在の代表的な低消費エネルギー手法の一つとしてDVS (Dynamic Voltage Scaling)があげられる. DVSは動的に電源電圧と動作 LSI 周波数を制御することによって消費エネルギーを削減する.しかし, の電源電圧は年々低下しており,将来的に開催電圧の制御などの問題から 電源電圧を低下させることのできる変化幅は小さくなるといわれている. そのためDVSによる消費エネルギーの削減効率は低下することになると 考えられる.そこで, DVSに代わって,電源電圧に依存しないアーキテ アー クチャレベルの低消費エネルギー手法が多く提案されている【17ト キテクチャレベルの低消費エネルギー手法の一つとして, PSU (Pipeline Unification) 【18]やDPS (Dynamic Pipeline Scaling) 【19]のよう に動的にパイプラインステージを変化させる手法がある.これを本論文 Stage ではパイプライン統合手法とよび,次節で説明を行う. 3.1 パイプライン統合手法に関する概括 前述したプロセッサのパイプライン構造の例を図3.2に示す. psuや Stages (Variable Pipeline)の手法は動作周波数に応じて動的にパイ プラインステージを統合する.これによって以下の利点がある. VSP ●分岐ミスペナルティとデータ依存による待ちサイクルの削減によっ て実行時間を削減することが可能である. ●使用しないパイプラインレジスタやユニットへのクロックを停止す ることでその部分の消費エネルギーを削減できる. 以上の利点によって低消費エネルギー化が可能である.また非同期の プロセッサにおいてパイプラインラッチコントローラを制御することで パイプライン段数を削減し,低消費エネルギー化を実現する手法も提案 されている【20].しかしながら,いずれの手法もパイプラインを統合する ことにより,巨大な組み合わせ回路ができ,その結果多大なグリッチが 発生することになる.これは,パイプライン結合時に消費電力が増大す る一因になり,低電力化の低減に繋がる.そこで著者らはパイプライン ステージ統合時に増加する組合せ回路内のグリッチを緩和するLDS-Cell という特殊なセルを用いたVSPを提案している. VSP,グリッチおよび LDS-Cellについては次節で述べる. 5 三重大学大学院 工学研究科 図3.2:パイプライン段数の変更 VSP 3.2 (Variable Stages Pipeline)に関する概括 vspはPSUと同様,パイプライン段数を動的に変更することで低消 費エネルギー化を目指すアーキテクチャであるが, psuとは異なり単純 にステージ統合を行うのではなく,統合により発生するグリッチの増加 をLDS-Cellという特殊なセルを導入することにより抑制している(LDSCellの詳細は第3.4節に示す). セッサの構成図を示す. vspの一例として,図3.3にVSPプロ vspはパイプライン段数の違いによって高速モードと低消費電力モー ドの2つのモードを持つ.これら2つのモードの特徴は以下の通りである. 高速モード: ● 9段パイプラインであり, 動作する. LDS-Cellはパイプラインレジスタとして ●デコードステージに分岐予測ユニットを搭載しており,分岐ミスペ ナルティは3サイクルである. ●無条件分岐は分岐予測ユニットにおいて100%の分岐予測が可能で 三重大学大学院 工学研究科 High Speed Fetch 9 stages mode Decode Regfile 葦 l Exe1 Exe3 董-- l 享≒ト ≡二::=:;:J)EC :.=ロ il.+ cache EXe2 U pipeline processor Exe4 ;i Memory 妻 I ;i;;;:'Al. 毒AL …AL MD MD Write D 享Mp ■■●● cache REG D」u ・;.._. tlRANC冗 EDーCTTO I:1 Rd ::.:::::RRd tlRANC口 f [B TADDRESS MRd .:二主::丘2 .::;:::WR^ C出 一 F十MUX F+MUX Il° D-FF+MUX::D-FF+MUX:: LD㌔Ce11ll -Cell FetchDecodeReg{1le MemoryWrite Exe □ 1上 1DEC cache uFwuFwuFwu 呂 工) cache Iレ′ RJ=G Iレ′ DRdyPaSS- WRd ERA A CH TADD7tESS ● Low Energy mode 3 stages pipeline processor 図3.3: VSPプロセッサの構成図 三重大学大学院 工学研究科 0 'B cd 1.2 堅∃ 白 1.0 (〇 'B A 0.8 g 0.6 也 日 (⊃ U 0.4 昏0.2 4) g 0 至 bubble sort euclideanalgoritlm 図3.4:低消費電力モードにおける消費エネルギー比 ある. ●インターロックと演算結果のフォワーディング機構を搭載している. 低消圭電力モード: ・高速モードの1/4の周波数で動作する. ●遅延分岐,遅延ロード,フォワーディングによって分岐ペナルティ やデータ依存によるインターロックが発生しない. ●分岐予測ユニットやバイパスされて使用しなくなったパイプライン レジスタのクロックを止めることでパイプラインレジスタで消費さ れるエネルギーを削減することができる. これら2つのモードによりVSPは, 1)バイパスするパイプラインレジ スタの停止を含むクロックゲーテイングと, 2)グリッチ緩和により消 費電力を低減する.著者らはこれまでにVSPを詳細設計し,その有効性 を示している【3].図3.4に文献[3]で行ったDVS,PSU, VSPそれぞれ の手法を用いたプロセッサのトランジスタレベルでの,消費エネルギー について評価を行った結果を示す.ベンチマークプログラムは, 10個の 整数をバブルソートによってソーティングする"bllbble sort",ユークリッ ドの互除法のプログラムである"ellClidean 三重大学大学院 algorithm"である. 工学研究科 図3.5:グリッチ 図3.4より, VSPは低消費電力モードにおいて従来法よりも消費エネ ルギーを削減できていることがわかる.一方,紙面の都合上グラフは省 略したが,高速モードではVSPとpSUは, DVSと比較してわずかに消 費電力が増加した. 3.3 グリツチに関する概括 グリッチは組合せ回路内のゲート遅延や配線遅延によって各ゲートに入 力される信号の時刻がそろっていないために発生する.図3.5にグリッチ の発生例として, 2つの入力信号に対して加算を行う様子を示す.図3.5 の1段目と2段目が入力, 3段目が入力に対する結果であるが, 1段目, 段目の値が確定してからも,しばらくの間3段目の出力は変化している. すなわちグリッチが発生し,この部分で無駄な消費電力が生じる.また, 2 回路前半で発生したグリッチが回路後半のゲートに伝播することにより 新たなグリッチが発生するため,一般的に組合せ回路の規模が増大する と配線遅延の影響も受け,グリッチの量も増大する. VSPでは,統合さ れたパイプラインステージ中にLatcbが存在することでグリッチ増加を 緩和する. Latchはそれ以前で発生した電気信号(データ,及びグリッチ) を以降に伝えず,一定のタイミングで信号をLatchから同時に再出力す る.図3.6にこの効果によって統合されたパイプラインステージでのグ リッチの緩和の様子を示す. ここで,ランダムロジックをゲートで構成した場合,入力パターンの 変化により信号の遷移時間にばらつきが発生し,複雑なグリッチが発生 する.一方,再構成デバイスの多くはランダムロジックをLUTで構成し ている. LUTでランダムロジックを構成した場合のグリッチの発生量や それによる消費電力増加についてはあまり研究が行われていない.そこ で,本論文ではまず再構成デバイスでグリッチの発生がどのような影響 を与えるのかを明らかにする. 9 三重大学大学院 工学研究科 前ステージ からの出力 Clodく 図3.6:グリッチの緩和 E}FFとして動作 ステージ鈴音前 (有効作周波数) Ldchとして動作 l L-・・ ステージ統合後 (任免作周波数) 図3.7: 3.4 LDS-Ce11型パイプラインレジスタの動作 IJDS-Cellに関する概括 図3.7はLDS-Cellの動作の概念図で, 方の役割を果たすことを示している. LDS-Ce11がD-FFとLatchの両 LDS-Cell型パイプラインレジスタはパイプラインステージ統合時にお いて図3.8のようにクロックの前半部分と後半部分において動作を行う. クロックの前半部分はマスターLatcbの億が出力されるため,グリッチ 10 :.竜)く,L]7:人草院 工手T')F'4t科 ouq)ut丘om previous stage lnPtlt tO next block stage diagram 図3.8: LDS-Cell型パイプラインレジスタの動作の概念図 mptlt tO next 図3.9: stage LDS-Cell が含まれる前段の出力が次段の入力へ伝えられない.クロックの後半部 分ではスレーブLatchがバイパスされるため,前段の出力が次段の入力 へと伝えられてステージ間の統合を実現し, save_power信号線をアサ卜することによってパイプラインレジスタはLatchとして機能している. 非統合時にはLDS-Ce11型パイプラインレジスタはsave_power信号線をネ ゲートすることでD-FFと同じ振る舞いをする. 本論文で用いるLDS-Cellを図3.9に示す. LDS-CellはD_FFをベース にして設計されている.というのはLDS-Ce11がスタンダードセルを用い た設計を前提としており,パイプラインレジスタがD-FFを用いて設計さ れているプロセッサを想定しているためである.図3.9のLDS-Cellでは マスターLatcbから信号線をバイパスすることで, D-FFとLatcbの動作 を切り替える.このセルにより無駄なリソースを使わずにVSPに必要な ll 三電大学大学院 工学研究科 機能を実現できるが,このような形状を持つセルは再構成デバイスには 存在せず,再構成デバイス上にVSPを実現する際の妨げとなってしまう. 12 三重大学大学院 工学研究科 4 VSPのFPGAへの適用.評価 4.1 VSPをFPGAへ適用した場合の効果 FPGA上にLDS-Cellを搭載可能とすることで, FPGAにVSPを適用 することが可能となる.本論文ではFPGAのVSPへの適用を実現する ために, FPGAのLEに対してLDS-Ce11を組み込むという手法を提案す る. FPGA上にLDS-Ce11を搭載可能とすることで, FPGAにVSPを適 用することが可能となるが,本節では提案手法の適用に先立って,予備 実験としてFPGA上でのグリッチの発生量,及びグリッチの緩和効果が どの程度であるのかを示す. 4.1.1実験 VSPのFPGAへの適用の有効性を示すために実験を行う.本論文の ターゲットデバイスであるFPGAのモデルはAltera社のStratix IIを用 いる.表4.1にターゲットデバイスの詳細を記載する. 表4.1:ターゲットデバイス Type NaITle EP2560F672C3F Core Ⅵ)ltage 1.2V ALMs 241 76 ALUTs 48352 LEs 60440 User 718 I/Os Mell10ry Embedded bits 2544192 144 multiplier PLL 4 評価はAltera社のQ11art11S II 7.2を用いて予備実験用回路を論理合成・ マッピングし,実機動作確認による消費電力評価行う.実験に用いた評 価キットであるAlteraDE2の概略図,及び定電圧源を図4.10に示す.莱 機評価では図4.10に示したFPGAコアに直接つながる配線に定電圧源を 接続し, 1.2Vの電圧を与えFPGAを駆動している.また,定電圧源は電 流計を兼ねており,コアに流れる電流を直接計測できる.定電圧源の詳 細を表4.2に示す。 FPGAコアはそれ自体が持つ熱により消費電力に大 13 三重人学大学院 工学研究科 表4.2:定電圧源詳細 メーカ Agilent 型番 E3640A 出力定格 O-8V/3A 電圧プログラミング確度 電流プログラミング確度 < 0.05% + 10ⅠIIV < 0.2% + 10ⅠIIA 電圧リードバック確度 < 0.05% 電流リードバック確度 < 0.15%+5mA + 5mV メータ分解能(電圧) IOⅢ1V メータ分解能(電流) II11A 図4.10:実機環境 きな違いが生じるため,簡単なフアンを取り付け, 却する環境とする. FPGAコアを常に冷 予備実験に用いる回路はブロックマッチングを行うための多並列pEア レ-である. PEアレ-とは動画像圧縮符号化LSIの動きベクトル探索や 移動物体検出等で広く用いられる回路である.本論文でほ二つの部分画 倭(ブロック)について画素毎に差分絶対値(ad‥absol11te differ。11。e)杏 とり,その総和を求める回路を設計,実装する.動きベクトル探索では, 動きベクトル検出対象画像に対し,参照画像から一定範囲の領域,すな わち探索範囲を切り出し,探索範囲内のすべてのブロックに対してブロツ 14 三重大学大学院 工学研究科 ad Macro-Blockl o absolute diqemce ∠憂戸7 LDSICe" ad : Each pixel is Added ∠≦≦萎デ Macro-Block2 DATA FLOW 図4.ll:想定する予備実験用回路 クマッチング処理を行う.特に高精細映像用動画像圧縮符号化LSIでは, 動きベクトル探索処理の演算量が膨大であり, pEアレ-を複数個並列に 動作させることで高い演算性能を実現している.しかし,多並列pEア レ-をLSI化する場合にチップ面積,消費電力が問題となっている. その解決方法の一つとして,中断法を用いた動き探索アルゴリズムが ある.中断法に関しては詳細は省略するが,このアルゴリズムを用いる ことで処理時間を十分にとることの出来る処理を行うことが可能となる. 図4.11のVSP型pEアレ-では,動きが複雑で演算時間が掛かると 予想される場合には, LDS-Cellを高速モードにし,高クロックで演算を 行う.一方,動きが単純で演算時間に余裕があると予想された場合には, LDS-Cellを低消費電力モードに切り換え,低いクロックで動作させるこ とで消費電力を下げることができる. 必要となる演算性能,すなわちpEアレ-の唖列度は対象とする画像サ イズや要求される画質に依存するが,本研究は動画像の圧縮符号化を行 うことが目的ではないので,実験的に並列度を川, 2∩, 25とし,グリッ チ発生竜の評価を行う. ただし,現状ではFPGA LにLI)S-C(-11がf(-・[f・:しないため,図∠1.11に 示すような設計をとることができない.また, FI,(;A上でのグリッチの 緩和程度を調べるために,ここでは図4.12のように回路を実装する. このような構成により,低消費電力モード時に)yI:Yl三するグリッチをラッ チするか否かを選択することにより,グリッチの発生量の評価を行うこ とができる. FPGAでは,個々にカスタマイズされたクロックツリーを 15 三重大学大学院 工学研究科 ad ●・・田 ∠表替 Macro-Blockl o ad : di伽mce absolute ≦■/ノ≡` Each pixel is Added ∠≦≦室戸 Macro-Block2 DATA FLOW 図4.12:実際に用いる予備実験用回路 表4.3:予備実験環境 実行モード 高速モード パイプライン段数動作周波数グリツチ緩和 210MHzなし 低消費電力モード 12.5MHzなし (by-pa,ss) 低消費電力モード (Latch) 12.5MHzあり FPGAで構築するのは困難であるためクロックゲーテイング機構を持た ず,基本的には少数のグローバルクロックツリーがFPGA上のD-FFに 常に供給される. LatchはD-FFを用いてFPGA上にマッピングされる ため,図4.12の回路構成をとることにより,クロックゲーテイングによ る消費電力の削減を加味することなく,かつグリッチを削減しないiii純 なパイプライン統合と比較して,詳細なグリッチの発生量を求めること ができる. 図は省略するが高速モード時の回路としてラッチの代わりにⅠ)-Fト「を川 いた匝1踏もあわせ,予備実験用回路をD-FFを用いる高速モード,グリッ チ発生の緩和を行わない低消費電ノJモード(I)∫-I)a,SS) ,グリッチ発生の 緩和を行う低消費電力モード(La†(‥Il)の3通りで評価を行う.表′l.3に それぞれの予備実験用回路の環境を示す. この予備実験用回路を数十個並列にFPGA上にマッピングし,評価を 16 三重大学大学院 工学研究科 表4.4:予備実験回路のFPGAにおけるリソース利用率(8bit) 高速モード低消費電力モード 並列度 FPGA利用率 ALUT数 レジスタ数 10 25%28% 9294(19%)10895(23%) 4779(10%)3499(7%) FPGA利用率 20 ALUT数 レジスタ数 FPGA利用率 ALUT数 レジスタ数 25 52%57% 19744(41%)22363(46%) 9414(19%)6857(14%) 67%74% 25857(53%)29069(60%) 11752(24%)8553(18%) 行う.並列に回路を用意するのはグリッチによる消費電力が動的消費電力 であるためである. FPGAは通常, FPGA上のすべてのロジックに対し て電源が供給されるため, FI-GAにマッピングする回路の規模によらず 定量の静的消費電力が発生する.今回用いるデバイスであるStl・a′tix IIは 一 90nmプロセスである.一般に90111nプロセスのコアにおける動的消費電 力と静的消費電力の比は2: 1であると言われている.グリッチが回路規模 により変化することが予想できるため回路規模の割1今を変化させ,ト'l-GA コアの利用率を変化させることでグリッチ発生の振る舞いを調べ,より 詳細なグリッチの評価を行う.予備実験用回路のデータ幅を8bit, 32bit, 20, 25として, FPGAにマッピングする回路の並列度10, 上にマッピングを行った際のリソース利用率をそれぞれ表Ll./4,表4.5, 16bit, FPGA 表4.6に示す. 4.1.2 消費電力評価 実機動作で確認を行う.データ幅が8bit, 16l:)il.,321)itで消費電力評価 したものを表4.7,表′1.8,衣一l.9にそれぞれ示す.大小の「HSIほ高速 モード, 「LE_Jは低消'ffi竜ノ]モードを′jミしている. 表4.7,表4.8,表∠1.9は,予備実験用回路のデータビット幅に応じた それぞれの消費電力を示している.列「t」Il; 数字ほ列r LE (IJ[lt.(_Ill) Jの他の括弧の中の (by-pass)」に比べ,どれはど電ノJが削減できているかの 比を示している.なお,一般にFPGAはクロックゲーテイングを行うこ とができない.そのため, pSUをFPGA上に実装した場合,図4.12の 17 三重大学大学院 工学研究科 表4.5:予備実験回路のFPGAにおけるリソース利用率(16bit) 並列度 高速モード低消費電力モード 26%29% FPGA利用率 10 ALUT数 レジスタ数 9712(20%)11042(23%) 4807(10%)3527(7%) FPGA利用率 20 25 ALUT数 レジスタ数 FPGA利用率 ALUT数 レジスタ数 52%58% 20006(41%)22640(47%) 9554(20%)6996(14%) 68%74% 26128(54%)29385(61%) 11882(25%)8684(18%) 表4.6:予備実験回路のFPGAにおけるリソース利用率(32bit) 並列度 高速モード低消費電力モード 10 FPGA利用率 ALUT数 レジスタ数 2U FPGA利用率 ALUT数 レジスタ数 25 FPGA利用率 ALUT数 レジスタ数 26%29% 9706(20%)11044(23%) 4807(10%)3527(7%)) 52%58(X, 19997(41%)22642(47%) 9556(20%)6995(14%) 68%74% 26165(61%)29407(61%) 11882(18%)8683(18%) (byllV1・SS)の評価純 Latch部分がD-FFとなった構成になる1.よってLE 火はⅠ'SUを川いた1'^Lj一介と等しくなる.去∠1.7,去Ll.8,衣.1.9より,デー タ幅の違いでは, FPGA上で消費する電力にほとんど差は見られなかっ たが,娃列度によって有意な差が出たといえる.ラッチを行うか否かによ り:I(i.列痩t()では平均1.7%, 20ではこ',.・2'X), 25では3.6ワイ)程度消鄭二uノJ/l':I.・が 見られた.この結果はFP(iA中にrLT'める動的消費電)]と静的消'f-Y.二注ノ」の 比によって得られるものであり, FP(iAに占める回路の割合が大きいほ どグリ、ソチの発生量が多くなることを,jtしている.上記の評価結宋より, 1マルチプレクサ(MUX)で高速モード時はD-FFの出力を,低消費電力モード時 は入力データを選択する 18 三重大学大学院 工学研究科 表4.7:消費電力評価結果(8bit) 並列度 (W) 8bit差分絶対値和回路 HSLE(by-pass)LE(Latch) 10 o.64440.50880.5004(1.7) 20 o.82440.58320.5652(3.1) o.92880.61680.5964(3.4) 25 表4.8:消費電力評価結果(16l、)it,) 並列度 10 (W) 16bit差分絶対値和回路 HSLE(by-pass)LE(Latch) 20 o.63720.50520.4968(1.7) o.82680.58440.5676(2.9) 25 o.93360.62160.6000(3.5) FPGAの使用率が100%に近い場合では,グリッチ緩和による電ノJ消費の 削減率は全体の消費電)]の5'yo,動的消費電ノ]だけにt= lすればそのL(J'り減 率は約7-loo/oになることが推測できる.また, ↑l・_771i丈消Efli椙)]モードの 動作周波数は2.5MHzとしたが,これをl仙=l/.とし,データ幅をニjL2l)itr, 並列度25でグリッチの糾曲を子J‥ったところ, 9%の改善を見せた.以上の結果と考察により, は有効であるといえる. 4.2 I.二ii)J汀憤の(棚掛率は全体で FPGA上においてもVSP VSPプロセッサをFPGAへ適用した場合の考察 次に図3.3で示したVSl-プロセッサにおける検証を7J--う.実機を川い てPSU, VSl)を動作させるためには, .i'iiL,汁データの人帖な変火と検証が 必要である.そこで本論丈では,前節のJ{,[J'rl'iノ)i!験を)占に\.'SI)プロセッサ を用いて評価をした場rTについてJ;-烈を7iう. ↑州・ji‖けるプuセッサの 環境を哀′1.10にホす. Jう;lト(-プロセ、ソサは叶変パイプライン構iriをナ、‡たな い普通のプロセッサ, L'Sしプロセッサは=J変パイプライン構造はf、I)-:つが, グリッチ緩和機能は持たないプロセッサ, vsI'プロセッサはIfJ変パイプ ライン構造を持ち, Ll)S-(_プ''71をf別衣する,つまりグリッ+緩和機能をJ-:i-・ つプロセッサである.また, Ba,seプロセッサ, pSUプロセッサ,および 著者らが提案しているVSPプロセッサをターゲットデバイス上にAltera 19 三重大学大学院 工学研究科 表4.9:消費電力評価結果(32bit) 並列度 10 (W) 32bit差分絶対値和回路 HSLE(by-pass)LE(Latch) 20 o.63840.50760.4980(1.9) o.81360.58560.5664(3.3) 25 o.93240.62880,6060(3.7) 表4.10:プロセッサ環境 プロセッサ 実行モードパイプライン段数動作周波数 Base PSU 910MHz High_Speed910MHz Low_Energy32.5MⅢz VSP Hig1ー_Speed91仙什Ⅰz Low_Energy32.5MHz l1 7.2を川いてマッピングした際のリソース利川率を去1,11に Qll∼11・t,llS ′」ミす. 動的汀慣i=iZ)JはL3∼l.卜し)プロセッサに比べ, l'SU, 数`^,増加するが,これはl'SU, VSf'の[r:.1)一過モードでは VSl'にIIJ変パイプライン構造をj`、∵たせる ために追加した回路によるものである[3]. VSPは低消費電力モードでほ 約60%の低減となり, pSUに比べても約4-6%の改善率となる可能性が ある. 4.3 ロジックエレメント改造に伴う消費電力増加 1JtL火の1」上.;に1.1jSt7cllを適川したl'ij・t7, I)-ト「Fとしl.tCllのL)]り1;_乍え(.・J 蹄追J]11により汁憤',=iiノJが増加するHJ胎IJl:.がある.そこで水師では1」Il二の改 装にrf'-・う汀i門',-7iノ川.'1J)Hに関する評価を7iう. il・肘I勺にはIJf)S-(1'†11をf[i亨接 した1.111Jを.iLT・'・机=;-Lit.汁し,シミュレ-シ‡Jンを7Jうことにより従火のⅠ,Ill,と 汁LE-lil.二にノJを比申,kする. 20 三重大学大学院 工学研究科 表4.ll: FPGAにおけるリソース利用率 プロセッサ FPGA利用率ALtJT数レジスタ数 Base 28%10451(22%)7942(16%) PSU 33%12977(27%)7967(16%) VSP 33%13252(27%)7692(16%) E= ●ーl■ EF nd○■d 2"0 I D N ド 一叫 LU丁 Dq D l 3謡` D 3-hptA LLFr D Df A-lrpJt L∪T D 3■ーPLA uノー I 3諾一 D D ド / l -1 ■dP rq_dⅦ chrd_Adh q h_OLA _ENLJt carTy_d 図4.13: Stratix IIのLE VSPのFPGAへの適用手法の提案 4.4 図4.13にStratix IIのLEを示す. Altera社のStratix II,同社のCyclone LE III及びその他のファミリにおけるLEはCMOS数などは異なるが, の構成要素は基本的にLUT, D-FF,その他ロジックである.図4.14に Stratix 提案手法を示す. II及び, cyclone IIIにはD-FFが組み込まれて いるが, LDS-Cellはそれ自体が動作の一つとしてD-FFとなることが可 能であるため, LE上のD-FFをLDS-Cellに置き換えることで提案手法 として実装する.これはその他のベンダにおけるL引こおいても同様であ る.図4.15にCycloneIIIのLEと, LEに提案手法を適用した場合の様子 を示す. 21 三重大学大学院 工学研究科 血td-■hhーq_Chap_h-一B 血●d En ●■■ I D 2"0 .:,...i.,:I. 董憂撃麺妻 ■ EEっ LUT D 1 重責憂 I 3L粁 D ■■■■-]'lJJ 3叫 LUT D LDS; 一」rpt L∪T D 垂 ■■一'■■丁 3H l 3Jr[pd LUT D D l ■■ q adll chrd&dh rq_chLh ot^ oL* carry_out 図4.14: Stratix_ⅠⅠにおける提案手法 ○ td141T) Dn 記 岩-I.p 既存LE 図4.15: Cyclone 提案手法LE IIIのLEとCyclone_ⅠⅠⅠにおける提案手法 4.4.1提案手法の実装 Altera社stratix IIのLEとほぼ同等の機能を持つLEをRobmO.18nmCMOS プロセステクノロジを用いて詳細設計し,従来のD-FFを用いた場合と 22 三重大学大学院 工学研究科 表4.12: LE単体における消費電力評価 Version CMOS数消費電力(〝Ⅳ) StratiX_ⅠⅠJ}roposa1ーLE 42527.86648e-02 CycloneJⅠⅠ_Proposal_LE 9842.387952e-01 StratiX_ⅠⅠ_Normal_LE 42287.86648e-02 Cyclone_ⅠⅠⅠ_Norma.1_LE 9722.387952e-01 Stratix IIよりも LDS-Cellを適用した場合の消費電力評価を行う.また, プロセスが小さい同社のFPGAであるCyclone IIIのLEに対しても同様 に検討する.評価はSynopsis 2006.6を用い, Stratix IIのALM, Cyclone IIIのLE提案手法のLEに対してそれぞれ数百サイクルのシミュ レーションを行った. 4.4.2 N弧OSim 提案手法の評価 表4.12にCyclone IIIおよび提案手法のLEの消費電力に関する実験結 果を示す.提案手法および従来のLEの消費電力に差は現れなかった.こ れはLDS-CellがD-FFに比べ,わずかなトランジスタの増加のみで実装 できることを示している.また, 180nmプロセスではリーク電流はそれ ほど問題にはならないが90nmプロセス以降はリークを考慮する必要があ る.しかし,トランジスタの増加はLE全体の1%以下程度であり,リーク による消費電力の増加は極めて微少なものであると考えられる.このこと FPGA から極めて少ないペナルティでFPGA上にLDS-Cellを実装でき, 上おけるVSPの適用は有効であるといえる. 23 三重大学大学院 工学研究科 5 まとめ FPGAにおけるVSPの有効性を示すため,グリッチの発生量をFPGA 上にマッピングする回路規模を調整しながら評価し, Baseプロセッサ, psロブロセッサ, vSPプロセッサ(vspは低消費電力モードのみ)を FPGA上にそれぞれ実装し,実機評価による消費電力の見積もりを試み た.また, VSPをFPGA上に適用可能にするためFPGAのLEにLDSCellを組み込む手法を提案,詳細設計をしてN弧OSimで消費電力評価を 行った.その結果, vSPをFPGAに適用した際も動的消費電力削減の効 果はあったといえる. ASICにおいては低減できるグリッチの発生量は, LDS-Ce11を駆動し 続けるために生じる消費電力の兼ね合いとなり,回路規模に左右吉れる ため,その損益分岐点をとるためには,より詳細な調査が必要となる. 対して, FPGA等の再構成デバイスにおいては,クロックゲーテイン グは基本的に行われないためグリッチ緩和を行わないパイプライン統令 とグリッチ緩和を行うパイプライン統合では,消費電力の差はそのまま グリッチ発生量の差となる.よってあらかじめ論理回路の規模が決まっ ていて,クロックゲーテイング機構を持たない再構成デバイスでは損益 分岐点を考慮する必要がなく,容易にVSPによる有効性を期待できると いえる. 24 三重大学大学院 工学研究科 謝辞 本研究を行うにあたり,ご指導,ど助言いただきました下さいました 佐々木敬泰助教,並びに多くの助言をいただきました近藤利夫教授,大 野和彦講師に深く感謝いたします.また,様々な局面にてお世話になり ました計算機アーキテクチャ研究室の皆様にも心より感謝いたします. 25 三重大学大学院 工学研究科 参考文献 [1]J・ ing Pouwelse, on a K・ Langendoen, low-power Comp11ting and and H・ Sips microprocessor, (Mobicom) Networking : 7tb ACM , Dynamic tnt. voltage scalon Mobile Conf・ (J111y2001). pp.25ト259, 【2]市川裕二佐々木敬泰,弘中哲夫‥可変パイプラインを用いた低 消費エネルギープロセッサの設計と評価,情報処理学会研究報告, (2005年8月). pp.37-42, 【3]市川裕二佐々木敬泰,弘中哲夫,谷川一哉,北村俊明,近藤利 夫:可変パイプラインを用いた低消費エネルギープロセッサの設計と 評価,情報処理学会論文誌(コンピューティングシステム) Vbl.47, (2006年5月). pp.231-242, , [4]Yuji Ichikawa, Toshiaki gawa, Low type Proc. 562 Kitamura, Energy Processor of International Computersand Sasaki, Takahiro TetsllO and Toshio by Variable Technical Kondo: A Stages Conference Design Pipeline on (ITC-CSCC2005) Communications Kazllya Hironaka, Tani- of ProtoTechnique, Circuits/Systems , Vol.2, pp.561- (2005年7月). 【5】末吉敏則,天野英晴, "リコンフィギャラブルシステム'',オーム社, (2005年). "ダイナミックリコンフィギャラブルプロセッサの研究開 【6】天野英晴, 発動向",電子通信学会技術研究報告ICD2003-130, 52, Ⅵ)1.103, pp.47- (2003年). [7]木村真人,若林-敬,粟島亨,戸井崇雄, "DRPのデバイス・アーキ テクチャ", 年8月). Design Wave MAGAZINE, CQ出版社, [8]川崎貴之,谷川一哉,弘中哲夫,児島彰, pp.49-57, (2004 "再構成情報圧縮機構を 備えた粗粒度再構成型アーキテクチャ",電子情報通信学会第1回リ (2003年). コンフィギャラブルシステム研究会論文集, pp.95-102, 【9]谷川一哉,弘中哲夫,吉田典可, "PARSプログラミングモデルと PARSアーキテクチャの提案'',情報処理学会研究報告2000-ARC140, pp.37-42, (2000年). 26 三重大学大学院 工学研究科 [10]K. Tanigawa, Architecture T・ A Reconfigllrable : ec11tion Model Design - IEICE sor", A. Hironaka, N. Kojimaand Architecutllre lmplementation and でRANS.INF. 良 SYSTり Yoshida, "PARS Generali2;ed Ex- With Its Prototype of Proces- No.5, pp.830- VOl.E86-D, (2003). 840, Computer Project, [11]Carnegie Mellon's Reconfigurable (2005). "http://www.ece.emu.edll/research/piperench/" , [12]H. Singh, M. "MorphoSys Parallel H. An : [13]PACT G. Lu, F. Integrated XPP Vol.49, Kurdahi. System Applications" for Data- IEEETransaction , (May pp.465-481, Bagherzadeh, andN. Reconfigurable Comptltation-Intensive Computers, on Lee, 2005). Corporation, Technologies "bttp://www.pactcorp.com/" (2005). , 【14]佐藤友美,"10nsで演算器間の構成を書き換えるダイナミック・リ 実チップ寸法の4倍相当の機能杏 コンフィギャラブル技術を開発 実現する'',日系エレクトロニクス2003年1月6日号, pp.11ト122, (2003年1月). 【15]アイピーフレックス株式会社, "bttp://www.ip且ex.com/",(2005年). K110n. 【16] Ⅰ弧d Rose. Proceedings siumon Field ∫:Mea別1ring of the 2006 Programmable the Gap between FPGAs ASICs, and 14th International SyHlpOACM/SIGDA Gate Array?I pp・21130・ (July 2006) ・ 【17】森本薫夫,永田真,瀧和男"高速モードと低消費電力モードを有す る2線式論理回路の設計手法",情報処理学会研究報告, (2006年11月). pp.53-58, [18]嶋田創,安藤秀樹,島田俊夫:パイプラインステージ統合とダイナ ミック・ボルテージ・スケーリングを併用したハイブリッド消費電 力削減機構, 2004年先進的計算基盤システムシンポジウムSACSIS 2004, (2004年5月). pp.1ト18, Kopp弧alil, 【19】 and Rotenberg, J., Ramrakhyani, E. : A Case P., Desai, for Dynamic 27 三重大学大学院 工学研究科 S., Vaidyanathan, Pipeline Scaling, A. Proc. of tnt. Conf. bedded Systems [20]Efthymiou, Control Comp11ter on Compilers, 2002, A・ and J・ D. : Adaptive Power-Management, 2002, pp.454-457, Proc. (2002). 28 三重大学大学院 Synthesis for Em- (2002). Garside, and for Processor Design pp。1-8, Architecture, 工学研究科 Pipeline of tnt. Depth Conf. on 付録 A 改良型LDS-Cellレイアウト手法の提案 A.1 LDS-CellはD-FFをベースに設計されている.というのはLDS-Cellが スタンダードセルを用いた設計を前提としており,パイプラインレジス タがD-FFを用いて設計されているプロセッサを想定しているためであ る.図1.16にD-FFの構成を示し,図1.17に従来のLDS-Cellの構成を 示す.従来のLDS-Cellは通常のマスタースレーブ方式のD-FFに含まれ ている2つのキーパー(MasterとSlave)にMUXを1つ追加したセル + MUXと同じスタンダードセルをベースに である. LDS-CellはD-FF しているため, D-FF+MUXと同じ大きさで同じ駆動能力となる.対し て,提案手法のLDS-Cellはマスタースレーブ型のD-FFのクロックを分 割,操作することで従来のものからMUXを省いたものである.提案手 法LDS-Cellのブロック図を図1.18に示す. HSモー この手法でどのように動作するかを図1.19を用いて説明する. ド時はClock2をClocklの逆位相に, LEモード時は固定とすることでス レーブ・ラッチはマスター・ラッチからの出力を素通りさせるようになる (図??参照) .よってLDS-cellはマスター・ラッチの値を出力し続ける ことになる.このようにして, LEモード時にClock2を固定することで MUXを削減しつつ従来のLDS-Cellと同じ様にD-FFとD-ラッチの働き を切り替えることが可能となる. ou申ut丘om previous 1nput stage tO nexLt Stage 図1.16:マスタースレーブ型D_FF 29 三重大学大学院 工学研究科 1叩ut tO next Stage 図1.17:従来LDS-Cellの構成図 output &om stage previous 図1.18:提案手法LDS-Cellの構成図 A.2 低消費電力を目指したLDS-Ce11レイアウト手法の提 案 今回の手法はクロック信号線が2本になり制御が難しくなる.この問 題についてはコントローラを追加することにより解決する.コントロー ラの追加により増加してしまうトランジス久 消費電力についても評価, 考察を行う.今回追加するコントローラのトランジスタ構成を図1.20に 示す.コントローラの構成は,必要とする機能を満たしつつ,駆動の負 荷を極力減らす実装とする.トランジスタはPMOSとNMOSから構成 され,基本的にPMOSの方が駆動の負荷が大きい.よってコントローラ 30 三重大学大学院 工学研究科 図1.19:提案手法LDS-Cellの動作 C ONTROLLER VDD ,ⅠNVERTtiR. 冒 r1 L1 CK_P1 CKNl HÅN.D.I POWER CKP2 SAVEP r1 CKN2 Zヽ+7t:Zr++++1 ZVt+1Z< ER」 c」 VSS ≡=≡≡≡; 図1.20:コントローラのトランジスタ構成 はPMOSを並列に並べるNANDと,その他インバータで実装を行った. このような設計で2相クロックはセル利用者側からは単相クロックに見 せかけることができるようになり,提案手法LDS-Ce11の持つ複雑さを隠 31 三重大学大学院 工学研究科 HASTE R SLAVE 、、、、、..、、、、、、..、. CONT ROL LE良 図1.21:提案手法LDS-Cellのトランジスタ構成 蔽することが可能である.また,マスタースレーブ型D-FFのクロックス キューは非常にシビアであるためコントローラによるクロック生成によ り,クロックスキューの問題も解決できる.提案手法LDS-Cellの回路図 を図1.21に示す. このコントローラを,先に説明を行った提案手法LDS-Cellに搭載し, 実際にレイアウト設計を行った上でネットリストを拙出し,消費電ノJ及 び,遅延に関する評価を行う. 32 三重大学大学院 工学研究科 表1.13: LE単体の消費電力評価 トランジスタ数動作速度消費電力(pJ) 提案手法LDS-CellHS 340.5860.03787 LE 0.02842 従来手法LDS-CellHS 400.6100.03637 LE 0.03508 D-FF A.3 280.4810.03052 評価 実際に提案手法のLDS-Cellを詳細設計し,提案手法を用いたLDS-Cell を従来手法のLDS-Cell,スタンダードセルであるD-FFと比較評価した. 与えるクロックの周波数,テストパターンは同じものを用いる.結果を 表1.13に示す. 表1.13は同じ駆動力の提案手法LDS-Cell,従来手法LDS-Cell, D-FFの 遅延及び消費電力量を評価した結果であり,評価対象のセルにtlitaclliO. 18,LLmCMOS テクノロジのスタンダードセルであるⅢIT18INVPOIO IO個分を負荷と して与え,クロック信号がHiの時の入力信号の立ち上がり,立ち下がり, クロック信号がLowの時の入力信号の立ち上がり,立ち下がり,の遅延 と消費電力の平均を計測したものである. 表1.13より低消費電力モード時における提案手法LDS-Cellは従来の 低消費電力モード時のLDS-Cellに比べ消費電力を約20%低減できた.動 作速度に関しても約5%程度改善でき,これはトランジスタ数の減少が雪 国であると考えられる. ・-一方で高速モード時には消費電力は従来に比べ 約5%程度増加してしまい,これはD-FFと比べても明らかに悪い.トラ ンジスタ数のみで考慮されれば消費電力は下がるほずであるが,これほ 追加したコントローラ部分での電力消費が予想外に大きいことが原因で あると考えられる. 33 三重大学大学院 工学研究科 Stage 1 I (Low Energy node) I-I Stage 2 (Low Energy Jndc) ・・ - ・∴ ・・・一・-;i・・ LDS< ell 図1.22: LDS-Ce11を搭載した配列乗算器 また,提案手法LDS-Cellの効果を評価するためにパイプライン化され た配列乗算器(図1.22参照)をⅥrilog HDl.を用いて詳柵設計を行い, HitachiO.1811mCMOSテクノロジを用いて論理合成したネットリストに対 し手でLDS-Cellを挿入した.この配列乗算器で数万サイクル分演算を行 わせ,消費エネルギーを測定した結果を図1.23,図l.24に示す.図1.23, 図1.24は乗算器全体の消費電力と,乗算器中のI)-FFt Lr)S-Cellが消費 する電力の内訳を示している.従来手法のfJDS-C(州を組み込んだ乗算器 全体が消費する電力をlとして,従来手法に対する,提案手法が消費する 電力を比として示している.図1.23より, tISモードでほ組み合わせ回路 部分, D-FF自体では当然電力には差が出ないが,提案手法のLDS-Cell の消費電力が従来手法よりも増加してしまった.先に述べたとおりコン トローラ部分での電力消費によるものと思われる.一方図1.24よりLE モードではLDS-Cellの部分で消費電力が削減されている.これは提案手 法がLEモード時にスレーブ・ラッチを停1卜し,その部分で電力を消費し ないということが理由であると推測できる.トランジスタ数の削減とい う点ではHSモード時にも従来手法より消If7iエネルギーが削減されるべき だが今回はこのような結果となった.この原剛こついては,現在調査中 であり,原因を解析したとで,今後のコントローラ回路の改良を行う予 定である. また,今回評価は行わないが,図1.25のように多ビット版LDS-Cellの 提案をする.この設計によりコントローラをまとめることで更にトラン ジスタを削減し,小面積化も図ることができる. 一般にLSI内のD-FFは膨大であり,クロック線の負荷が非常に大き くなるため,通常の設計ではクロック線に対して,適宜バッファを挿入 しながら樹状に配線を行うクロックツリーを用いる.そこで,提案手法 34 三重大学大学院 工学研究科 .⊆ eel ⊂ 1.2 .⊆ 「■1 ∈ コ の 亡 1.0 く】 U ¢ i ○ ⊂L 従来手法 阿l.2こi: 1TSモード消費エネルギー比 .⊇ rt) ⊂ (⊃ iI?I a ∈ コ U) ⊂ 1.0 O O 4) 0.8 i 0 1 従来手法 図1.24: 捷案手法 LEモード消費エネルギー比 35 I_重大芋大学院 T.学研光村 LDS-cell LDS-cell controller LDS-cell LDS-cell 岡1.25:多ビット版I」Ⅰ)S-(「(?11の提案 LDS-Cellのコントローラをクロックバッファの 一部とみなし,図1.26の ようにクロックツリー内に混ぜて配置・配線することで, I.DS-Cellで発 生する遅延を隠蔽支し,かつLt)S-Cell利用IP;-からほ1ri子屑タロ、ソクのセルと して見せることも想定している. 36 三重大学大学院 工学研究科 Gated-clock domain Clock Source General domain LDS-cell dolll aim 図1.26:提案手法LDS-Cellで生じる遅延の隠蔽 37 三重大学大学院 工学研究科 clock