...

ファイルを開く - MIUSE

by user

on
Category: Documents
7

views

Report

Comments

Transcript

ファイルを開く - MIUSE
Master's Thesis / 修士論文
高性能と低消費電力を両立する可変段数パ
イプライン構造とその応用に関する研究
秋田, 直己
三重大学, 2008.
三重大学大学院工学研究科博士前期課程情報工学専攻
http://hdl.handle.net/10076/10910
・/㍗
.・・/イ.:?こ吾・it
+:こ :-:Tl':-ll
I-;-:
:I-i二三-_
・ミI-1l::-:_=Ii:'::
畢成語・窃年度
博堂節期課蟹情報濫撃琴窺
中.
i-:・iて
こ
T:\
模写可
修士論文
高性能と低消費電力.を両立する
可変段数パイプライン構造と
その応用に関する研究
指導教員
近藤利夫教授
Y
ノ▲■--一■
27,2.
-ヽ
・・
L
4
ヨ
:I
2008年度
三重大学大学院工学研究科情報工学専攻
計算機アーキテクチャ研究室
秋田直己(407M501)
三重大学大学院
工学研究科
内容梗概
近年,モバイルコンピューティングからハイパフォーマンスコンピュー
ティングに至るまで,幅広い分野において低消費エネルギーと高性能の
両立が要求されており,多くの研究がなされている.その一手法として
可変パイプライン段数アーキテクチャ(VSP)が提案されている.
VSP
(variable Stages Pipelille)はパイプライン段数を動的に変化させると同
時に,その際に発生する,無駄な消費電力の原因となるグリッチの緩和
を行うことで,高性能と低消費電力の両立を実現できる.
本論文では,この\/SI-の再構成デバイスへの適用を提案し,提案手法
の有効性を証明する. 11i構成デバイスほ特定用途向け回路であるASICと
比べ製造コスト的にも安価であり,最先端半導体プロセス技術によりト
ランジスタの集積度も向上しつつあるため,その使用範囲は拡大してき
ている.ここで,
(LとIt・(て11-I)FF-SelcctlOl・
VSl)の要素技術であるLDS-Cell
c(_?ll)は,グリッチの楳糾とrJDS-Cel1日休の低電J)化のために特殊な構f)A
になっており,
VSI-を巾構成デバイスに効率的にマッピングすることは困
難である.本論文で対態とする再構成デバイスであるFI'("TAは^SI(7に
比べ,消費電力を卜数[[[.-・消費するという短所があり,
に直接組み込むことで,
電力を目指す.
u)S-Ct?11をFP(iA
VSt'のFP(壬A適用を可能にし,
Ft-(二八の低汀原
また,本論文では提案手法の実装に先立って,
FPGA上におけるグリッ
チの影響を評価する.
FP(",Aのような,再構成デバイスにおけるグリッ
卜でヲ芭
チの発生竜に関する.iLT:・紺な評価はあまり行われていない. Fl-GA
生するグリッチの影響を明らかにした後,提案手法を実装しFPGAへの
vSP適用手法の有効什を示す.
実際にFPGAを搭載したFPGAボードを用いて評価をf-iったところ,
FPGAにおけるグリッナの発生量は,最大でFP(;Aが消費する軍ノ]の10
%に達した.また,
Lr!T路シミュレーションにより提案手法を実装する際
に生じるオーバーヘッドは1%程度に抑えられることがわかり,提案手
法によりFPGA上にVSl'プロセッサを実装した場合,消員電ノJを従来よ
りも最大で10%程度削減できることを示した.本論文では,再構成デバ
イスの一つであるFPGAへのVSP適用手法を提案し,提案手法の有効性
が実機実験と回路シミュレーションにより証明された.
三重大学大学院
工学研究科
Abstract
Rece11tly,
fol・ma11Ce
in thefield
fm(I
lS
COlnPuting
va・riable stages
has proposed.
only
dynamica・lly
COmPllting
low
and
Ill 1・11ispar)er,
energy
devices.
lてラ(川Ifig‖1・∼1,I)1e
WOrks
(二Olrlp11tillgall(1 lligll
llaVe T)ecll StlX・lic(・1・A
as
oil(〕
Of carly
wol・1くS
c()11'lpllti11g.
proロos(?s
author
lnally
highp(-ド
clla・llgeS t・llell111Ill)erof pipelille St・ag(、S
i(,批11i←-v(?lligl- lWrfoT・a・t lll={1T11(- =lne
propagatioll
I・e(lllCeSglitch
ma11Ce
so
ellergy
arcllitcct-・l11・e(VSP)
steps
pipeline
VSP
required,
l〕11talso
lIIObile colnp11ti11g
tlle aChivelrl(三tlt・
()f low
COrrlputing,
pcrfol・lnallCe
of not
Ill(, =1etllO(1 of {1・Pl
-1iclllioll
Of VSP
lo
RノeC(州fig川LIIl'l(_、
(1'.vi(▲t,.
wlli(ill(・'l‖ 1;l・k(-‡l SHit=l,1(,
Wire,
of (:り1111uて1 ・illg
iり11 1,v
∼l
illl'olll山・i(,ll
ap上-1i(:∼ll
(ill∼111glllg
・)lし?(:tric
I)(-(・II=S(?
iIH-Xl-CllSiv()
ill tll(、
is becol11111g r)(,i,l山Il・
it is
Irmllllfa(,・hlrillgCOSt
COlnpare(I
f'ol・ul(_,・Ol・rCSpO11dillgtO
all
wi‖l ^S【C
t・e(・1111Ol()gil,ト
i-lil(l
s(!11'li(:(川(Ill(・tOt・
・11・()
‖(1v[111(:illg・
fr(?rL).IJr)S-Cell
(Lat.c土トDFF-S(?l件t()1・
(「()ll) i=l=th(_?11バifll
1(, 1川Tl川)illg
bllt it is (1i[-fi'・1山
i111lつ1Htl州frllO VSP,
vie(?s I.)c川11S(? Of
(,ll
(てilでIlilI(I
1・(,-‖figl‖・㌻1†-1(,
(l卜
i川1
I_1nlq11e ilI・ll)1(-Ill(、‖tI11
0r r,I)Sイ1(-ll.
Tll(、 1-l・(W‖t illVeStigaf・ioll (I(-‖1sIVilll ∼, E:r'C・^. "・lli(・lli-,ll(, Or = lで(二(,lI
figllarat)le (1evices. Energy
is l∼ll・ger
FPGA
collSulnl)1 i川…r l 11(?
t・lli= 111∼11
of ASIC,
II
so
a
allthor
all
proposes
il叩1LllIICnt(at・io11
1n(-tJllO(()ど
1 FPGA
llaVillg
I」T)S-Cell.
f3(?r()l・(g()illg illt・O the
s=11上)t・io11
cause
propag[1l.iol…11ト'Ⅰ-(".八l,1r llLiillg
;Ill(ノlglitch
there
a・1・e
all(-1it・s (-llergy
Fl-(i^
lrl∼1・i11
i11甘11tl(、Ilt. ‖Hlll川・ (,.<ti‖1‖l(、;l‖ (-ll(-、1・gy(:(,ll
llOt mally
F「l-(17八l-(-al.(1I,・l
Ill-川I glit・(・ll
I)l・ol→agflti(川
reSeaCllCS Il一)(,ut (、rf-i?(:I
COllS111rlPtio11.
A(℃り(1illg I., I..7(1)‖・i(m(・(-lL・Wllt
10% ol・ less ()rl)(州・<?I.
tl=1
Ⅰ・(〕∼1Cll(†(I
iul
illCreaSe
est・iuln・t亡ラ(I
;I
Or power
[1-(l.A
(・川Ih=ll=l.
・s,
glit(二Ilill
Atltll(汀∼11h(,
ill Ill()(‥∼lh(- ()r llトillg tノll(?
(:()11ト11111l)ti川t
Sllg-
1Jl
tllt-l・(-Htllt:
g(!sl・i('ll fl・11(I
1ワイi‖(二1竹lト(-.Jiglll
(二()llrlrlrlt?(1
^ulJll(Jl-1n・('P(JSC(_1tllC l・CCO11rlg111・.・1・l)1'll I」Ⅰ)S
t-o fill(II ll(\\ノ・il
(1{?\ri(‥(_-.i
-(_1し?ll
il一R,econRgllralっIc (1cvic(M fl・11(Iill ‖H) Case
effectivelleSS Of VSP
Of usil-g
VSP
processor
ill FPGA,
its cllergy
三重大学大学院
I-y
(二011S11111Pt・io11(二;1pll(1t†cr(泊・Se
工学研究科
5-100/u・
目次
1
はじめに
1
2
再構成デバイスに関する概括
2
3
先行研究
5
5
3.1パイプライン統合手法に関する概括‥.
VSP
3.2
(Varial)leStages Pipelille)に関する概括.
3.3
グリッチに則する概括.
3.4
4
LDS-Cellに関する概括‥
13
13
13
・1.1.1実験.
消夏f:(71:,Eノ]評価
・1.1.2
17
VSPプロセッサをFPGAへ適用した場合の考祭.
・'l.?,ロジックエレメント改造にfFう消費電力増加.
・l.(1 VSPの「1-("T.\への適用手法の提案.
19
'20
I_?I
22
・′1.Ll-.1提案T'・はのJi;盟.
1./1.2
提案T-・はの評価.
5
9
10
‥
VSPのFPGAへの適用.評価
VSPをFI'(i八へ旭川した場合の効果.
11.1
Ll.2
6
2:i
まとめ
24
参考文献
26
付録
29
A.1改良型l.I)Sで(111レイアウト手法の提案.
A.・2 低消至宝Ii宅ノJをF
l指したl.I)S-Ce11レイアウト手法の提案
29
A.こi
こiこi
A
.刑曲
三重大学大学院
工学研究科
3O
図目次
2.1標準的なFPGAのアーキテクチャ.
3.2
パイプライン段数の変更.
‥
4
6
7
3.4
VSPプロセッサの構成図.
低消費電力モードにおける消費エネルギー比.
3.5
グリッチ.
9
3.6
グリッチの緩和.
10
3.7
LDS-Cell型パイプラインレジスタの動作.
10
3.8
I.DS-Cell型パイプラインレジスタの動作の概念図
ll
3.9
LDS-Cell.
ifl
3.3
4.1∩実機環境.
lLl
1 T:)
・.1.11想定する予備実験用回蹄.
4.12実際に用いる予備実験用回路
4.13
StratixIIのLE
4.14
St.ratix_IIにおける提案手法
・1.15 C.vcl'川e
8
16
21
,
22
【tIのLFJとC.ycl''=,_‖における提案T.・法
1.16マスタースレーブ型D-FF
1.17従来LDS-Cellの構成区T.
22
29
.
?,0
1.18提案手法LDS-Cellの構成図
3()
1.19提案手法LDS-Cellの動作
1.20 コントローラのトランジスタ構成.
1.21提案手法LDS-Cellのトランジスタ構成.
31
1.22
I
t'iL
1.23
LI)S-(〕e11を搭載した配列乗算器.
HSモード消費エネルギー比.
1.24
I.一三モード消費エネルギー比.
35
31
32
35
1.25多ビット版LL)SICellの提案.
6
i(i
1.26提案f・法【」r)sICellで生じる遅延の隠敵.
37
三重大学大学院
工学研究科
表目次
13
4.1ターゲットデバイス
4.2
定電圧源詳細.
14
4.3
予備実験環境.
16
4.4
予備実験回路のF【)(;Aにおけるリソース利用率(8l)it)
17
4.5
予備実験回路のFPGAにおけるリソース利用率(16bit」)
18
4.6
予備実験回路のFt)(;Aにおけるリソース利用率(32t)it/)
18
4.7
消費電力評価結果(81)it)
19
・1.8
4.9
(W)
消費電力評価結果(16hitJ)
(W)
消費電力評価結果(32l)it♪) (W)
19
20
∫′l.10プロセッサ環境.
・l.ll F'Ⅰ-(;Aにおけるリソース利用率.
L/1.12
1.13
2l
')
LFJ単体における消費電)]評価.
LFJ単体の消費電力評価.
A_?:
3:3
iii
三重大学大学院
2∩
工学研究科
1
はじめに
近年,モバイルコンピューティングからハイパフォーマンスコンピュー
ティングに至るまで,幅広い分野において低消費エネルギーと高性能の両
立が要求されている.現在の汎用プロセッサの代表的な低消費電ノJ手法で
あるDVS[1]は,動的に電源電圧と動作周波数を変化させることで消費エ
ネルギーを削減する.しかし,
DVSは将来的に電源電圧の低ーFによる電
源電圧変化幅の減少によって消費エネルギーのi-)'り訪友効率が低 Fすること
が予想される.また,動作周波数の低Fに比例して件能が低Fするという
問題点もある.先行研究では電源電圧に依(fしない低Ji=Eノ]化1・・法として,
アプリケーションの特性やユーザの要求性能に応じてパイプライン段数
を動的に変化させることで低消書写電ノ]と高件能のr-LfL]J
、'!-.をrl指した可変パ
イプライン段数アーキテクチャ(VSl-‥V'11・i'11'1'、
SII'gし!hPil'・'1ill(ち)
L2」剛1」
が提案されている.
VSPはパイプラインレジスタの代わりにI.DS-C(?ll
(Latch-DFF-Selector
Cell)という特殊なI)-F'Fを川いることで,動的な
パイプライン段数の変更を実現している.
本論文でほこのVSPの再構成デバイスへの適川を.;,-,・モみる.
.i-T=・,iWCま次節
で述べるが,再構成デバイスとは電'i川勺に何度でも.f;A.き換えることが可
能なデバイスである.粗位度,細粒度などの追いはあるが^s【(ノ1と比べ製
造コスト的にも安価であり,最先端半導体プロセス技術により集積度も
向上しつつあるため,その使用範[Tr・Tほ拡人してきている.
VSPはその要素技術としてLDS-(,1ellというセルを持つ.
I.I)S-Ce11は
D-FFまたはLatchとしてその振る舞いをプログラムJ克行巾に変化させグ
リッチを緩和する.しかし,その機能と省電ノ]の('lJ)-、(/二のために'j;装J}J法
がやや複雑になり,再構成デバイスへの適川は榊難である.
そこで再構成デバイスにLDS-C(?llを直接,%flみ込むことによりVSPの
再構成デバイスヒへの適川を可能にし,グリ、ソナ桔不川こよるfl捕h;j'Eデバイ
スのさらなる高惟能と低消費電力化をH桁す.本論IkAではf州毎)'Xデバイス
の中でも広く普及しつつあるFPGA
(Fiel(1t'l・('gl.;l・1111lrlat'l((i∼1・1('^lTay)
のモデルを用いて実験,評価を行う.
三重大学大学院
工学研究科
再構成デバイスに関する概括
2
再構成デバイスとは,リコンフィギュレーションという,デバイス中の
電気的な結線位置情報を変更する動作を行うことで,アプリケーション
に応じて最適なデバイス構成を取ることの出来るデバイスである.その
ため効率の良い演算が可能になり,汎用プロセッサに比べ少ない消費電力
で処理を行うことが可能である.再構成デバイスは各ベンダから多様な
NEC
Electronics
製品が提供されており, Altera社, xilinx社のFPGA,
社のDRPなどがある.各製品によりデバイスを構成するロジックの最小
の単位や,リコンフィギュレーションの方法などが異なる.これらの再
構成デバイスについて以下で説明を行う.
FPGA
(Field
FPGA
われるLUT
Programmable
(Look-Up
Gate
Array)
【5]は1bit単位で構成が行
Table)を組み合わせることによって所望の回路
を実現する. FPGAはAND-ORアレイ構造で構成されている再構成デバ
イスよりも小規模な基本論理ブロックを持つ.
FPGAの詳細なアーキテ
クチャはベンダによって異なる.
PCA
(Plastic Cell Arcbitectllre) 【5]【6]はFPGAよりもさらに汎用性
を向上させることで,従来の汎用CPUに匹敵する汎用性を持たせるべく
開発されたアーキテクチャである.
PCAの基本的なプロセッサエレメン
PCA
トはLUTを搭載しており,
1bit単位での構成が行われる.
DRP
DRP
(Dynamically
Reconfigllrable
ElecProcessor) 【5][6][7]はNEC
tronics社とNEC社によって開発されたプロセッサである.
8bit単位のプ
ロセッサエレメントを2次元アレイ上に構成し,これらを並列動作させる
ことによって高性能化を達成している.プロセッサエレメント内には演
算器として8bitのALUとDMU
(Data Manipulation
Unit)を持つ.
PARS
PARS
(Paralleland
Reconfigllrable
Structllre)
[8][9][10]PARSアーキ
テクチャは広島市立大学で開発された粗粒度リコンフィギャラブルプロ
セッサである.
8bit単位のプロセッサエレメントが2次元アレイ上に構
三重大学大学院
工学研究科
成されている.プロセッサエレメント内には演算器として8bitのALUを
持つ.
PipeRench
pipeRencb【5】【叫は米国カーネギーメロン大学でストリーミングアプリ
ケーション向捌こ開発された粗粒度リコンフィギャラブルプロセッサで
ある. 8bit単位のプロセッサエレメントがパイプライン動作を前提とし
たStripeという構成単位内に16個搭載されており,
Stripeをパイプライ
ン的に動作させることで処理が実行苦れる.
MorphoSys
MorpboSys【5】【12]は米国UCI大学で開発されたリコンフィギャラブル
プロセッサである.
2次元アレイ上に構成され相互結合綱配線によって
つながれたプロセッサエレメント内には28bitのALUと16×12bit乗算器
を持つ.
Chameleon
CS2112
Cbameleon
CS5112【5]はChameleon社によって開発された.プロセッ
サエレメント内には32bitALUを持ち,
7つのプロセッサエレメントをま
とめたでileと呼ばれる構成単位には2つの16×24bit乗算器を持つ.
PACT
XPP
(extreme
Platform) 【5][6][13]はPACT社によって開
24bit,
発されたリコンフィギャラブルプロセッサである.
XPPには16bit,
XPP
processing
32bitのバージョンがあり,設計時に選択することができるが,動的に変
更することはできない.
DAP/DNA
DAP/DNA
(Data
Application
Network
ArcbiProcessor/Distribllted
tectllre) 【5]【6]【14]【15]はアイピーフレックス社によって開発されたリコン
フィギャラブルプロセッサである.プロセッサエレメントはすべて同じ
ではなく,異なった機能のプロセッサエレメントが2次元アレイ上に配置
されている.
今回は比較的広く利用されているFPGAをターゲットとする.図2.1に
標準的なFPGAのアーキテクチャを示す.図2.1に示すようにFPGAは
三重大学大学院
_
t二学研究科
図2.1:標準的なFPGAのアーキテクチャ
(ロジックエレメント)から成る.また,
最小の構成単位であるLE
LUで
(ルックアップテーブル)とD-FFから成る.このLEを内部配線に
LEは
より組み合わせることによりFPGA上に回路を実現する.
近年では専用のチップを作成する際,チップに一億を超えるトランジ
スタを積載するケースがあり,このようなチップを作成する場合,開発
コストが増大してしまう.対して,再構成デバイスであるFPGAを利用
することで開発期間,金銭的なコストを大きく削減できることから,近
年その需要は拡大してきている.しかしながら, FPGAはASICに比べ
消費電力が大きく,比較して十数倍の電力を消費するという短所がある
FPGAにおける消費電力の低減は必須の試みで
【16].これらの理由から,
あるといえる.
三電大学大学院
工学研究科
先行研究
3
本章では,プロセッサの低消費エネルギー手法に関連する研究につい
て概括する.現在の代表的な低消費エネルギー手法の一つとしてDVS
(Dynamic Voltage Scaling)があげられる. DVSは動的に電源電圧と動作
LSI
周波数を制御することによって消費エネルギーを削減する.しかし,
の電源電圧は年々低下しており,将来的に開催電圧の制御などの問題から
電源電圧を低下させることのできる変化幅は小さくなるといわれている.
そのためDVSによる消費エネルギーの削減効率は低下することになると
考えられる.そこで,
DVSに代わって,電源電圧に依存しないアーキテ
アー
クチャレベルの低消費エネルギー手法が多く提案されている【17ト
キテクチャレベルの低消費エネルギー手法の一つとして,
PSU
(Pipeline
Unification) 【18]やDPS (Dynamic Pipeline Scaling) 【19]のよう
に動的にパイプラインステージを変化させる手法がある.これを本論文
Stage
ではパイプライン統合手法とよび,次節で説明を行う.
3.1
パイプライン統合手法に関する概括
前述したプロセッサのパイプライン構造の例を図3.2に示す.
psuや
Stages
(Variable
Pipeline)の手法は動作周波数に応じて動的にパイ
プラインステージを統合する.これによって以下の利点がある.
VSP
●分岐ミスペナルティとデータ依存による待ちサイクルの削減によっ
て実行時間を削減することが可能である.
●使用しないパイプラインレジスタやユニットへのクロックを停止す
ることでその部分の消費エネルギーを削減できる.
以上の利点によって低消費エネルギー化が可能である.また非同期の
プロセッサにおいてパイプラインラッチコントローラを制御することで
パイプライン段数を削減し,低消費エネルギー化を実現する手法も提案
されている【20].しかしながら,いずれの手法もパイプラインを統合する
ことにより,巨大な組み合わせ回路ができ,その結果多大なグリッチが
発生することになる.これは,パイプライン結合時に消費電力が増大す
る一因になり,低電力化の低減に繋がる.そこで著者らはパイプライン
ステージ統合時に増加する組合せ回路内のグリッチを緩和するLDS-Cell
という特殊なセルを用いたVSPを提案している. VSP,グリッチおよび
LDS-Cellについては次節で述べる.
5
三重大学大学院
工学研究科
図3.2:パイプライン段数の変更
VSP
3.2
(Variable
Stages
Pipeline)に関する概括
vspはPSUと同様,パイプライン段数を動的に変更することで低消
費エネルギー化を目指すアーキテクチャであるが,
psuとは異なり単純
にステージ統合を行うのではなく,統合により発生するグリッチの増加
をLDS-Cellという特殊なセルを導入することにより抑制している(LDSCellの詳細は第3.4節に示す).
セッサの構成図を示す.
vspの一例として,図3.3にVSPプロ
vspはパイプライン段数の違いによって高速モードと低消費電力モー
ドの2つのモードを持つ.これら2つのモードの特徴は以下の通りである.
高速モード:
●
9段パイプラインであり,
動作する.
LDS-Cellはパイプラインレジスタとして
●デコードステージに分岐予測ユニットを搭載しており,分岐ミスペ
ナルティは3サイクルである.
●無条件分岐は分岐予測ユニットにおいて100%の分岐予測が可能で
三重大学大学院
工学研究科
High
Speed
Fetch
9 stages
mode
Decode
Regfile
葦
l
Exe1
Exe3
董--
l
享≒ト
≡二::=:;:J)EC
:.=ロ
il.+
cache
EXe2
U
pipeline processor
Exe4
;i
Memory
妻
I
;i;;;:'Al. 毒AL
…AL
MD
MD
Write
D
享Mp
■■●●
cache
REG
D」u
・;.._.
tlRANC冗
EDーCTTO
I:1 Rd
::.:::::RRd
tlRANC口
f
[B
TADDRESS
MRd
.:二主::丘2
.::;:::WR^
C出
一
F十MUX
F+MUX
Il°
D-FF+MUX::D-FF+MUX::
LD㌔Ce11ll
-Cell
FetchDecodeReg{1le
MemoryWrite
Exe
□
1上
1DEC
cache
uFwuFwuFwu
呂
工)
cache
Iレ′
RJ=G
Iレ′
DRdyPaSS-
WRd
ERA
A
CH
TADD7tESS
●
Low
Energy
mode
3 stages pipeline processor
図3.3: VSPプロセッサの構成図
三重大学大学院
工学研究科
0
'B
cd 1.2
堅∃
白 1.0
(〇
'B
A
0.8
g 0.6
也
日
(⊃
U
0.4
昏0.2
4)
g
0
至
bubble
sort
euclideanalgoritlm
図3.4:低消費電力モードにおける消費エネルギー比
ある.
●インターロックと演算結果のフォワーディング機構を搭載している.
低消圭電力モード:
・高速モードの1/4の周波数で動作する.
●遅延分岐,遅延ロード,フォワーディングによって分岐ペナルティ
やデータ依存によるインターロックが発生しない.
●分岐予測ユニットやバイパスされて使用しなくなったパイプライン
レジスタのクロックを止めることでパイプラインレジスタで消費さ
れるエネルギーを削減することができる.
これら2つのモードによりVSPは,
1)バイパスするパイプラインレジ
スタの停止を含むクロックゲーテイングと,
2)グリッチ緩和により消
費電力を低減する.著者らはこれまでにVSPを詳細設計し,その有効性
を示している【3].図3.4に文献[3]で行ったDVS,PSU,
VSPそれぞれ
の手法を用いたプロセッサのトランジスタレベルでの,消費エネルギー
について評価を行った結果を示す.ベンチマークプログラムは,
10個の
整数をバブルソートによってソーティングする"bllbble
sort",ユークリッ
ドの互除法のプログラムである"ellClidean
三重大学大学院
algorithm"である.
工学研究科
図3.5:グリッチ
図3.4より,
VSPは低消費電力モードにおいて従来法よりも消費エネ
ルギーを削減できていることがわかる.一方,紙面の都合上グラフは省
略したが,高速モードではVSPとpSUは,
DVSと比較してわずかに消
費電力が増加した.
3.3
グリツチに関する概括
グリッチは組合せ回路内のゲート遅延や配線遅延によって各ゲートに入
力される信号の時刻がそろっていないために発生する.図3.5にグリッチ
の発生例として,
2つの入力信号に対して加算を行う様子を示す.図3.5
の1段目と2段目が入力,
3段目が入力に対する結果であるが,
1段目,
段目の値が確定してからも,しばらくの間3段目の出力は変化している.
すなわちグリッチが発生し,この部分で無駄な消費電力が生じる.また,
2
回路前半で発生したグリッチが回路後半のゲートに伝播することにより
新たなグリッチが発生するため,一般的に組合せ回路の規模が増大する
と配線遅延の影響も受け,グリッチの量も増大する.
VSPでは,統合さ
れたパイプラインステージ中にLatcbが存在することでグリッチ増加を
緩和する. Latchはそれ以前で発生した電気信号(データ,及びグリッチ)
を以降に伝えず,一定のタイミングで信号をLatchから同時に再出力す
る.図3.6にこの効果によって統合されたパイプラインステージでのグ
リッチの緩和の様子を示す.
ここで,ランダムロジックをゲートで構成した場合,入力パターンの
変化により信号の遷移時間にばらつきが発生し,複雑なグリッチが発生
する.一方,再構成デバイスの多くはランダムロジックをLUTで構成し
ている.
LUTでランダムロジックを構成した場合のグリッチの発生量や
それによる消費電力増加についてはあまり研究が行われていない.そこ
で,本論文ではまず再構成デバイスでグリッチの発生がどのような影響
を与えるのかを明らかにする.
9
三重大学大学院
工学研究科
前ステージ
からの出力
Clodく
図3.6:グリッチの緩和
E}FFとして動作
ステージ鈴音前
(有効作周波数)
Ldchとして動作
l
L-・・
ステージ統合後
(任免作周波数)
図3.7:
3.4
LDS-Ce11型パイプラインレジスタの動作
IJDS-Cellに関する概括
図3.7はLDS-Cellの動作の概念図で,
方の役割を果たすことを示している.
LDS-Ce11がD-FFとLatchの両
LDS-Cell型パイプラインレジスタはパイプラインステージ統合時にお
いて図3.8のようにクロックの前半部分と後半部分において動作を行う.
クロックの前半部分はマスターLatcbの億が出力されるため,グリッチ
10
:.竜)く,L]7:人草院
工手T')F'4t科
ouq)ut丘om
previous
stage
lnPtlt tO
next
block
stage
diagram
図3.8: LDS-Cell型パイプラインレジスタの動作の概念図
mptlt tO
next
図3.9:
stage
LDS-Cell
が含まれる前段の出力が次段の入力へ伝えられない.クロックの後半部
分ではスレーブLatchがバイパスされるため,前段の出力が次段の入力
へと伝えられてステージ間の統合を実現し,
save_power信号線をアサ卜することによってパイプラインレジスタはLatchとして機能している.
非統合時にはLDS-Ce11型パイプラインレジスタはsave_power信号線をネ
ゲートすることでD-FFと同じ振る舞いをする.
本論文で用いるLDS-Cellを図3.9に示す.
LDS-CellはD_FFをベース
にして設計されている.というのはLDS-Ce11がスタンダードセルを用い
た設計を前提としており,パイプラインレジスタがD-FFを用いて設計さ
れているプロセッサを想定しているためである.図3.9のLDS-Cellでは
マスターLatcbから信号線をバイパスすることで,
D-FFとLatcbの動作
を切り替える.このセルにより無駄なリソースを使わずにVSPに必要な
ll
三電大学大学院
工学研究科
機能を実現できるが,このような形状を持つセルは再構成デバイスには
存在せず,再構成デバイス上にVSPを実現する際の妨げとなってしまう.
12
三重大学大学院
工学研究科
4
VSPのFPGAへの適用.評価
4.1
VSPをFPGAへ適用した場合の効果
FPGA上にLDS-Cellを搭載可能とすることで,
FPGAにVSPを適用
することが可能となる.本論文ではFPGAのVSPへの適用を実現する
ために,
FPGAのLEに対してLDS-Ce11を組み込むという手法を提案す
る. FPGA上にLDS-Ce11を搭載可能とすることで,
FPGAにVSPを適
用することが可能となるが,本節では提案手法の適用に先立って,予備
実験としてFPGA上でのグリッチの発生量,及びグリッチの緩和効果が
どの程度であるのかを示す.
4.1.1実験
VSPのFPGAへの適用の有効性を示すために実験を行う.本論文の
ターゲットデバイスであるFPGAのモデルはAltera社のStratix
IIを用
いる.表4.1にターゲットデバイスの詳細を記載する.
表4.1:ターゲットデバイス
Type
NaITle
EP2560F672C3F
Core
Ⅵ)ltage
1.2V
ALMs
241 76
ALUTs
48352
LEs
60440
User
718
I/Os
Mell10ry
Embedded
bits
2544192
144
multiplier
PLL
4
評価はAltera社のQ11art11S
II
7.2を用いて予備実験用回路を論理合成・
マッピングし,実機動作確認による消費電力評価行う.実験に用いた評
価キットであるAlteraDE2の概略図,及び定電圧源を図4.10に示す.莱
機評価では図4.10に示したFPGAコアに直接つながる配線に定電圧源を
接続し,
1.2Vの電圧を与えFPGAを駆動している.また,定電圧源は電
流計を兼ねており,コアに流れる電流を直接計測できる.定電圧源の詳
細を表4.2に示す。
FPGAコアはそれ自体が持つ熱により消費電力に大
13
三重人学大学院
工学研究科
表4.2:定電圧源詳細
メーカ
Agilent
型番
E3640A
出力定格
O-8V/3A
電圧プログラミング確度
電流プログラミング確度
<
0.05%
+
10ⅠIIV
<
0.2%
+
10ⅠIIA
電圧リードバック確度
<
0.05%
電流リードバック確度
<
0.15%+5mA
+
5mV
メータ分解能(電圧)
IOⅢ1V
メータ分解能(電流)
II11A
図4.10:実機環境
きな違いが生じるため,簡単なフアンを取り付け,
却する環境とする.
FPGAコアを常に冷
予備実験に用いる回路はブロックマッチングを行うための多並列pEア
レ-である.
PEアレ-とは動画像圧縮符号化LSIの動きベクトル探索や
移動物体検出等で広く用いられる回路である.本論文でほ二つの部分画
倭(ブロック)について画素毎に差分絶対値(ad‥absol11te
differ。11。e)杏
とり,その総和を求める回路を設計,実装する.動きベクトル探索では,
動きベクトル検出対象画像に対し,参照画像から一定範囲の領域,すな
わち探索範囲を切り出し,探索範囲内のすべてのブロックに対してブロツ
14
三重大学大学院
工学研究科
ad
Macro-Blockl
o
absolute
diqemce
∠憂戸7
LDSICe"
ad
:
Each
pixel is Added
∠≦≦萎デ
Macro-Block2
DATA
FLOW
図4.ll:想定する予備実験用回路
クマッチング処理を行う.特に高精細映像用動画像圧縮符号化LSIでは,
動きベクトル探索処理の演算量が膨大であり,
pEアレ-を複数個並列に
動作させることで高い演算性能を実現している.しかし,多並列pEア
レ-をLSI化する場合にチップ面積,消費電力が問題となっている.
その解決方法の一つとして,中断法を用いた動き探索アルゴリズムが
ある.中断法に関しては詳細は省略するが,このアルゴリズムを用いる
ことで処理時間を十分にとることの出来る処理を行うことが可能となる.
図4.11のVSP型pEアレ-では,動きが複雑で演算時間が掛かると
予想される場合には, LDS-Cellを高速モードにし,高クロックで演算を
行う.一方,動きが単純で演算時間に余裕があると予想された場合には,
LDS-Cellを低消費電力モードに切り換え,低いクロックで動作させるこ
とで消費電力を下げることができる.
必要となる演算性能,すなわちpEアレ-の唖列度は対象とする画像サ
イズや要求される画質に依存するが,本研究は動画像の圧縮符号化を行
うことが目的ではないので,実験的に並列度を川,
2∩, 25とし,グリッ
チ発生竜の評価を行う.
ただし,現状ではFPGA
LにLI)S-C(-11がf(-・[f・:しないため,図∠1.11に
示すような設計をとることができない.また,
FI,(;A上でのグリッチの
緩和程度を調べるために,ここでは図4.12のように回路を実装する.
このような構成により,低消費電力モード時に)yI:Yl三するグリッチをラッ
チするか否かを選択することにより,グリッチの発生量の評価を行うこ
とができる. FPGAでは,個々にカスタマイズされたクロックツリーを
15
三重大学大学院
工学研究科
ad
●・・田
∠表替
Macro-Blockl
o
ad
:
di伽mce
absolute
≦■/ノ≡`
Each
pixel is Added
∠≦≦室戸
Macro-Block2
DATA
FLOW
図4.12:実際に用いる予備実験用回路
表4.3:予備実験環境
実行モード
高速モード
パイプライン段数動作周波数グリツチ緩和
210MHzなし
低消費電力モード
12.5MHzなし
(by-pa,ss)
低消費電力モード
(Latch)
12.5MHzあり
FPGAで構築するのは困難であるためクロックゲーテイング機構を持た
ず,基本的には少数のグローバルクロックツリーがFPGA上のD-FFに
常に供給される.
LatchはD-FFを用いてFPGA上にマッピングされる
ため,図4.12の回路構成をとることにより,クロックゲーテイングによ
る消費電力の削減を加味することなく,かつグリッチを削減しないiii純
なパイプライン統合と比較して,詳細なグリッチの発生量を求めること
ができる.
図は省略するが高速モード時の回路としてラッチの代わりにⅠ)-Fト「を川
いた匝1踏もあわせ,予備実験用回路をD-FFを用いる高速モード,グリッ
チ発生の緩和を行わない低消費電ノJモード(I)∫-I)a,SS)
,グリッチ発生の
緩和を行う低消費電力モード(La†(‥Il)の3通りで評価を行う.表′l.3に
それぞれの予備実験用回路の環境を示す.
この予備実験用回路を数十個並列にFPGA上にマッピングし,評価を
16
三重大学大学院
工学研究科
表4.4:予備実験回路のFPGAにおけるリソース利用率(8bit)
高速モード低消費電力モード
並列度
FPGA利用率
ALUT数
レジスタ数
10
25%28%
9294(19%)10895(23%)
4779(10%)3499(7%)
FPGA利用率
20
ALUT数
レジスタ数
FPGA利用率
ALUT数
レジスタ数
25
52%57%
19744(41%)22363(46%)
9414(19%)6857(14%)
67%74%
25857(53%)29069(60%)
11752(24%)8553(18%)
行う.並列に回路を用意するのはグリッチによる消費電力が動的消費電力
であるためである. FPGAは通常,
FPGA上のすべてのロジックに対し
て電源が供給されるため, FI-GAにマッピングする回路の規模によらず
定量の静的消費電力が発生する.今回用いるデバイスであるStl・a′tix
IIは
一
90nmプロセスである.一般に90111nプロセスのコアにおける動的消費電
力と静的消費電力の比は2: 1であると言われている.グリッチが回路規模
により変化することが予想できるため回路規模の割1今を変化させ,ト'l-GA
コアの利用率を変化させることでグリッチ発生の振る舞いを調べ,より
詳細なグリッチの評価を行う.予備実験用回路のデータ幅を8bit,
32bit,
20, 25として,
FPGAにマッピングする回路の並列度10,
上にマッピングを行った際のリソース利用率をそれぞれ表Ll./4,表4.5,
16bit,
FPGA
表4.6に示す.
4.1.2
消費電力評価
実機動作で確認を行う.データ幅が8bit,
16l:)il.,321)itで消費電力評価
したものを表4.7,表′1.8,衣一l.9にそれぞれ示す.大小の「HSIほ高速
モード, 「LE_Jは低消'ffi竜ノ]モードを′jミしている.
表4.7,表4.8,表∠1.9は,予備実験用回路のデータビット幅に応じた
それぞれの消費電力を示している.列「t」Il;
数字ほ列r
LE
(IJ[lt.(_Ill)
Jの他の括弧の中の
(by-pass)」に比べ,どれはど電ノJが削減できているかの
比を示している.なお,一般にFPGAはクロックゲーテイングを行うこ
とができない.そのため,
pSUをFPGA上に実装した場合,図4.12の
17
三重大学大学院
工学研究科
表4.5:予備実験回路のFPGAにおけるリソース利用率(16bit)
並列度
高速モード低消費電力モード
26%29%
FPGA利用率
10
ALUT数
レジスタ数
9712(20%)11042(23%)
4807(10%)3527(7%)
FPGA利用率
20
25
ALUT数
レジスタ数
FPGA利用率
ALUT数
レジスタ数
52%58%
20006(41%)22640(47%)
9554(20%)6996(14%)
68%74%
26128(54%)29385(61%)
11882(25%)8684(18%)
表4.6:予備実験回路のFPGAにおけるリソース利用率(32bit)
並列度
高速モード低消費電力モード
10
FPGA利用率
ALUT数
レジスタ数
2U
FPGA利用率
ALUT数
レジスタ数
25
FPGA利用率
ALUT数
レジスタ数
26%29%
9706(20%)11044(23%)
4807(10%)3527(7%))
52%58(X,
19997(41%)22642(47%)
9556(20%)6995(14%)
68%74%
26165(61%)29407(61%)
11882(18%)8683(18%)
(byllV1・SS)の評価純
Latch部分がD-FFとなった構成になる1.よってLE
火はⅠ'SUを川いた1'^Lj一介と等しくなる.去∠1.7,去Ll.8,衣.1.9より,デー
タ幅の違いでは, FPGA上で消費する電力にほとんど差は見られなかっ
たが,娃列度によって有意な差が出たといえる.ラッチを行うか否かによ
り:I(i.列痩t()では平均1.7%, 20ではこ',.・2'X),
25では3.6ワイ)程度消鄭二uノJ/l':I.・が
見られた.この結果はFP(iA中にrLT'める動的消費電)]と静的消'f-Y.二注ノ」の
比によって得られるものであり,
FP(iAに占める回路の割合が大きいほ
どグリ、ソチの発生量が多くなることを,jtしている.上記の評価結宋より,
1マルチプレクサ(MUX)で高速モード時はD-FFの出力を,低消費電力モード時
は入力データを選択する
18
三重大学大学院
工学研究科
表4.7:消費電力評価結果(8bit)
並列度
(W)
8bit差分絶対値和回路
HSLE(by-pass)LE(Latch)
10
o.64440.50880.5004(1.7)
20
o.82440.58320.5652(3.1)
o.92880.61680.5964(3.4)
25
表4.8:消費電力評価結果(16l、)it,)
並列度
10
(W)
16bit差分絶対値和回路
HSLE(by-pass)LE(Latch)
20
o.63720.50520.4968(1.7)
o.82680.58440.5676(2.9)
25
o.93360.62160.6000(3.5)
FPGAの使用率が100%に近い場合では,グリッチ緩和による電ノJ消費の
削減率は全体の消費電)]の5'yo,動的消費電ノ]だけにt=
lすればそのL(J'り減
率は約7-loo/oになることが推測できる.また,
↑l・_771i丈消Efli椙)]モードの
動作周波数は2.5MHzとしたが,これをl仙=l/.とし,データ幅をニjL2l)itr,
並列度25でグリッチの糾曲を子J‥ったところ,
9%の改善を見せた.以上の結果と考察により,
は有効であるといえる.
4.2
I.二ii)J汀憤の(棚掛率は全体で
FPGA上においてもVSP
VSPプロセッサをFPGAへ適用した場合の考察
次に図3.3で示したVSl-プロセッサにおける検証を7J--う.実機を川い
てPSU,
VSl)を動作させるためには,
.i'iiL,汁データの人帖な変火と検証が
必要である.そこで本論丈では,前節のJ{,[J'rl'iノ)i!験を)占に\.'SI)プロセッサ
を用いて評価をした場rTについてJ;-烈を7iう.
↑州・ji‖けるプuセッサの
環境を哀′1.10にホす. Jう;lト(-プロセ、ソサは叶変パイプライン構iriをナ、‡たな
い普通のプロセッサ, L'Sしプロセッサは=J変パイプライン構造はf、I)-:つが,
グリッチ緩和機能は持たないプロセッサ,
vsI'プロセッサはIfJ変パイプ
ライン構造を持ち,
Ll)S-(_プ''71をf別衣する,つまりグリッ+緩和機能をJ-:i-・
つプロセッサである.また,
Ba,seプロセッサ, pSUプロセッサ,および
著者らが提案しているVSPプロセッサをターゲットデバイス上にAltera
19
三重大学大学院
工学研究科
表4.9:消費電力評価結果(32bit)
並列度
10
(W)
32bit差分絶対値和回路
HSLE(by-pass)LE(Latch)
20
o.63840.50760.4980(1.9)
o.81360.58560.5664(3.3)
25
o.93240.62880,6060(3.7)
表4.10:プロセッサ環境
プロセッサ 実行モードパイプライン段数動作周波数
Base
PSU
910MHz
High_Speed910MHz
Low_Energy32.5MⅢz
VSP
Hig1ー_Speed91仙什Ⅰz
Low_Energy32.5MHz
l1 7.2を川いてマッピングした際のリソース利川率を去1,11に
Qll∼11・t,llS
′」ミす.
動的汀慣i=iZ)JはL3∼l.卜し)プロセッサに比べ,
l'SU,
数`^,増加するが,これはl'SU,
VSf'の[r:.1)一過モードでは
VSl'にIIJ変パイプライン構造をj`、∵たせる
ために追加した回路によるものである[3]. VSPは低消費電力モードでほ
約60%の低減となり,
pSUに比べても約4-6%の改善率となる可能性が
ある.
4.3
ロジックエレメント改造に伴う消費電力増加
1JtL火の1」上.;に1.1jSt7cllを適川したl'ij・t7,
I)-ト「Fとしl.tCllのL)]り1;_乍え(.・J
蹄追J]11により汁憤',=iiノJが増加するHJ胎IJl:.がある.そこで水師では1」Il二の改
装にrf'-・う汀i門',-7iノ川.'1J)Hに関する評価を7iう.
il・肘I勺にはIJf)S-(1'†11をf[i亨接
した1.111Jを.iLT・'・机=;-Lit.汁し,シミュレ-シ‡Jンを7Jうことにより従火のⅠ,Ill,と
汁LE-lil.二にノJを比申,kする.
20
三重大学大学院
工学研究科
表4.ll: FPGAにおけるリソース利用率
プロセッサ FPGA利用率ALtJT数レジスタ数
Base
28%10451(22%)7942(16%)
PSU
33%12977(27%)7967(16%)
VSP
33%13252(27%)7692(16%)
E=
●ーl■
EF
nd○■d
2"0
I
D
N
ド
一叫
LU丁
Dq
D
l
3謡`
D
3-hptA
LLFr
D
Df
A-lrpJt
L∪T
D
3■ーPLA
uノー
I
3諾一
D
D
ド
/
l
-1
■dP
rq_dⅦ
chrd_Adh
q
h_OLA
_ENLJt
carTy_d
図4.13:
Stratix
IIのLE
VSPのFPGAへの適用手法の提案
4.4
図4.13にStratix IIのLEを示す. Altera社のStratix II,同社のCyclone
LE
III及びその他のファミリにおけるLEはCMOS数などは異なるが,
の構成要素は基本的にLUT,
D-FF,その他ロジックである.図4.14に
Stratix
提案手法を示す.
II及び, cyclone
IIIにはD-FFが組み込まれて
いるが, LDS-Cellはそれ自体が動作の一つとしてD-FFとなることが可
能であるため, LE上のD-FFをLDS-Cellに置き換えることで提案手法
として実装する.これはその他のベンダにおけるL引こおいても同様であ
る.図4.15にCycloneIIIのLEと,
LEに提案手法を適用した場合の様子
を示す.
21
三重大学大学院
工学研究科
血td-■hhーq_Chap_h-一B
血●d
En
●■■
I
D
2"0
.:,...i.,:I.
董憂撃麺妻
■
EEっ
LUT
D
1
重責憂
I
3L粁
D
■■■■-]'lJJ
3叫
LUT
D
LDS;
一」rpt
L∪T
D
垂
■■一'■■丁
3H
l
3Jr[pd
LUT
D
D
l
■■
q
adll
chrd&dh
rq_chLh
ot^
oL*
carry_out
図4.14: Stratix_ⅠⅠにおける提案手法
○
td141T)
Dn
記
岩-I.p
既存LE
図4.15:
Cyclone
提案手法LE
IIIのLEとCyclone_ⅠⅠⅠにおける提案手法
4.4.1提案手法の実装
Altera社stratix IIのLEとほぼ同等の機能を持つLEをRobmO.18nmCMOS
プロセステクノロジを用いて詳細設計し,従来のD-FFを用いた場合と
22
三重大学大学院
工学研究科
表4.12: LE単体における消費電力評価
Version
CMOS数消費電力(〝Ⅳ)
StratiX_ⅠⅠJ}roposa1ーLE
42527.86648e-02
CycloneJⅠⅠ_Proposal_LE
9842.387952e-01
StratiX_ⅠⅠ_Normal_LE
42287.86648e-02
Cyclone_ⅠⅠⅠ_Norma.1_LE
9722.387952e-01
Stratix IIよりも
LDS-Cellを適用した場合の消費電力評価を行う.また,
プロセスが小さい同社のFPGAであるCyclone
IIIのLEに対しても同様
に検討する.評価はSynopsis
2006.6を用い, Stratix IIのALM,
Cyclone
IIIのLE提案手法のLEに対してそれぞれ数百サイクルのシミュ
レーションを行った.
4.4.2
N弧OSim
提案手法の評価
表4.12にCyclone
IIIおよび提案手法のLEの消費電力に関する実験結
果を示す.提案手法および従来のLEの消費電力に差は現れなかった.こ
れはLDS-CellがD-FFに比べ,わずかなトランジスタの増加のみで実装
できることを示している.また,
180nmプロセスではリーク電流はそれ
ほど問題にはならないが90nmプロセス以降はリークを考慮する必要があ
る.しかし,トランジスタの増加はLE全体の1%以下程度であり,リーク
による消費電力の増加は極めて微少なものであると考えられる.このこと
FPGA
から極めて少ないペナルティでFPGA上にLDS-Cellを実装でき,
上おけるVSPの適用は有効であるといえる.
23
三重大学大学院
工学研究科
5
まとめ
FPGAにおけるVSPの有効性を示すため,グリッチの発生量をFPGA
上にマッピングする回路規模を調整しながら評価し,
Baseプロセッサ,
psロブロセッサ,
vSPプロセッサ(vspは低消費電力モードのみ)を
FPGA上にそれぞれ実装し,実機評価による消費電力の見積もりを試み
た.また,
VSPをFPGA上に適用可能にするためFPGAのLEにLDSCellを組み込む手法を提案,詳細設計をしてN弧OSimで消費電力評価を
行った.その結果, vSPをFPGAに適用した際も動的消費電力削減の効
果はあったといえる.
ASICにおいては低減できるグリッチの発生量は,
LDS-Ce11を駆動し
続けるために生じる消費電力の兼ね合いとなり,回路規模に左右吉れる
ため,その損益分岐点をとるためには,より詳細な調査が必要となる.
対して, FPGA等の再構成デバイスにおいては,クロックゲーテイン
グは基本的に行われないためグリッチ緩和を行わないパイプライン統令
とグリッチ緩和を行うパイプライン統合では,消費電力の差はそのまま
グリッチ発生量の差となる.よってあらかじめ論理回路の規模が決まっ
ていて,クロックゲーテイング機構を持たない再構成デバイスでは損益
分岐点を考慮する必要がなく,容易にVSPによる有効性を期待できると
いえる.
24
三重大学大学院
工学研究科
謝辞
本研究を行うにあたり,ご指導,ど助言いただきました下さいました
佐々木敬泰助教,並びに多くの助言をいただきました近藤利夫教授,大
野和彦講師に深く感謝いたします.また,様々な局面にてお世話になり
ました計算機アーキテクチャ研究室の皆様にも心より感謝いたします.
25
三重大学大学院
工学研究科
参考文献
[1]J・
ing
Pouwelse,
on
a
K・
Langendoen,
low-power
Comp11ting
and
and
H・
Sips
microprocessor,
(Mobicom)
Networking
:
7tb ACM
,
Dynamic
tnt.
voltage scalon
Mobile
Conf・
(J111y2001).
pp.25ト259,
【2]市川裕二佐々木敬泰,弘中哲夫‥可変パイプラインを用いた低
消費エネルギープロセッサの設計と評価,情報処理学会研究報告,
(2005年8月).
pp.37-42,
【3]市川裕二佐々木敬泰,弘中哲夫,谷川一哉,北村俊明,近藤利
夫:可変パイプラインを用いた低消費エネルギープロセッサの設計と
評価,情報処理学会論文誌(コンピューティングシステム) Vbl.47,
(2006年5月).
pp.231-242,
,
[4]Yuji
Ichikawa,
Toshiaki
gawa,
Low
type
Proc.
562
Kitamura,
Energy
Processor
of International
Computersand
Sasaki,
Takahiro
TetsllO
and
Toshio
by
Variable
Technical
Kondo:
A
Stages
Conference
Design
Pipeline
on
(ITC-CSCC2005)
Communications
Kazllya
Hironaka,
Tani-
of ProtoTechnique,
Circuits/Systems
,
Vol.2,
pp.561-
(2005年7月).
【5】末吉敏則,天野英晴, "リコンフィギャラブルシステム'',オーム社,
(2005年).
"ダイナミックリコンフィギャラブルプロセッサの研究開
【6】天野英晴,
発動向",電子通信学会技術研究報告ICD2003-130,
52,
Ⅵ)1.103,
pp.47-
(2003年).
[7]木村真人,若林-敬,粟島亨,戸井崇雄, "DRPのデバイス・アーキ
テクチャ",
年8月).
Design
Wave
MAGAZINE,
CQ出版社,
[8]川崎貴之,谷川一哉,弘中哲夫,児島彰,
pp.49-57,
(2004
"再構成情報圧縮機構を
備えた粗粒度再構成型アーキテクチャ",電子情報通信学会第1回リ
(2003年).
コンフィギャラブルシステム研究会論文集,
pp.95-102,
【9]谷川一哉,弘中哲夫,吉田典可, "PARSプログラミングモデルと
PARSアーキテクチャの提案'',情報処理学会研究報告2000-ARC140,
pp.37-42,
(2000年).
26
三重大学大学院
工学研究科
[10]K.
Tanigawa,
Architecture
T・
A Reconfigllrable
:
ec11tion Model
Design
-
IEICE
sor",
A.
Hironaka,
N.
Kojimaand
Architecutllre
lmplementation
and
でRANS.INF.
良 SYSTり
Yoshida,
"PARS
Generali2;ed
Ex-
With
Its
Prototype
of
Proces-
No.5,
pp.830-
VOl.E86-D,
(2003).
840,
Computer
Project,
[11]Carnegie Mellon's Reconfigurable
(2005).
"http://www.ece.emu.edll/research/piperench/"
,
[12]H. Singh,
M.
"MorphoSys
Parallel
H.
An
:
[13]PACT
G.
Lu,
F.
Integrated
XPP
Vol.49,
Kurdahi.
System
Applications"
for
Data-
IEEETransaction
,
(May
pp.465-481,
Bagherzadeh,
andN.
Reconfigurable
Comptltation-Intensive
Computers,
on
Lee,
2005).
Corporation,
Technologies
"bttp://www.pactcorp.com/" (2005).
,
【14]佐藤友美,"10nsで演算器間の構成を書き換えるダイナミック・リ
実チップ寸法の4倍相当の機能杏
コンフィギャラブル技術を開発
実現する'',日系エレクトロニクス2003年1月6日号,
pp.11ト122,
(2003年1月).
【15]アイピーフレックス株式会社,
"bttp://www.ip且ex.com/",(2005年).
K110n.
【16]
Ⅰ弧d Rose.
Proceedings
siumon
Field
∫:Mea別1ring
of the
2006
Programmable
the Gap
between
FPGAs
ASICs,
and
14th International
SyHlpOACM/SIGDA
Gate Array?I pp・21130・
(July 2006)
・
【17】森本薫夫,永田真,瀧和男"高速モードと低消費電力モードを有す
る2線式論理回路の設計手法",情報処理学会研究報告,
(2006年11月).
pp.53-58,
[18]嶋田創,安藤秀樹,島田俊夫:パイプラインステージ統合とダイナ
ミック・ボルテージ・スケーリングを併用したハイブリッド消費電
力削減機構, 2004年先進的計算基盤システムシンポジウムSACSIS
2004,
(2004年5月).
pp.1ト18,
Kopp弧alil,
【19】
and
Rotenberg,
J.,
Ramrakhyani,
E.
:
A
Case
P.,
Desai,
for Dynamic
27
三重大学大学院
工学研究科
S.,
Vaidyanathan,
Pipeline
Scaling,
A.
Proc.
of tnt.
Conf.
bedded
Systems
[20]Efthymiou,
Control
Comp11ter
on
Compilers,
2002,
A・
and
J・
D.
:
Adaptive
Power-Management,
2002,
pp.454-457,
Proc.
(2002).
28
三重大学大学院
Synthesis
for Em-
(2002).
Garside,
and
for Processor
Design
pp。1-8,
Architecture,
工学研究科
Pipeline
of tnt.
Depth
Conf.
on
付録
A
改良型LDS-Cellレイアウト手法の提案
A.1
LDS-CellはD-FFをベースに設計されている.というのはLDS-Cellが
スタンダードセルを用いた設計を前提としており,パイプラインレジス
タがD-FFを用いて設計されているプロセッサを想定しているためであ
る.図1.16にD-FFの構成を示し,図1.17に従来のLDS-Cellの構成を
示す.従来のLDS-Cellは通常のマスタースレーブ方式のD-FFに含まれ
ている2つのキーパー(MasterとSlave)にMUXを1つ追加したセル
+ MUXと同じスタンダードセルをベースに
である. LDS-CellはD-FF
しているため,
D-FF+MUXと同じ大きさで同じ駆動能力となる.対し
て,提案手法のLDS-Cellはマスタースレーブ型のD-FFのクロックを分
割,操作することで従来のものからMUXを省いたものである.提案手
法LDS-Cellのブロック図を図1.18に示す.
HSモー
この手法でどのように動作するかを図1.19を用いて説明する.
ド時はClock2をClocklの逆位相に,
LEモード時は固定とすることでス
レーブ・ラッチはマスター・ラッチからの出力を素通りさせるようになる
(図??参照)
.よってLDS-cellはマスター・ラッチの値を出力し続ける
ことになる.このようにして,
LEモード時にClock2を固定することで
MUXを削減しつつ従来のLDS-Cellと同じ様にD-FFとD-ラッチの働き
を切り替えることが可能となる.
ou申ut丘om
previous
1nput
stage
tO
nexLt Stage
図1.16:マスタースレーブ型D_FF
29
三重大学大学院
工学研究科
1叩ut tO
next
Stage
図1.17:従来LDS-Cellの構成図
output
&om
stage
previous
図1.18:提案手法LDS-Cellの構成図
A.2
低消費電力を目指したLDS-Ce11レイアウト手法の提
案
今回の手法はクロック信号線が2本になり制御が難しくなる.この問
題についてはコントローラを追加することにより解決する.コントロー
ラの追加により増加してしまうトランジス久
消費電力についても評価,
考察を行う.今回追加するコントローラのトランジスタ構成を図1.20に
示す.コントローラの構成は,必要とする機能を満たしつつ,駆動の負
荷を極力減らす実装とする.トランジスタはPMOSとNMOSから構成
され,基本的にPMOSの方が駆動の負荷が大きい.よってコントローラ
30
三重大学大学院
工学研究科
図1.19:提案手法LDS-Cellの動作
C ONTROLLER
VDD
,ⅠNVERTtiR.
冒
r1
L1
CK_P1
CKNl
HÅN.D.I
POWER
CKP2
SAVEP
r1
CKN2
Zヽ+7t:Zr++++1
ZVt+1Z<
ER」
c」
VSS
≡=≡≡≡;
図1.20:コントローラのトランジスタ構成
はPMOSを並列に並べるNANDと,その他インバータで実装を行った.
このような設計で2相クロックはセル利用者側からは単相クロックに見
せかけることができるようになり,提案手法LDS-Ce11の持つ複雑さを隠
31
三重大学大学院
工学研究科
HASTE
R
SLAVE
、、、、、..、、、、、、..、.
CONT
ROL
LE良
図1.21:提案手法LDS-Cellのトランジスタ構成
蔽することが可能である.また,マスタースレーブ型D-FFのクロックス
キューは非常にシビアであるためコントローラによるクロック生成によ
り,クロックスキューの問題も解決できる.提案手法LDS-Cellの回路図
を図1.21に示す.
このコントローラを,先に説明を行った提案手法LDS-Cellに搭載し,
実際にレイアウト設計を行った上でネットリストを拙出し,消費電ノJ及
び,遅延に関する評価を行う.
32
三重大学大学院
工学研究科
表1.13: LE単体の消費電力評価
トランジスタ数動作速度消費電力(pJ)
提案手法LDS-CellHS
340.5860.03787
LE
0.02842
従来手法LDS-CellHS
400.6100.03637
LE
0.03508
D-FF
A.3
280.4810.03052
評価
実際に提案手法のLDS-Cellを詳細設計し,提案手法を用いたLDS-Cell
を従来手法のLDS-Cell,スタンダードセルであるD-FFと比較評価した.
与えるクロックの周波数,テストパターンは同じものを用いる.結果を
表1.13に示す.
表1.13は同じ駆動力の提案手法LDS-Cell,従来手法LDS-Cell,
D-FFの
遅延及び消費電力量を評価した結果であり,評価対象のセルにtlitaclliO.
18,LLmCMOS
テクノロジのスタンダードセルであるⅢIT18INVPOIO
IO個分を負荷と
して与え,クロック信号がHiの時の入力信号の立ち上がり,立ち下がり,
クロック信号がLowの時の入力信号の立ち上がり,立ち下がり,の遅延
と消費電力の平均を計測したものである.
表1.13より低消費電力モード時における提案手法LDS-Cellは従来の
低消費電力モード時のLDS-Cellに比べ消費電力を約20%低減できた.動
作速度に関しても約5%程度改善でき,これはトランジスタ数の減少が雪
国であると考えられる.
・-一方で高速モード時には消費電力は従来に比べ
約5%程度増加してしまい,これはD-FFと比べても明らかに悪い.トラ
ンジスタ数のみで考慮されれば消費電力は下がるほずであるが,これほ
追加したコントローラ部分での電力消費が予想外に大きいことが原因で
あると考えられる.
33
三重大学大学院
工学研究科
Stage 1
I
(Low Energy node)
I-I
Stage 2
(Low Energy Jndc)
・・
-
・∴
・・・一・-;i・・
LDS<
ell
図1.22: LDS-Ce11を搭載した配列乗算器
また,提案手法LDS-Cellの効果を評価するためにパイプライン化され
た配列乗算器(図1.22参照)をⅥrilog
HDl.を用いて詳柵設計を行い,
HitachiO.1811mCMOSテクノロジを用いて論理合成したネットリストに対
し手でLDS-Cellを挿入した.この配列乗算器で数万サイクル分演算を行
わせ,消費エネルギーを測定した結果を図1.23,図l.24に示す.図1.23,
図1.24は乗算器全体の消費電力と,乗算器中のI)-FFt
Lr)S-Cellが消費
する電力の内訳を示している.従来手法のfJDS-C(州を組み込んだ乗算器
全体が消費する電力をlとして,従来手法に対する,提案手法が消費する
電力を比として示している.図1.23より,
tISモードでほ組み合わせ回路
部分, D-FF自体では当然電力には差が出ないが,提案手法のLDS-Cell
の消費電力が従来手法よりも増加してしまった.先に述べたとおりコン
トローラ部分での電力消費によるものと思われる.一方図1.24よりLE
モードではLDS-Cellの部分で消費電力が削減されている.これは提案手
法がLEモード時にスレーブ・ラッチを停1卜し,その部分で電力を消費し
ないということが理由であると推測できる.トランジスタ数の削減とい
う点ではHSモード時にも従来手法より消If7iエネルギーが削減されるべき
だが今回はこのような結果となった.この原剛こついては,現在調査中
であり,原因を解析したとで,今後のコントローラ回路の改良を行う予
定である.
また,今回評価は行わないが,図1.25のように多ビット版LDS-Cellの
提案をする.この設計によりコントローラをまとめることで更にトラン
ジスタを削減し,小面積化も図ることができる.
一般にLSI内のD-FFは膨大であり,クロック線の負荷が非常に大き
くなるため,通常の設計ではクロック線に対して,適宜バッファを挿入
しながら樹状に配線を行うクロックツリーを用いる.そこで,提案手法
34
三重大学大学院
工学研究科
.⊆
eel
⊂
1.2
.⊆
「■1
∈
コ
の
亡
1.0
く】
U
¢
i
○
⊂L
従来手法
阿l.2こi: 1TSモード消費エネルギー比
.⊇
rt)
⊂
(⊃
iI?I
a
∈
コ
U)
⊂
1.0
O
O
4)
0.8
i
0
1
従来手法
図1.24:
捷案手法
LEモード消費エネルギー比
35
I_重大芋大学院
T.学研光村
LDS-cell
LDS-cell
controller
LDS-cell
LDS-cell
岡1.25:多ビット版I」Ⅰ)S-(「(?11の提案
LDS-Cellのコントローラをクロックバッファの
一部とみなし,図1.26の
ようにクロックツリー内に混ぜて配置・配線することで,
I.DS-Cellで発
生する遅延を隠蔽支し,かつLt)S-Cell利用IP;-からほ1ri子屑タロ、ソクのセルと
して見せることも想定している.
36
三重大学大学院
工学研究科
Gated-clock
domain
Clock
Source
General
domain
LDS-cell
dolll aim
図1.26:提案手法LDS-Cellで生じる遅延の隠蔽
37
三重大学大学院
工学研究科
clock
Fly UP