Title マルチメディアプロセッサの高性能化アーキテクチャに関する研究

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download Title マルチメディアプロセッサの高性能化アーキテクチャに関する研究

Transcript

Title マルチメディアプロセッサの高性能化アーキテクチャに関する研究

Title
マルチメディアプロセッサの高性能化アーキテクチャに関する研究
Author(s)
峯岸, 孝行
Citation
博士学位論文要旨論文内容の要旨および論文審査結果の要旨／金
沢大学大学院自然科学研究科, 平成19年3月: 523-530
Issue Date
2007-03
Type
Others
Text version
publisher
URL
http://hdl.handle.net/2297/14665
Right
*KURAに登録されているコンテンツの著作権は，執筆者，出版社（学協会）などが有します。
*KURAに登録されているコンテンツの利用については，著作権法に規定されている私的使用や引用などの範囲内で行ってください。
*著作権法に規定されている私的使用や引用などの範囲を超える利用を行う場合には，著作権者の許諾を得てください。ただし，著作権者
から著作権等管理事業者（学術著作権協会，日本著作出版権管理システムなど）に権利委託されているコンテンツの利用手続については
，各著作権等管理事業者に確認してください。
http://dspace.lib.kanazawa-u.ac.jp/dspace/
氏名
学位の種類
学位記番号
学位授与の日付
学位授与の要件
学位授与の題目
論文審査委員(主査）
論文審査委員(副査）
峯岸孝行
博士（工学）
博甲第837号
平成１８年３月２２日
課程博士（学位規則第４条第１項）
マルチメディアプロセッサの高性能化アーキテクチャに関する研究
松田吉雄（自然科学研究科・教授）
橋本秀雄（自然科学研究科・教授），村本健一郎（自然科学研究科･教授）
北川章夫（自然科学研究科・助教授），吉本雅彦（神戸大学・教授）
Abstraction
TheprogressofVLSIprocesstechnologyacceleratessingleclliPprocessorespecianyfbr
multimediaapplicationandvellicleapplicationwllichdemandhigllperfbrmanceand
lowpowerconsumption・Tbrealizetheseapplicationprocessorslnpracticaluse，
real-tmeoperation,Iｏｗｐowerconsumption,nexibmtyfbrmultiplestandards,lowCost，
fine-gradedpicture，andhighpicturequalityissuesareaddressed・Thisresearchis
studiedaboutI1igllperfbrmanceprocessorarchitecturefbrmultimediaapplications・
Ｆｉｒｓｔｏｆａｎ,theissuesfbrmultimediaprocessorareaddressed,andtosolvetheissues，
fDnowingresearchesarestudied､１)Aheterogeneousmultiple-processorarchitecturefbr
multimediacommunicationwhichreamzeslowpowerconsumption,１ow-cost，and
correspondsmultiplestandards､２)Adebugsystemwhichfblcilitatescomplexdebugsof
heterogeneOusmultipleprocessorarchitectUre、ThedebUgsystelnimprovesdebug
eBEiciencyandreducesdevelopmentcost8)AdynamicreconfigurableVLC/Dprocessor
wllichrealizeshighperfbrmanceandcorrespondsmultiplestandards､４)Areal-time
scalableopticalmowprocessorfbrvideosegmentationwhichreamzesfine-grade，
high-accuracy6
マルチメディア通信処理、動画像処理などに代表されるマルチメディア処理の高性能化
技術について、実時間処理が可能なことを前提に、低消費電力化技術、低コスト化技術、
様々な標準規格に対応する柔軟性技術、高精度・高画質化技術について、プロセッサアー
キテクチャの観点から研究を行い、実用化に向けた検討を行い、いくつかの個別研究テー
マについては実際にチップとして具現化し、性能評価までを行った。以下に具体的に行っ
た研究内容の要旨について記す。
['］マルチメディア通信処理について、低消費電力化、低コスト化が可能なアーキテクチャ
技術について検討を行い、実際にチップとして具現化して評価を行った。図，にマルチ
メディア通信プロセッサのブロック図を示す。
（１）ビデオ符復号処理、音声符復号処理、多重分離処理など、様々な処理が必要なマル
チメディア通信処理において、ヘテロジニアスマルチプロセッサアーキテクチャに
-523-
よる低消費電力化技術の研究を行った。RISC、DSP、独自ビデオプロセッサの３
つのプロセッサから成るアーキテクチャとし､画像系の処理をビデオプロセッサに、
音声コーデックと多重分離処理をＤＳＰに、ユーザーインターフェースと全体制御
をＲＩＳＣに割り付けた。注意深く処理内容を検討し、適切なプロセッサに割り付け
ることで動作クロック周波数を低減して低消費電力を実現、CIF30fiMsの実時間動
画通信処理をＹ最大動作周波数80ＭHz、消費電力1.2Ｗで実現した。
（２）マルチメディア通信処理の中で最も大きなデータを取り扱うビデオ処理ユニットで
外部メモリを１個で実現する低コストアーキテクチャについて研究を行った。独自
に考案したピデオバスを提案し、ビデオ処理ユニットで必要なデータを効率的に行
うことを実現、様々なデータアクセスを１本のパスに統合することで外付けメモリ
１個という低コストアーキテクチャを実現した。
（３）ピデオバスでは、フレームイメージのデータを１画素単位にシフトしてアクセスす
ることのできるバイトコントロール信号、１回のトランザクションで転送するデー
タ数を指定することができる転送モード信号、の２つのサイドバンド信号を実装し
ている。このサイドバンド信号により、画像符号化処理特有の２次元データ転送が
効率的となり、パス負荷100％から５６％にまで低減させた。
（４）ピデオバスのアーピトレーションロジックはプログラマブルに変更できるアーキテ
クチャとした。複数の標準規格への準拠を考えた場合、様々な解像度の画像に対応
したアーピトレーションが必要になる。データフローにそった初期アーピトレーシ
ヨンではQCIF30h/ｓでアクセス制限時間は許容範囲に収まっているものの、ＣＩＦ
３０hF/ｓではタイミング違反となる。プログラマブルなアーピトレーションロジック
により優先順位を変更してタイミング制約を満足させることを可能とした。
ピデオユニット
上空且二三ＺＵ
メモﾘIＦ
フオ
フォーマット
ビデオ入力
変換
プレフイルタ
プレフィルタ
Ｐ、Ｐ
デバッグI/Ｆ
デバ
ＨＯＳＴＣＰＵ
ＲＩＳＣ
RＩ
外部バス
パラレル
バラ
I/Ｆ
プロセッサ
（PP）
DSP
ＰＨＨＢｕｓブリッジ
マット
フォーマット
フォー
逆｜
逆変換
ポストﾌィルタ
ポスト
ルタ
ＥＣＣ＋
ECC＋
ビデオ出力
ＬＳＤ
ゲラ
ｸﾞﾗﾌｨｯｸ
イック
エンジン
（OSD）
Busブリッジ
ロ●－
２Ｐ◎代
RAM
音声I/Ｆ
Ｉﾖ農
二'二二F］
図１マルチメディア通信プロセッサブロック図
-524-
KeyModuねＩ
DSPユニット
回線
[２１構成が複雑であるヘテロジニアスマルチプロセッサアーキテクチャのデバッグシステ
ムについて検討を行い、効率的なデバッグシステムによる開発期間短縮を実現した。図
２にデバッグシステム適用による効果を示す。
（１）へテロジニアスマルチプロセッサアーキテクチャでは､低消費電力を実現できるが、
構成が複雑になり、プロセッサ間インターフェースなどで発生する問題の原因特定
が困難である。ＲＩＳＣから行われるビデオ処理部の制御を､ＲＩＳＣと全く同等に行う
ことができるデバッグシステムについて研究し、実際にシステムを開発、デバッグ
期間を短縮することで、開発コストの低減を実現した。
（２）デバッグシステムはIEEE1149.1で定められているJTAＧインターフェースの則っ
て機能する。ＲＩＳＣと全く同等の制御を、WiPite,Read,エラーステータスリードな
ど、ビデオ処理部のデバッグをJTAＧコマンド・を用意することで実現した。
（３）このデバッグシステムを用いることで、チップ入手後、ＲＩＳＣブロックのデバッグ
とビデオ処理部のデバッグを平行して行うことを可能とし、トータルのデバッグ期
間を５７％で実現、開発コストを低減した。
（４）以上の技術を具体的にチップに実装した。チップサイズは４層メタルＣＭＯＳテク
ノロジーでｌ０５ｘｌＯ５ｍｍ､最大動作周波数はビデオ処理ユニットにおいて８０ＭＨｚ、
消費電力は1.2Ｗである。
Ｉ■■ⅢⅢI■
￣
非適用
シマ
・・
。。
二笏
ダメ’
＋
ＤＢ
グソソ
ﾛロ
鯵篭＝
‐
毛
適用
戸
～
n日
～
I■
●ＤＣ●●●□●●●
了恥弔弔弘か能銀訳屯
●●●●。●●●●●
Ｄｐｐ●●●●■●●■
●。●●●●●●●●
ｃ■●●。●●●Ｇ●
｜●●●●●●●●●
■●●●●●●●●●■
￣
￣
￣
￣.
￣
。
￣
■
＝
■
￣
■
￣
ロ
づ
▲
■■■■■■
０
５
1０１５
２０weeks
図RISC基本囲RISC/video1Ｆ
目RISCペリフェラル□RISC+video
圏video基本園video独立
図２デバッグシステム適用効果
[3］複数の動画像符号化標準規格に柔軟に対応するため、高解像度実時間処理を前提として、
複数の標準規格への対応とを両立する技術について検討を行い、標準規格毎に全く異な
る可変長符号処理を動的再構成技術によるプロセッサアーキテクチャにより実現した。
図３に本プロセッサの主要構成要素である、動的再構成技術を適用したＶＬＣテーブル
のブロック図を示す。
（１）可変長符復号処理を実現するために、符号化処理と復号処理で可能な限り共有化し
た。独自アーキテクチャによりストリームインターフェース部分以外については回
-525-
路を共有化することで最小限のハードウェアで実現することを可能としている。
（２）構成要素の中で可変長符号コード(VLC)テーブルは、標準規格毎に全く異なる。本
研究では､ⅥＣテーブルを動的再構成技術により構成することで複数の標準規格に
柔軟に対応するＶＬＣテーブルを実現した。
（３）ⅥＣテー〒ブルはセルエレメントを４ｘ５のアレイ状に配置して構成される｡入力デー
タを４bitという適切なピット長に分割してセルに入力することで､セルを無駄なく
利用している。
（４）入力データは、セルの機能を定義する構成情報と符復号のための入力データを共有
かし、かつ、全てのセルにグローバルに入力する構成となっている。また、セル間
の接続は１本の信号線で実現している。一般的には配線混雑が発生する動的再構成
ハードウェアでありながら、配線混雑を低減するアーキテクチャを実現した。
（５）動的再構成ハードウェアにＶＬＣテーブルをマッピングした。ＶＬＣテーブルを４ビ
ット単位の探索木として考えマッピングを行うことで一致確率の高いコードを処理
開始時に選択される構成情報としてマッピングし、高速動作を実現している。
（６）以上の技術を実際に回路として実装し、実ストリームを用いたシミュレーションに
より評価を行った。その結果，ＭＰＥＧ－２のHDTV30fiP/ｓを106.1ＭＨｚで，Ｈ２６４
のＮＴＳＣ３０企/ｓを２０３４ＭＨｚでデコード処理可能可能であることを確認した。ま
た、実際に開発したプロセッサコアを６層-メタル，0.18-〃ｍＣＭＯＳ技術を用い
てレイアウトを行ったところ、チップ面積は１．１×1.1ｍｍ２となった。ＭＰＥＧ-２
HDTV30fr/sデコード時の消費電力は８２．５，Ｗ(電源電圧１．８Ｖ)である。
-526-
動作モード
ビットストＩノームデータ
係数データ
コンフィグレーシヨンデータ
gICE3
－Ｃ●●
ＣＥ１
ＣＥ４
iLlli:iir
ｊ刊．
Ａｊ
Ｂ
Ｇ
●●’
￣
….Ⅶ
０００００
ＲＩｌ
蝋茂「
ＲＩ
●●●●●●●●●●●●●●●●●●■●●●●●●●●
●
●
眞
ＣＥ７
Ｒ1（
●Ｃ－ｃ●●●，
ＣＥ
。…１９．３
■￣●●●￣
ＣＥ
！
３
４
一●●●●
･･･●可
ＣＥ
Ｒ，
･●･･○$
iＲう
￣
●●●●･●･●
ひび●●■□のＣ
Q
Ｒ８
Ｏ
Ｒ７
Ｒ６
論理和回路
(レジ
動的再構成
ﾀ選択信号:全セルへ入力）－－
ルート信号
（動的再構成時:Ｒ()～R11へ入力）
テーブル
制御部
符号化or復号結果
（ﾊﾟｯｸ部ｏｒ係数ﾒﾓﾘへ谷き込み〕
図３ＶＬＣテーブル部ブロック図
Ｍ将来的な動領域抽出技術で必要とされる､細粒度(density100%)､高精度ＯＩＨＡＥ１０以下）
なオプテイカルフロープロセッサアーキテクチャについて検討を行い、アルゴリズムの
ＶＬＳＩ化チューニングに基づいて、共通化演算器とオンチップＤＲＡＭセルにより、
densitylOO％、ＭＡＥ=7.44のオプテイカルフロー導出を、CIF30fiMsの実時間で処理す
ることを実現した。図４に本プロセッサのアーキテクチャを示す。
（１）階層オプテイカルフロー予測アルゴリズムαIOE)を元にしてハードウェアコストと
メモリアクセスを低減するためのアルゴリズムチューニングを行った。アルゴリズ
ムで使用されている演算ピット長を､アルゴリズムシミュレーションの解析を行い、
３２ビット浮動小数点から、２４ビット、または、１６ビットの固定小数点に最適化し
-527-
た。精度を落とすことなく、演算のためのハードウェアコストとメモリのバスバン
ド幅の低減を実現した。
（２）チューニングされたアルゴリズムを実装するためには膨大なメモリアクセスを実現
しなければならない。基礎的なオプテイカルフロー導出処理フローを基に、オンチ
ップメモリサイズと外部メモリアクセスのバスバンド幅について解析を行った。外
部メモリとオンチップメモリのデータ分割について６つのケースを想定し、最終的
に最も適している、輝度勾配メモリとオプテイカルフローメモリをチップ状に搭載
するアーキテクチャを決定した。実時間オプテイカルフロー処理をリーズナブルな
回路規模、バスバンド幅で実現可能である。
（３）オプテイカルフロー導出処理は、フロー演算のイタレーシヨン処理が支配的な時間
を占めている。そこで、処理サイクル数とハードウェアコストのトレードオフを検
討し、全ての演算を実現する共通演算器を考案した。オプテイカルフロー導出処理
を小規模jtR回路で実現することができる。
（４）高いスループットを実現するために、プロセッサアーキテクチャとしてＳＩＭＤを採
用した。４．ＳＩＭＤ構成とすることで、最も演算負荷､の大きいフロー算出のイタレー
ション処理の４画素同時実行を実現し、実時間処理を可能とした。
（５）提案したアーキテクチャは、より高い精度、より高い解像度に対応できる構成とし
た。プロセッサコアをカスケード接続することで拡張が可能なスケーラブルアーキ
テクチャを実現している。
（６）細粒度、高精度なオプテイカルフロー導出には､２ＭByteのメモリをオンチップに
搭載する必要がある。フロー算出処理のメモリアクセスは一定のインターバルをお
いた繰り返し処理であるため、ＤＲＡＭで実現可能である。そこで、チップ面積を最
小に抑えるオンチップＤＲＡＭを提案した｡通常のＳＲＡＭと比較して５８％の面積で
実現している。
（７）以上の技術を用いたプロセッサアーキテクチャの性能評価と実装見積もりを行った。
CIF30fiP/sの実時間処理を､densitylOO％の細粒度､MAE=7.44の高性能で実現し、
９０ｎｍＣＭＯＳテクノロジーでのチップ面積は６.Ｏ２ｘ５８３ｍｍ２、動作周波数は
189ＭＨｚ、消費電力は500,Ｗと予想される。
-528-
「．
オプティカ
階層画像
輝度勾配
ルフロー
、ノ
＿■
￣
／￣￣~￣／￣￣
一一ノ
入力
原画像
一一一一一ノ
■■■■■■■■■■■■■■■■■■■■■■
笏■■■■■■■■＝■■■■■■■■■■■■■■■■■
■■■■■■■■■■■■■■■■■■■■■■■■■
|遠］
SDMVlC
外部メモリ
入力バッファ
ＳＥＬ
■■■■■■
￣￣
Ｐ
外部メモリ出力バッファ
図４共通演算エレメントを内蔵するVLSIプロセッサアーキテクチャ
-529-
学位論文審査結果の要旨
平成１８年２月２曰に第１回学位論文審査委員会を開催｡２月２曰に口頭発表、その後に第２回審査委員
会を開催し、審議の結果､以下の通り判定した。尚､口頭発表における質疑を最終試験に代えるものとした。
本論文は、マルチメディア処理プロセッサのアーキテクチャに関する一連の研究である。第１に、マル
チメディア通信処理プロセッサにおいて、mSC（ReducedlnstructionSetComputer)、ＤＳＰ（DigitalSignal
Processor)、独自ビデオプロセッサからなるヘテロジニアス・マルチプロセッサ技術を採用し､タスク割
付の最適化で動作クロック周波数を低減し、低消費電力化を図りつつ実時間動画像処理を実現した。第２
に、動画像符復号化プロセッサにおいて、複数の標準規格へ対応するために、可変長符復号処理部分を動的
再構成可能なハードウエアで実現することを提案し、その有効性を確認した。第３に、動領域抽出等に応用
が期待されるオプティカルフロープロセッサにおいて、演算器の共通化と４トランジスタＤＲＡＭ（Dynamic
RandomAccessMemory）セルの考案により、プロセッサの１チップ化とオプティカルフローの実時間導出
の可能性を示した。
以上の研究成果は、今後のデジタル情報家電機器や産業機器の高性能化、低消費電力化、小型化、低価格
化に大きく貢献するものであり、実用的価値は非常に高い。従って､博士（工学）に値するものと判定する。
-530-