Comments
Description
Transcript
Title マルチメディアプロセッサの高性能化アーキテクチャに関する研究
Title マルチメディアプロセッサの高性能化アーキテクチャに関する研究 Author(s) 峯岸, 孝行 Citation 博士学位論文要旨 論文内容の要旨および論文審査結果の要旨/金 沢大学大学院自然科学研究科, 平成19年3月: 523-530 Issue Date 2007-03 Type Others Text version publisher URL http://hdl.handle.net/2297/14665 Right *KURAに登録されているコンテンツの著作権は,執筆者,出版社(学協会)などが有します。 *KURAに登録されているコンテンツの利用については,著作権法に規定されている私的使用や引用などの範囲内で行ってください。 *著作権法に規定されている私的使用や引用などの範囲を超える利用を行う場合には,著作権者の許諾を得てください。ただし,著作権者 から著作権等管理事業者(学術著作権協会,日本著作出版権管理システムなど)に権利委託されているコンテンツの利用手続については ,各著作権等管理事業者に確認してください。 http://dspace.lib.kanazawa-u.ac.jp/dspace/ 氏名 学位の種類 学位記番号 学位授与の日付 学位授与の要件 学位授与の題目 論文審査委員(主査) 論文審査委員(副査) 峯岸孝行 博士(工学) 博甲第837号 平成18年3月22日 課程博士(学位規則第4条第1項) マルチメディアプロセッサの高性能化アーキテクチャに関する研究 松田吉雄(自然科学研究科・教授) 橋本秀雄(自然科学研究科・教授),村本健一郎(自然科学研究科・教授) 北川章夫(自然科学研究科・助教授),吉本雅彦(神戸大学・教授) Abstraction TheprogressofVLSIprocesstechnologyacceleratessingleclliPprocessorespecianyfbr multimediaapplicationandvellicleapplicationwllichdemandhigllperfbrmanceand lowpowerconsumption・Tbrealizetheseapplicationprocessorslnpracticaluse, real-tmeoperation,Iowpowerconsumption,nexibmtyfbrmultiplestandards,lowCost, fine-gradedpicture,andhighpicturequalityissuesareaddressed・Thisresearchis studiedaboutI1igllperfbrmanceprocessorarchitecturefbrmultimediaapplications・ Firstofan,theissuesfbrmultimediaprocessorareaddressed,andtosolvetheissues, fDnowingresearchesarestudied、1)Aheterogeneousmultiple-processorarchitecturefbr multimediacommunicationwhichreamzeslowpowerconsumption,1ow-cost,and correspondsmultiplestandards、2)Adebugsystemwhichfblcilitatescomplexdebugsof heterogeneOusmultipleprocessorarchitectUre、ThedebUgsystelnimprovesdebug eBEiciencyandreducesdevelopmentcost8)AdynamicreconfigurableVLC/Dprocessor wllichrealizeshighperfbrmanceandcorrespondsmultiplestandards、4)Areal-time scalableopticalmowprocessorfbrvideosegmentationwhichreamzesfine-grade, high-accuracy6 マルチメディア通信処理、動画像処理などに代表されるマルチメディア処理の高性能化 技術について、実時間処理が可能なことを前提に、低消費電力化技術、低コスト化技術、 様々な標準規格に対応する柔軟性技術、高精度・高画質化技術について、プロセッサアー キテクチャの観点から研究を行い、実用化に向けた検討を行い、いくつかの個別研究テー マについては実際にチップとして具現化し、性能評価までを行った。以下に具体的に行っ た研究内容の要旨について記す。 [']マルチメディア通信処理について、低消費電力化、低コスト化が可能なアーキテクチャ 技術について検討を行い、実際にチップとして具現化して評価を行った。図,にマルチ メディア通信プロセッサのブロック図を示す。 (1)ビデオ符復号処理、音声符復号処理、多重分離処理など、様々な処理が必要なマル チメディア通信処理において、ヘテロジニアスマルチプロセッサアーキテクチャに -523- よる低消費電力化技術の研究を行った。RISC、DSP、独自ビデオプロセッサの3 つのプロセッサから成るアーキテクチャとし、画像系の処理をビデオプロセッサに、 音声コーデックと多重分離処理をDSPに、ユーザーインターフェースと全体制御 をRISCに割り付けた。注意深く処理内容を検討し、適切なプロセッサに割り付け ることで動作クロック周波数を低減して低消費電力を実現、CIF30fiMsの実時間動 画通信処理をY最大動作周波数80MHz、消費電力1.2Wで実現した。 (2)マルチメディア通信処理の中で最も大きなデータを取り扱うビデオ処理ユニットで 外部メモリを1個で実現する低コストアーキテクチャについて研究を行った。独自 に考案したピデオバスを提案し、ビデオ処理ユニットで必要なデータを効率的に行 うことを実現、様々なデータアクセスを1本のパスに統合することで外付けメモリ 1個という低コストアーキテクチャを実現した。 (3)ピデオバスでは、フレームイメージのデータを1画素単位にシフトしてアクセスす ることのできるバイトコントロール信号、1回のトランザクションで転送するデー タ数を指定することができる転送モード信号、の2つのサイドバンド信号を実装し ている。このサイドバンド信号により、画像符号化処理特有の2次元データ転送が 効率的となり、パス負荷100%から56%にまで低減させた。 (4)ピデオバスのアーピトレーションロジックはプログラマブルに変更できるアーキテ クチャとした。複数の標準規格への準拠を考えた場合、様々な解像度の画像に対応 したアーピトレーションが必要になる。データフローにそった初期アーピトレーシ ヨンではQCIF30h/sでアクセス制限時間は許容範囲に収まっているものの、CIF 30hF/sではタイミング違反となる。プログラマブルなアーピトレーションロジック により優先順位を変更してタイミング制約を満足させることを可能とした。 ピデオユニット 上空且二三ZU メ モ リIF フオ フォーマット ビデオ入力 変換 プレフ イルタ プレフィルタ P、P デバッグI/F デバ HOSTCPU RISC RI 外部バス パラレル バラ I/F プロセッサ (PP) DSP PHHBusブリッジ マット フォーマット フォー 逆| 逆変換 ポストフィルタ ポスト ルタ ECC+ ECC+ ビデオ出力 LSD ゲラ グラフィック イック エンジン (OSD) Busブリッジ ロ●- 2P◎代 RAM 音声I/F Iヨ農 二'二二F] 図1マルチメディア通信プロセッサブロック図 -524- KeyModuねI DSPユニット 回線 [21構成が複雑であるヘテロジニアスマルチプロセッサアーキテクチャのデバッグシステ ムについて検討を行い、効率的なデバッグシステムによる開発期間短縮を実現した。図 2にデバッグシステム適用による効果を示す。 (1)へテロジニアスマルチプロセッサアーキテクチャでは、低消費電力を実現できるが、 構成が複雑になり、プロセッサ間インターフェースなどで発生する問題の原因特定 が困難である。RISCから行われるビデオ処理部の制御を、RISCと全く同等に行う ことができるデバッグシステムについて研究し、実際にシステムを開発、デバッグ 期間を短縮することで、開発コストの低減を実現した。 (2)デバッグシステムはIEEE1149.1で定められているJTAGインターフェースの則っ て機能する。RISCと全く同等の制御を、WiPite,Read,エラーステータスリードな ど、ビデオ処理部のデバッグをJTAGコマンド・を用意することで実現した。 (3)このデバッグシステムを用いることで、チップ入手後、RISCブロックのデバッグ とビデオ処理部のデバッグを平行して行うことを可能とし、トータルのデバッグ期 間を57%で実現、開発コストを低減した。 (4)以上の技術を具体的にチップに実装した。チップサイズは4層メタルCMOSテク ノロジーでl05xlO5mm、最大動作周波数はビデオ処理ユニットにおいて80MHz、 消費電力は1.2Wである。 I■■ⅢⅢI■  ̄ 非適用 シマ ・・ 。。 二笏 ダメ’ + DB グソソ ロロ 鯵篭= ‐ 毛 適用 戸 ~ n日 ~ I■ ●DC●●●□●●● 了恥弔弔弘か能銀訳屯 ●●●●。●●●●● Dpp●●●●■●●■ ●。●●●●●●●● c■●●。●●●G● |●●●●●●●●● ■●●●●●●●●●■  ̄  ̄  ̄  ̄.  ̄ 。  ̄ ■ = ■  ̄ ■  ̄ ロ づ ▲ ■■■■■■ 0 5 1015 20weeks 図RISC基本囲RISC/video1F 目RISCペリフェラル□RISC+video 圏video基本園video独立 図2デバッグシステム適用効果 [3]複数の動画像符号化標準規格に柔軟に対応するため、高解像度実時間処理を前提として、 複数の標準規格への対応とを両立する技術について検討を行い、標準規格毎に全く異な る可変長符号処理を動的再構成技術によるプロセッサアーキテクチャにより実現した。 図3に本プロセッサの主要構成要素である、動的再構成技術を適用したVLCテーブル のブロック図を示す。 (1)可変長符復号処理を実現するために、符号化処理と復号処理で可能な限り共有化し た。独自アーキテクチャによりストリームインターフェース部分以外については回 -525- 路を共有化することで最小限のハードウェアで実現することを可能としている。 (2)構成要素の中で可変長符号コード(VLC)テーブルは、標準規格毎に全く異なる。本 研究では、ⅥCテーブルを動的再構成技術により構成することで複数の標準規格に 柔軟に対応するVLCテーブルを実現した。 (3)ⅥCテー〒ブルはセルエレメントを4x5のアレイ状に配置して構成される。入力デー タを4bitという適切なピット長に分割してセルに入力することで、セルを無駄なく 利用している。 (4)入力データは、セルの機能を定義する構成情報と符復号のための入力データを共有 かし、かつ、全てのセルにグローバルに入力する構成となっている。また、セル間 の接続は1本の信号線で実現している。一般的には配線混雑が発生する動的再構成 ハードウェアでありながら、配線混雑を低減するアーキテクチャを実現した。 (5)動的再構成ハードウェアにVLCテーブルをマッピングした。VLCテーブルを4ビ ット単位の探索木として考えマッピングを行うことで一致確率の高いコードを処理 開始時に選択される構成情報としてマッピングし、高速動作を実現している。 (6)以上の技術を実際に回路として実装し、実ストリームを用いたシミュレーションに より評価を行った。その結果,MPEG-2のHDTV30fiP/sを106.1MHzで,H264 のNTSC30企/sを2034MHzでデコード処理可能可能であることを確認した。ま た、実際に開発したプロセッサコアを6層-メタル,0.18-〃mCMOS技術を用い てレイアウトを行ったところ、チップ面積は1.1×1.1mm2となった。MPEG-2 HDTV30fr/sデコード時の消費電力は82.5,W(電源電圧1.8V)である。 -526- 動作モード ビットストI ノームデータ 係数データ コンフィグレー シヨンデータ gICE3 -C●● CE1 CE4 iLlli:iir j刊. Aj B G ●●’  ̄ ….Ⅶ 00000 RIl 蝋茂「 RI ●●●●●●●●●●●●●●●●●●■●●●●●●●● ● ● 眞 CE7 R1( ●C-c●●●, CE 。…19.3 ■ ̄●●● ̄ CE ! 3 4 一●●●● ・・・●可 CE R, ・●・・○$ iR う  ̄ ●●●●・●・● ひび●●■□のC Q R8 O R7 R6 論理和回路 (レジ 動的再構成 タ選択信号:全セルへ入力)-- ルート信号 (動的再構成時:R()~R11へ入力) テーブル 制御部 符号化or復号結果 (パック部or係数メモリへ谷き込み〕 図3VLCテーブル部ブロック図 M将来的な動領域抽出技術で必要とされる、細粒度(density100%)、高精度OIHAE10以下) なオプテイカルフロープロセッサアーキテクチャについて検討を行い、アルゴリズムの VLSI化チューニングに基づいて、共通化演算器とオンチップDRAMセルにより、 densitylOO%、MAE=7.44のオプテイカルフロー導出を、CIF30fiMsの実時間で処理す ることを実現した。図4に本プロセッサのアーキテクチャを示す。 (1)階層オプテイカルフロー予測アルゴリズムαIOE)を元にしてハードウェアコストと メモリアクセスを低減するためのアルゴリズムチューニングを行った。アルゴリズ ムで使用されている演算ピット長を、アルゴリズムシミュレーションの解析を行い、 32ビット浮動小数点から、24ビット、または、16ビットの固定小数点に最適化し -527- た。精度を落とすことなく、演算のためのハードウェアコストとメモリのバスバン ド幅の低減を実現した。 (2)チューニングされたアルゴリズムを実装するためには膨大なメモリアクセスを実現 しなければならない。基礎的なオプテイカルフロー導出処理フローを基に、オンチ ップメモリサイズと外部メモリアクセスのバスバンド幅について解析を行った。外 部メモリとオンチップメモリのデータ分割について6つのケースを想定し、最終的 に最も適している、輝度勾配メモリとオプテイカルフローメモリをチップ状に搭載 するアーキテクチャを決定した。実時間オプテイカルフロー処理をリーズナブルな 回路規模、バスバンド幅で実現可能である。 (3)オプテイカルフロー導出処理は、フロー演算のイタレーシヨン処理が支配的な時間 を占めている。そこで、処理サイクル数とハードウェアコストのトレードオフを検 討し、全ての演算を実現する共通演算器を考案した。オプテイカルフロー導出処理 を小規模jtR回路で実現することができる。 (4)高いスループットを実現するために、プロセッサアーキテクチャとしてSIMDを採 用した。4.SIMD構成とすることで、最も演算負荷、の大きいフロー算出のイタレー ション処理の4画素同時実行を実現し、実時間処理を可能とした。 (5)提案したアーキテクチャは、より高い精度、より高い解像度に対応できる構成とし た。プロセッサコアをカスケード接続することで拡張が可能なスケーラブルアーキ テクチャを実現している。 (6)細粒度、高精度なオプテイカルフロー導出には、2MByteのメモリをオンチップに 搭載する必要がある。フロー算出処理のメモリアクセスは一定のインターバルをお いた繰り返し処理であるため、DRAMで実現可能である。そこで、チップ面積を最 小に抑えるオンチップDRAMを提案した。通常のSRAMと比較して58%の面積で 実現している。 (7)以上の技術を用いたプロセッサアーキテクチャの性能評価と実装見積もりを行った。 CIF30fiP/sの実時間処理を、densitylOO%の細粒度、MAE=7.44の高性能で実現し、 90nmCMOSテクノロジーでのチップ面積は6.O2x583mm2、動作周波数は 189MHz、消費電力は500,Wと予想される。 -528- 「. オプティカ 階層画像 輝度勾配 ルフロー 、ノ _■  ̄ / ̄ ̄~ ̄ / ̄ ̄ 一一ノ 入力 原画像 一一一一一ノ ■■■■■■■■■■■■■■■■■■■■■■ 笏■■■■■■■■=■■■■■■■■■■■■■■■■■ ■■■■■■■■■■■■■■■■■■■■■■■■■ |遠] SDMVlC 外部メモリ 入力バッファ SEL ■■■■■■  ̄ ̄ P 外部メモリ出力バッファ 図4共通演算エレメントを内蔵するVLSIプロセッサアーキテクチャ -529- 学位論文審査結果の要旨 平成18年2月2曰に第1回学位論文審査委員会を開催。2月2曰に口頭発表、その後に第2回審査委員 会を開催し、審議の結果、以下の通り判定した。尚、口頭発表における質疑を最終試験に代えるものとした。 本論文は、マルチメディア処理プロセッサのアーキテクチャに関する一連の研究である。第1に、マル チメディア通信処理プロセッサにおいて、mSC(ReducedlnstructionSetComputer)、DSP(DigitalSignal Processor)、独自ビデオプロセッサからなるヘテロジニアス・マルチプロセッサ技術を採用し、タスク割 付の最適化で動作クロック周波数を低減し、低消費電力化を図りつつ実時間動画像処理を実現した。第2 に、動画像符復号化プロセッサにおいて、複数の標準規格へ対応するために、可変長符復号処理部分を動的 再構成可能なハードウエアで実現することを提案し、その有効性を確認した。第3に、動領域抽出等に応用 が期待されるオプティカルフロープロセッサにおいて、演算器の共通化と4トランジスタDRAM(Dynamic RandomAccessMemory)セルの考案により、プロセッサの1チップ化とオプティカルフローの実時間導出 の可能性を示した。 以上の研究成果は、今後のデジタル情報家電機器や産業機器の高性能化、低消費電力化、小型化、低価格 化に大きく貢献するものであり、実用的価値は非常に高い。従って、博士(工学)に値するものと判定する。 -530-