博士論文審査結果報告書

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 博士論文審査結果報告書

Transcript

博士論文審査結果報告書

博士論文審査結果報告書
論
文
題
目
Research on Quality-Optimized Algorithms for Low
Computational Complexity Techniques in Video
Processing
申
請
者
Wenxin YU
情報生産システム工学専攻
マルチメディアシステム研究
2014 年 4 月
近年、モバイル機器は人々の日常生活で広く使用されるようになり、高精細なビデオコンテンツへの
要求とモバイル機器のアプリケーションの急速な発展に伴い、ビデオ符号化技術は進化してきた。人々
は、デスクトップ PC やテレビでハイビジョン映像を楽しむだけでなく、モバイル機器でも見ることが可
能となってきた。同時に第 3 世代（3G）
、第 4 世代（4G）と高速な通信システムが出現してきて、人々は
どこでも、いつでも、誰とでも、“face to face”で、モバイル機器間で高精細な映像を通して、会話
を行うことが広まってきている。
また、3 次元 TV（3DTV）製品も、徐々に普及が始まっている。現在、製品化されている 3DTV では、近
接した視点の 2 画面を送信し、決められた視点で３D を見ることが行われている。このため視点を変わる
と、３DTV の画像品質が劣化するため、多数の視点に対応可能な自由視点テレビ（ FTV: Free point TV ）
が研究されてきた。多数の視点の画像を送信すると、非常に大きな帯域幅を必要とするため、FTV では、
限られた数の視点の画面を送信し、受信側で自由な視点の画面を生成し、自由視点の高画質な画面を元
の画面から生成するというアプローチが取られる。モバイル機器では、消費電力や機器のサイズが抑え
られているため、高品質な画像をできるだけ少ない演算量で送受信することを要求される。
以上の背景に基づき、本論文では 3 次元画像を含むビデオ符号化技術について、復号器（デコーダ）
と符号器（エンコーダ）の両面から３つの問題を扱っている。1 つ目の問題は、復号器において、画質を
保つもとで、フレームレートを制御し、演算量を削減することである。本論文では監視系の画像に対し
て、H.264/AVC を対象として、大幅な演算量削減が行えている。2 つ目は、2 画面を用いる 3 次元 TV の符
号器において、１フレーム内に複数の画像を格納して送信する際に、画質を保ち、符号化の演算量を削
減するというフレーム互換型式(FCF:
Frame Compatible Format) 問題である。本論文では、従来提案
された手法と比べて、演算時間はわずかな増加で、PSNR（Peak Signal to Noise Ratio）において改善
を図っている。3 つ目は、復号器において、実在する画面の１つのテクスチャ情報（画像の模様）と、１
つの深さ情報（物体の奥行）をもとに、複数個の高画質な仮想画面を生成する問題である。本論文で扱
っている１つのテクスチャ情報と１つの深さ情報をコンポーネントとして使用することで、自由視点の
TV が実現できる。従来提案された方法と比べて、PSNR と SSIM（Structure Similarity）で、画質の評価
を行ったところ、それぞれ、改良されており、高画質化が行えている。
本論文は以下の 5 つの章で構成されている。
第 1 章は[Introduction（序説）]であり、標準符号化方式である H.264/AVC に関して紹介し、画像のフ
レームレート制御、3Ｄ画像の生成手法、フレーム互換型式に関して、現在までに発表された研究を紹介
している。
第 2 章は[Adaptive Low Computational Complexity Algorithms in Video Decoding Process（ビデオ復
号処理においる低演算アルゴリズム）]であり、動画のフレームレートを制御することで、映像品質を保
ち、デコーダ（復号）の演算時間を短縮する方法を提案している。
フレームレートを制御する研究として Mohammed E. Al-Mualla (ISCAS2003) 、 Nicolas Beucher
(SIPS2006) 、Truong Quang Vinh (ICCES2009) があるが、これらの方法はフレームレートを増やして高
画質を達成するものである。また、フレームレートを減らす方法が、Bandoh（ICIP2009）により提案さ
れているが、エンコーダでの削減を対象としている。本論文ではデコーダにおいて画像品質を保ち、フ
レーム数の削減を行う問題であり、従来の問題と異なっており、本論文の問題はまだ研究されていない。
動画像は I,P,B フレームの種類から構成されており、P 及び B フレームをスキップする問題を扱って
いる。まず P フレームをスキップすることにより起こる画像劣化を防ぐためのアルゴリズムを提案して
いる。スキップされていない直前のフレームを参照フレームに対して、動きベクトル合成アルゴリズム
(MVC: Motion Vector Composition )により、現在のフレーム内の 4×4 ブロックの動きベクトル値に基
づいて、△ブロック（ブロック単位としてのオフセット）を算出し、スキップされたフレーム内の 4 つ
の近接ブロックを検索し、4 × 4 のブロックの動きベクトル値と△ブロックによって、スキップフレー
ム内でのブロックを決定する。４つのブロックの中から、オーバーラップが最大の４ｘ４ブロックを選
択し、そのブロックの動きベクトルを基に、現在のフレームの動きベクトルを求める。次に、ブロック
パーティションモード決定アルゴリズム（BPD ）を導入することで、現在の４ｘ４以上のブロックを
4x4 ブロックに細分化し、より正確な動きベクトル計算を行うことで、画像品質の改良を行っている。
次に、画像内の物体の動きの状況に応じて、スキップする P フレームを動的に選択する適応型フレー
ムスキップ法を提案している。現在のフレーム内の動きベクトルの絶対値の総和を計算し、多くの画像
データベースから算出された閾値を基に、スキップするフレームを選択する方法である。動きの少ない
監視カメラによるデータに対して、 25fps(frame per second) の画像で P フレームを 1/2、2/3 スキッ
プする方式（13fps、9fps）では、PSNR の損失は、0.5 ～1.7 dB、0.6～2.1dB であり，H.264 のリファ
レンスソフトウエアである JM15.1 と比較し、演算量は夫々約 40%、60%減少した。適応フレームスキップ
方法では、2/3 スキップにおいて、演算量は約 5％増加するが、PSNR を 0.2〜0.9 dB 改良させている。ま
た 25fps の画像で B フレームを全てスキップする処理を P フレームスキップ（1/2 スキップ）に加えた方
法(5fps)は、PSNR の損失は 0.4～0.9dB で演算量を 78%減少している。以上、動画品質を保ちながら、デ
コーダのフレームレートを制御し、演算量を削減する方法を提案しており、監視カメラのような動きの
少ない状況下では電力エネルギー量の削減に有効であり、高く評価できる。
第 3 章は[Frame Compatible Format Fast Encoder with Stereo Matching（ステレオマッチングに基づ
く高速フレーム互換符号器）]であり、2 画面を用いる 3 次元 TV の符号器において、１フレーム内に２つ
の画像を格納して送信する問題に対して、画質を保ち、符号化の演算量を削減する方法を提案している。
現在までに関連した研究として、 Anthony Vetro(ICIP2010) はビューの分割方法 , Siao-Wei
Chen(ICASSP2013)はダウンサンプリング処理におけるビデオ品質の損失の減少法, Taoran Lu(ICME2013)
はアップサンプリング処理によるビデオ品質の改善方法を提案しているが、本研究は２つの画像の内容
の類似性との関係を利用したものであり、アプローチが異なっている。類似の研究としては Zeng(VCIP
2012)の研究があるが、深さ情報の予測が十分でなく、精度良い対応画像ブロックを得ることができない
ために、画像品質に課題が残っていた。本提案はステレオマッチングを用いることで、より正確な深さ
情報を得ることで、画像品質を高めている。また従来のステレオマッチング法は計算時間がかかる課題
があったが、本研究では高速なステレオマッチングアルゴリズムを考案することで計算時間の短縮を図
っている。ステレオマッチングアルゴリズムとしては、マッチングコストの計算時において、あらゆる
ピクセルの視差を計算する代わりに、予測ルールを設定し、できるだけ正確な視差を反映すると考えら
れる約 1/20～1/10 のピクセルに限ることで、演算量を大幅に削減している。その結果、提案されたアル
ゴリズムは、Zeng(VCIP 2012)の結果と比較して、約１％の計算時間の増加で、PSNR 値を 0.01～0.17ｄB
向上させ、BD-BR 値を 0.04%～3.85%改良しており、学術的にも実用的にも有効な方法であると評価でき
る。
第 4 章は[The Novel Hole-filling
Algorithms for ３D View Synthesis（3 次元画像の高品質生成ア
ルゴリズム）]であり、画像復号器において 3 次元画像生成における高品質な仮想画面の生成アルゴリズ
ムを提案している。
実在する画面の１つのテクスチャ情報（画像の模様）と、１つの深さ情報が与えられたもとで、複数
個の仮想画面を生成する問題である。実在する画像では隠れて見えないデータが、視点が異なる仮想画
面では見えてしまうことが起こり、参照画面がないために、仮想画面上ではデータがなくホール(穴)と
して表示され、画像品質の劣化が起こり、このホールを適切に埋めることが要求される。
現在までに、１画面内の処理（空間予測）に対して、隣接ピクセルの値から推定する Lai-Man Po
(ICIP2011)方法、バックグラウンド画像に注目した Kwan-Jung Oh (PCS2009)の方法、ホールの境界デー
タに着目した Ismael Daribo (MMSP2010)法があるが、これらの研究は、ホールの近傍ピクセルのみを利
用しており、高品質な画質が得られないことが起こる。本論文で提案するアルゴリズムは、近傍のみな
らず広域なピクセルのデータを使い、幾何学的原理を用いて未知領域のテクスチャ及び構造情報を予測
し、勾配情報に基づいて優先順位によって未知領域を穴埋めする新たな予測手法を考案することで画像
品質を高めている。次に、画面間処理（時間予測）として、過去の複数フレームから、絶対的背景と相
対的な背景を区別し、空間予測でデータの更新に利用することで、穴埋めの精度を高めている。カメラ
がほとんど全く動かない画像では、時間予測がより有効に働き、カメラが動く画像では、空間予測がよ
り有効に働くと考えられる。提案した空間予測法は、Lai-Man Po (ICIP2011)と比較して、PSNR は 0.6 dB
改善され、SSIM は 0.0019 改善されており、ISO/IEC で採用されている VSRS(View Synthesis Reference
Software)と比較しても、夫々、平均で PSNR を 0.8dB, 0.960 であった SSIM を 0.0029 改良している。空
間と時間予測を組み合わせた方法は、PSNR は VSRS と比較して、1.26dB 向上させ, SSIM が 0.0048 向上さ
せており、高く評価できる。
第 5 章は[Conclusion（結論）]この論文をまとめたものである。
以上、本論文は、消費電力や機器のサイズが抑えられている環境下で、復号器と符号器の両面から、
高品質な画像を保ちつつ、できるだけ少ない演算で復号、符号化することを要求される問題に対して、
効率良いアルゴリズムを提案しており、今後の復号・符号化に対して、学術的な貢献のみならず、実用
面でも有効な研究成果であると評価できる。
よって本論文は博士（工学）の学位論文として価値あるものと認める。
2014 年 2 月 17 日
審査員
主査早稲田大学教授
早稲田大学教授
早稲田大学教授
工学博士（早稲田大学）
博士（工学）（大阪大学）
工学博士（京都大学）
後藤敏
吉村猛
木村晋二
早稲田大学教授
博士（工学）（東京大学）
甲藤二郎