Comments
Description
Transcript
実時間コンピュータビジョン: その挑戦と限界
フェロー&マスターズ未来技術研究会資料 FM05-4-3(2006.3.25) 実時間コンピュータビジョン: その挑戦と限界 Real-time Computer Vision: Challenges and Breakthroughs 横矢 直和 Naokazu Yokoya 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology 1. まえがき コンピュータビジョン(CV)研究には,(1)人間のような一 般的な視覚機能の実現を目指す汎用ビジョンの立場と(2)特 定の応用・目的に特化して実際に働くシステムの開発を目 指す目的指向ビジョンの 2 つの立場があると言えよう。こ の立場の違いによって研究アプローチが大きく異なること が多いが、共通するのは、「(一人の)人間の視覚にでき ていることをコンピュータで実現したい」という願望であ る。 本パネル討論の趣旨は、それぞれの分野で 2020 年頃に 到達可能な夢を語るというもので、未来予測の趣がある。 未来予測の常として、現在ある概念・技術の発展形として の未来を予測する場合がほとんどで、今存在していない概 念・技術をベースにした予測が行われるのは極めて稀であ るので、以下ではまず、CV 研究の原動力として研究パラ ダイムと道具立てに注目し、40 年余りの CV 研究を概観し、 次に未来を展望したい。 2 .これまでの CV 研究の原動力は? CV 研究の起源をどこに求めるかには諸説あろうが、40 年以上の歴史を持っていることは確かである。そこで、20 年を区切りとして、CV 研究の発展をもたらした原動力が 何であったのか振り返ってみたい。 (1)1985 年以前 まず、研究パラダイムとして大きな影響を与えたのは、 ・ Roberts の汎用ビジョンの基本的枠組み[1] ・ Marr の視覚の計算理論に基づくビジョン研究パラダイ ム[2] である。Roberts によって、2 次元画像の特徴抽出結果であ る 2 次元多面体線画と 3 次元ワイヤーフレームモデルの照 合によって物体認識を行う汎用ビジョンの基本的枠組みが 提案され、当初の積木の世界からの脱却と特徴抽出の高度 化を目指して研究が進んだ。Marr は視覚を実現するために は何を計算すべきかを明確にし、画像特徴を記述したプラ イマルスケッチ→シーンの 2 1 2 次元表現→3 次元モデルの 過程からなる計算理論を示した。この視覚の計算理論をコ ン ピ ュ ー タ で 実 現 す る た め に 、 そ の 後 、 Shape from X (X=shading, texture, contour, motion など)と呼ばれる一連の 研究が活発になり、現在まで続いている。 一方、CV 研究の道具立てとしては、 ・ 画像入力装置の普及 ・ ビジョンアルゴリズムのライブラリ化 が大きい。これによって、CV が誰でも参入できる研究分 野になった。今からは想像もできないが、1970 年代後半ま では、デジタル画像を自前で容易に入力できる研究機関は 限られていた。言い換えると、それまでは、CV は特定の 研究機関だけが独占的に取り組める研究分野であった。 (2)1985 年頃からの 20 年 研究パラダイムに関しては ・ アクティブビジョン[3] が現れた。アクティブビジョンはロボット視覚における身 体性とビジョンの関わり等の課題を提起したが、CV 分野 においては Roberts や Marr の研究パラダイムほどの影響力 はなかった。 この期間における CV 研究の主たる原動力は、その道具 立ての進歩であり、中でも ・ 動画像入力装置の普及 ・ 計算パワーの向上による実時間処理の実現 ・ メモリの大容量化 ・ カメラのユビキタス化 が顕著である。これによって、かつては計算時間とメモリ 使用量の観点から非現実的と思われていた前の世代に提案 されたパターン認識・CV の手法・技法が現実的になった。 また、ロボットや自動車のような実時間性が不可欠な分野 での CV の実用化が進むとともに、仮想現実・複合現実に 代表される新たな研究分野が勃興した。この CV の新しい 展開の底流にあるのは「自動化技術からメディア技術とし ての CV へ」[4]という考え方である。このことは、CV 分 野の代表的な国際会議である ICCV と CG 分野の代表的な 国際会議である SIGGRAPH に基本的には同じ内容が投稿 されるという最近の傾向からも、国際的な潮流であること が分かる。 ところで、汎用ビジョンの立場から基本的な課題が解決 されたかというと否である。普通に人間の視覚ができてい ることでコンピュータにはできないことの方が多い。この ため、ビジョンの本質的な問題を捉えた研究の必要性も提 言されている[5]。また、目的指向ビジョンの立場で CV の 利用が求められている応用・目的に十分に応えられている かというと、これもまた否であろう。 3.さて、これからの CV 研究の方向は? CV 研究の主たる原動力を研究パラダイムと道具立ての 観点から概観したが、これからの 20 年はどうなるのであ ろうか。凡庸な頭脳では、今存在していない新しい概念の 出現を予測するのは難しいので、ここでは、現在の道具立 てが進化した状態を想定して、そこで展開されるであろう 研究の方向性を考えてみたい。 CV 研究の最も基本的な道具は入力装置としてのカメラ である。CV 技術を駆使した単体カメラの手ぶれ補正・時 空間高解像度化・高ダイナミックレンジ化が可能であり、 現状の延長線上に、CV 技術によるデバイス本来の機能を 超えたスマートカメラの実現が予想される。例えば、手持 4 ちのビデオカメラを用いて通常の PC でも実時間でのビデ オモザイキングが可能であり、カメラ付き携帯電話等での 実装も視野に入ってきている(図 1 参照)。 といった概念の中にネットワークビジョンが取り組むべき 技術課題が含まれているのではないだろうか。すなわち ・ 大量カメラが連携することによる大域的な環境理解と 異常(普通でない)状態の学習・検出 ・ カメラ群が捉えた時系列光線情報からの任意時間・任 意視点映像の生成 ・ 環境理解結果および映像生成結果の人間や車輌への実 時間提供 である。 従来の CV 研究との決定的な違いは、当たり前のことと 考えていた「一人の人間がもっている視覚機能をコンピュ ータで実現する」のではなく、「一人の人間ではできない 視覚機能をコンピュータで実現する」ことにある。人間が 簡単にできることさえ満足にできていないことを考えると、 これは無謀な挑戦のようにも思えるが、一方では、医療に 革新をもたらした CT や CV 研究の重要なツールであると 同時に実用的な 3 次元計測機器となったレンジファインダ の例を見ると、人間にできないことの方が易しいこともあ るのが分かる。 ネットワークビジョンの実現には、CV 固有の技術課題 以外に、以下のような取り組むべき課題が存在する。 ・ 広域に存在する大量カメラの無線接続を含むネットワ ーク化と全体のシステムアーキテクチャ ・ カメラ単体の高機能化と局所的な自律処理による機能 分散(一部は CV 技術によって実現) ・ カメラ以外のセンサとの融合(カメラや人間・移動体 の自己位置・姿勢計測など) ・ 大規模時空間データの要約・蓄積と高速検索・データ マイニング ・ 環境中のビジブルロボットおよびアンコンシャスロボ ットとの連携による環境への作用 また、プライバシーの問題をどう克服するかもある。 入力画像の一部 超解像モザイク画像中の対応箇所 超解像モザイク画像 (1600×1961) 図 1 手持ちカメラによる超解像ビデオモザイキング 個人使用のデジタルビデオカメラがすでに一般的なもの となったが、これに加えて、住宅や街中のサーベイランス カメラ、携帯電話搭載カメラ、車載カメラと、至る所にカ メラが溢れるユビキタス化の流れが顕著である。また、各 種センサ類のネットワーク化も始まっている。その先に容 易に想像できる CV の新しい道具立ては、社会インフラと しての ・ ユビキタス社会における広域センサネットワークのノ ードとしての大量のカメラ 4.むすび 本稿では、これまでの CV 研究の原動力を振り返るとと もに、これから取り組むべき方向性の一つとして「ネット ワークビジョン」について述べた。これが 2020 年頃に実 現しているという確信はないが、挑戦する価値が十分にあ る課題であると考える。 参考文献 図 2 [1] L.G. Roberts: Machine perception of three-dimensional solids, in Optical and Electro-Optical Information Processing (J.T. Tippett et al., Eds.), MIT Press, pp.159-197, 1965. [2] D. Marr: Vision – A Computational Investigation into the Human Representation and Processing of Visual Information, W.H. Freeman and Company, 1982. [3] J.Y. Aloimonos, I. Weiss, and A. Bandyopadhyay: Active vision, Proc. 1st Int. Conf. on Computer Vision, pp.35-54, 1987. [4] 大田: 3 次元画像メディアとコンピュータビジョン―ロボッ ト技術としての CV からメディア技術としての CV へ―. 情 報処理, Vol.37, No.5, pp.981-986, 1996. [5] 辻: ビジョン研究のパラダイム―「コンピュータビジョン への道」を再び訪ねて―, 画像の認識・理解シンポジウム (MIRU2005)講演論文集, pp.6-7, 2005. 広域環境に溢れるカメラのネットワーク化 の存在である(図 2 参照)。 現状ではユビキタスカメラは局所的にしかネットワーク 化されていない。したがって、まだ実態はないが、ネット ワーク接続された大量カメラの映像を扱う「ネットワーク ビジョン」がこれから CV が挑戦すべき課題であると思わ れる。機能的には 2001 年には実現しなかった HAL のビジ ョン版とも言えるが、「安全・安心・快適な」社会の実現 には必須である。すでに存在している ・ ネットワーク型広域ビデオサーベイランス ・ ウェアラブル拡張現実 ・ ネットワークロボット ・ 環境知能 5