Comments
Description
Transcript
画像・映像の処理、認識、理解研 究の歴史と現状
画像・映像の処理、認識、理解研 究の歴史と現状 呉海元@和歌山大学 2007年4月16日 今日の講義内容 1.ディジタル画像処理 2.コンピュータビジョン 3.アクティブビジョン、 イメージメディアへの展開 4.一般物体認識 参考書:松山隆司、久野義徳、井宮淳 コンピュータビジョン-技術評論と将来展望 新技術コミュニケーションズ Computer Vision Lighting Camera Physical Models Computer Scene Scene Interpretation We need to understand the Geometric and Radiometric relations between the scene and its image. A Brief History of Images Camera Obscura, Gemma Frisius, 1558 ピンホールカメラの原理 1558 A Brief History of Images Lens Based Camera Obscura, 1568 レンズカメラより明るい像が得られる 1558 1568 A Brief History of Images 1558 1568 1837 Still Life, Louis Jaques Mande Daguerre, 1837 アナログ白黒の写真 A Brief History of Images 1558 1568 1837 Silicon Image Detector, 1970 1970 A Brief History of Images 1558 1568 1837 Digital Cameras 1970 1995 2006 Computer Vision Lighting Camera Physical Models Computer Scene Scene Interpretation We need to understand the Geometric and Radiometric relations between the scene and its image. ディジタル画像処理の歴史1 コンピュータを用いたディジタル画像処理は、 1950年代の終わりごろから、既に研究論文が発表された 本格的な研究開始は1960年代から 対象は 宇宙開発、核物理学、医学などの先端分野限り 当初は人工衛星画像の画質改善や、 印刷物の文字を表す2値画像の認識などが試みわれた 例えば J548043 ディジタル画像処理の歴史2 1970年代~1980年代 コンピュータが大学や企業の研究室までに普及し、 画像処理は急発展した: 対象は 地球観測衛星・医療用画像、産業・オフィス用途 様々な画像処理アルゴリズムや画像処理装置を開発 それらを用いた各種の応用システムの研究・開発が活発に 行われ、 ディジタル画像処理が研究分野として確立されるとともに、 その実用的有効性が示された ディジタル画像処理の歴史3 1990年代から、 パソコンが一般家庭までに普及 マルチメディアブームが巻き起こった その理由は: 一般のパソコンがようやくテレビ品質の画像・映像を処理で きるレベルに達したからである ディジタル画像処理の内容 与えられた画像をどのように処理・変換するか 画像から画像への変換が中心的な処理 ・写真(フィルム)のディジタル化 ・濃度や幾何学的歪みの補正 ・エッジ強調用のフィルタリング ・2値画像中の領域や線に対する 幾何学的変形・構造化操作 コンピュータビジョン(CV) 1980年代になると、 David Marrが提案した視 覚の計算理論(Computation Vision, 1982)に基づく見え方 の科学[shape-from-X]に関す る計算アルゴリズムが活発に研 究される 明るさ 3次元物体表現 各種3次元表現 2-1/2次元表現 テクスチャ 統合処理 線画 3D特徴抽出(shape-from-X) X: Shading, Texture, Contour, Motion 2次元画像 両眼立体視 動き CV: ◎3次元シーンが2次元平面に写像されたものとし て画像データを捉える ◎2次元画像→3次元シーンという逆写像を行い ◎画像から元の3次元シーンの情報を復元 伝統的なCVの研究テーマ ・多面体線画の3D的解釈 ・画像中の陰影やテクスチャからの3D形状復元 ・輪郭形状からの3D形状復元 ・見かけの運動情報からの3D形状・運動情報 の復元 ・ステレオ視による奥行きの計測 ・3D物体の形状モデルを利用した物体認識 ・ロボットビジョンへの応用 など。。。 Reflectance Map Classical Approach: Suppose reflected light depends only on α 理想的な強い仮定: 明るさは入射光と物体表面の間の 角度αだけに依存 陰影から3D形状復元の例 Left: Image of Agrippa (NE illumination) Right: 3D shape recovery (Tianzi Jiang, 1999). 見かけ情報から運動情報の復元 Example: Optical Flow Flow field t=0 t=0 t=1 仮定: 連続画像間で対応している 点の明るさが変化しない Best estimates where there are “corners” from Russell & Norvig CVのアルゴリズム 光学モデルや解析幾何学の知識を利用 処理・計算には多様な数理的最適化手法や 統計的推定法を駆使する 「CVによってはじめて視覚認識研究が学問と して確立された」という見方を定着させた 光のモデルの概念 光のモデル • 物体に光が当たることによっ て物体の色(輝度)が決まる 光を種類に分けて考える • 環境光 • 反射光 • 拡散反射光 • 鏡面反射光 • 透過光(屈折光) 光のモデル基礎と応用 光のモデルの計算式 輝度の計算式 • 全ての光による影響を足し合わせることで、 物体上の点の輝度が求まる nL n ⎡ I = I a k a + ∑ I i k d ( N ⋅ L ) + k s ( R ⋅ V ) ⎤ + k r I r + kt I t ⎣ ⎦ i =1 環境光 拡散反射光 鏡面反射光 (局所照明) それぞれの光源からの光(局所照明) 鏡面反射光 透過光 (大域照明) 大域照明 ka + nL ( kd + ks ) + kr + kt = 1 各係数の和は1 CV研究中の難問 ・あまりにも理論に偏った研究が多くなされたため、 「CVの研究は研究(論文)のための研究になって おり、現実世界の問題解決には役に立たない」 という批判が次第に広がってきた 何故? 2次元画像→3次元シーンへの逆写像 ・本来2次元画像→3次元シーンという逆写像を行う処 理は不良設定問題であり、それを解くには様々な仮 定や前提条件が必要である ・当初の理論研究ではそれらがすべて満たされた理想 的な世界における解析アルゴリズムが多かった ・最近では、理論研究においても、「多様な現実世界の 状況の中で頑健に動作するアルゴリズム」が実現でき ることが一つの評価基準として定着し、シミュレーション 画像に対してだけうまく働くような脆弱なアルゴリズムの 提案は次第に姿を消すようになってきている アクティブビジョン、 イメージメディアへの展開 1990年代になると、 2D画像データから3Dシーンへの情報変換ア ルゴリズムの研究という“狭い”研究領域から抜 け出し、より広い視点から視覚情報処理研究を 行おうとする試みが進められるようになった ・知能システムの構成 ・イメージメディアの世界 アクティブビジョン1 ・「知能システムの構成」という観点から視覚認識の問題を考える 代表例:「知覚と行動の統合」を目指すアクティブビジョン ・アクティブビジョンでは: ◎撮像装置や照明の位置、方向、 配置を能動的に制御 ◎撮像→認識・理解→シーン記述 →撮像装置の制御→撮像という処 理ループを繰り返す ◎多視点からの能動的観測や注視 制御に基づいて複雑なシーンの3次 元構造の理解を目指す 撮像→認識・理解→シーン記述→撮像装置の制御→撮像 アクティブビジョンの例 アクティブビジョン2 実世界で有効に機能する知能システムの実現を目指 した研究としては、 ・多種多様なセンサからの情報を統合することによって、 システムの信頼性の向上を目指すセンサフュージョン 例:デジカメラ+距離センサ+赤外線カメラ+… ・複数の処理モジュールが並列に入力データを解析 し、得られた出力(行動制御命令)を統合、調整するこ とにより、動的環境に対する適応能力の向上を図ろう とする包摂アーキテクチャ 最近の追跡研究例:MCMC+Adaboost、 Meanshift+Adaboost といった考え方も提案されている イメージメディアの世界 もう一つ別の方向への研究分野・対象領域の拡張: 「イメージメディアの世界」における視覚情報処理 ・イメージメディアでは、 ◎画像・映像を介した、 人間同士、人間←→機械の間の 正確な情報伝達・豊かなコミュニケーショ ンの実現するために: ◎2D画像→3Dシーンの写像を行うCV ◎3Dシーン→2D画像の写像を行うCG という相補的な情報変換プロセスを統合 化した視覚情報処理が行われる 画像・映像の処理、認識、 理解研究の歴史と現状 →全体像 CVとCGの統合化 の基本方式 ・3Dシーンをカメラで 撮った画像をCVアルゴ リズムによって解析し、 シーン記述を求める ・得られたシーン記述を “編集・加工”し、仮想的な シーン記述を作成 ・仮想的シーン記述から CGアルゴリズムによって 新たな画像を生成 特徴点の追跡・姿勢推定 CVアルゴリズムによって解析し、シーン記述 編集・加工の具体例 ・画像から得られた3Dシーン記述を基に、撮影時 とは別の視点からシーンを見たときの画像を生成 ・画像から得られた3Dシーン記述と人工的に生 成したシーン記述を組み合わせ、実写画像とCG 画像を合成した画像を生成(前回加藤先生から見せた例) ・画像に記録された色情報を、CVアルゴリズムに よって物体色成分と光源色成分に分離し、物体色 のみを変化させた画像を生成 撮影時とは別の視点から シーンを見た時の画像を生成 カメラのパラメータが分かれば そのカメラから取った画像から 任意方向から見た画像を合成 Wakayama University 複数枚の画像より広視野の画像を合成 ◎CV(+画像処理) →編集 →CG(+画像処理) という一連の処理プロセスは、送 り手(撮影者)から受け手(観賞 者)に至る通信路と見なすことが できる ◎CVとCGの統合により 画像 ビデオ映像 3D物体イメージ を情報伝達メディアとした豊かな コミュニケーションが実現できる マルチメディア情報処理の基本技術 CGの拡張としての仮想現実感(Virtual Reality)に対して 生の画像・映像を基に仮想化された画像・映像を生成す る技術(Image-Base Rendering)は、 ・仮想化現実感(Virtualized Reality) ・拡張現実感(Augmented Reality) ・複合現実感(Mixed Reality) などと呼ばれ、現在活発な研究開発が行われている 21世紀の研究課題 一般物体認識 制約のない実世界シーンの画像に対して計算機がそ の中に含まれる物体を一般的な名称で認識する 一般物体認識 PASCAL Challenge ヨーロッパ画像処理コミュニティーのPASCALによって 主催されているコンテスト:PASCAL Challenge: http://www.pascal-network.org/challenges/VOC/ 与えられた学習画像を用いて与えられたテスト画像か ら10種類の物体を認識する bicycle, bus, car, cat, cow, dog, horse, motorbike, person, sheep PASCAL Challengeの2006年の結果はclassification 課題で最高9割以上、detection課題で最高4割程度と なっている PASCAL Challengeの結果例 Bicycles Buses PASCAL Challengeの結果例 Cars Cats PASCAL Challengeの結果例 Cows Dogs PASCAL Challengeの結果例 Horses Motorbikes PASCAL Challengeの結果例 People Sheep 出席チェック1 画像処理とコンピュータビジョンの違い について述べなさい 名前と学籍番号を記入 参考書リスト [1] 松山隆司、久野義徳、井宮淳: 「コンピュータビジョン --技術評論と将来展望--」、 新技術コミュニケーションズ、1998 [2] デビット・マー(乾敏郎、安藤広志訳): 「ビジョン --視覚の計算理論と脳内表現--」、 産業図書、1987