Comments
Description
Transcript
修士論文 タブレット型情報端末における拡張現実感のための 実映像の
NAIST-IS-MT0851027 修士論文 タブレット型情報端末における拡張現実感のための 実映像の幾何学的補正法 喜瀬川 拓也 2012 年 2 月 2 日 奈良先端科学技術大学院大学 情報科学研究科 情報処理学専攻 本論文は奈良先端科学技術大学院大学情報科学研究科に 修士 (工学) 授与の要件として提出した修士論文である。 喜瀬川 拓也 審査委員: 加藤 博一 教授 (主指導教員) 横矢 直和 教授 (副指導教員) 池田 聖 助教 (副指導教員) 山本 豪志朗 助教 (副指導教員) タブレット型情報端末における拡張現実感のための 実映像の幾何学的補正法∗ 喜瀬川 拓也 内容梗概 ビデオカメラとタッチパネルディスプレイを装備するタブレット型情報端末は, 仮想物体とのインタラクションを伴う拡張現実感を容易に実現する端末として急 速に普及しつつある.しかし,タブレット型情報端末はヘッドマウントディスプ レイやプロジェクタを利用した拡張現実感システムと異なり,ユーザの視点位置 から見える画面内の実写映像と画面外の実風景との間に位置ずれが生じる問題が ある.この位置ずれにより,たとえ画面内の実写映像と重畳表示される付加情報 が正しく位置合わせされていても,画面外の実風景と付加情報の位置関係が把握 しづらく,実際の作業において問題となることが考えられる.本研究では,ユー ザの視点位置から見て,あたかも端末の画面部分が透けるように実風景が見える よう画像を提示する手法を提案する.提案手法では,安定して位置ずれの小さい 画像を提示するために,被写体を平面近似し,別のカメラで取得したユーザの視 点位置に基づき取得画像を homography 変換する.実験では,理論上正確な補正 が可能な平面環境下での位置合わせの精度を明らかにする. キーワード 拡張現実感, タブレット型情報端末, 幾何変換, ビデオシースルー,幾何学的整 合性 ∗ 奈良先端科学技術大学院大学 情報科学研究科 情報処理学専攻 修士論文, NAIST-ISMT0851027, 2012 年 2 月 2 日. i Rectification of real scene images in tablet-based augmented reality∗ Kisegawa Takuya Abstract Tablet computers which have cameras and a touch panel display are rapidly gaining more popularity as terminals for providing users with augmented reality(AR). However, tablet computers have a unique problem which is the geometric discontinuity between a real scene and a camera image and which is in significant for conventional AR systems using head mounted displays or projectors. This discontinuity makes it difficult for the user to associate real scene points with displayed images even if the geometric registration between camera images and virtual world is correct. This paper describes a novel method for displaying real scene images in a LCD display as if it were an optical see-through display. In this method, camera images are rectified according to the user’s view point by using a homography transformation which approximates a real scene with a plane model. The experiment shows accuracy of the rectification, if the environment is approximately a plane. Keywords: augmented reality, tablet computer, image rectification, video see-through, geometric registration ∗ Master’s Thesis, Department of Information Processing, Graduate School of Information Science, Nara Institute of Science and Technology, NAIST-IS-MT0851027, February 2, 2012. ii 目次 1. はじめに 1 2. 関連技術 2 2.1 拡張現実感の映像提示デバイス . . . . . . . . . . . . . . . . . . . 2 2.2 タブレット型情報端末を用いた拡張現実感 . . . . . . . . . . . . . 3 2.2.1 一般の拡張現実感のための整合性問題 2.2.2 タブレット型情報端末を用いた拡張現実感のための整合性 . . . . . . . . . . . 3 問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 ユーザ視点位置に基づく映像提示 . . . . . . . . . . . . . . . . . . 5 2.4 本研究の位置づけ . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3. タブレット型情報端末のための実映像の幾何学的補正 3.1 3.2 キャリブレーション 9 . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.1 各カメラのキャリブレーション . . . . . . . . . . . . . . . 9 3.1.2 カメラ-ディスプレイ間のキャリブレーション . . . . . . . 12 画像の補正法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4. 実験 20 4.1 目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2 試作システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.3 観測用カメラによる評価 . . . . . . . . . . . . . . . . . . . . . . . 23 4.3.1 観測用カメラの位置推定 . . . . . . . . . . . . . . . . . . . 23 4.3.2 評価手段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3.3 実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 幾何学的誤差の考察 . . . . . . . . . . . . . . . . . . . . . 26 4.4 4.4.1 4.5 フレームレート考察 . . . . . . . . . . . . . . . . . . . . . . . . . 5. 結論 32 33 iii 謝辞 34 参考文献 35 iv 図目次 1 Augmented Interaction[1] より引用 . . . . . . . . . . . . . . . . . 4 2 ハンドヘルド型拡張現実感のアプリケーションの例 . . . . . . . . 6 3 ARscope の全体構成 . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 ARscope のユーザの視野 . . . . . . . . . . . . . . . . . . . . . . . 8 5 提案システムの機器構成 . . . . . . . . . . . . . . . . . . . . . . . 9 6 カメラキャリブレーションで用いたチェスボードマーカ . . . . . . 10 7 端末画面座標系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 8 対応点の組の導出原理 . . . . . . . . . . . . . . . . . . . . . . . . 14 9 提案手法におけるカメラ1,端末画面,実環境間の変換行列 . . . 16 10 提案手法のフロー図 . . . . . . . . . . . . . . . . . . . . . . . . . 17 11 機器構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 12 実験に用いた試作システムのフロー図 . . . . . . . . . . . . . . . 23 13 提案手法におけるカメラ2,カメラ3,端末画面間の変換行列 . . 24 14 カメラ3による観測画像1組 . . . . . . . . . . . . . . . . . . . . 26 15 カメラ3による観測画像1組 (端末なしでのカメラ画像) . . . . . . 27 16 カメラ3による観測画像2組 . . . . . . . . . . . . . . . . . . . . 27 17 カメラ3による観測画像3組 . . . . . . . . . . . . . . . . . . . . 28 18 カメラ3による観測画像4組 . . . . . . . . . . . . . . . . . . . . 28 19 カメラ3による観測画像5組 . . . . . . . . . . . . . . . . . . . . 29 20 カメラ3による観測画像6組 . . . . . . . . . . . . . . . . . . . . 29 21 カメラ3による観測画像7組 . . . . . . . . . . . . . . . . . . . . 30 22 カメラ3による観測画像8組 . . . . . . . . . . . . . . . . . . . . 30 23 カメラ3による観測画像9組 . . . . . . . . . . . . . . . . . . . . 31 24 撮影した 9 組の端末越しの画像 . . . . . . . . . . . . . . . . . . . 31 表目次 1 試作システムの仕様 . . . . . . . . . . . . . . . . . . . . . . . . . v 22 2 観測した位置ずれ(単位:pixel) . . . . . . . . . . . . . . . . . . vi 27 1. はじめに タブレット型情報端末は,小型化が進んだことに加え,タッチパネルディスプ レイを介して直感的なインタラクションが可能なことから拡張現実感を実現する 情報端末として急速に普及しつつある.タブレット型情報端末を用いた拡張現実 感に特有の技術的な課題のひとつは,ユーザの視点からは画面内の実写映像と画 面外の実風景に幾何学的な整合性がないため,画面内の実写映像と重畳表示され る付加情報が正しく位置合わせされていても,画面外の実風景と付加情報との関 係が把握しづらいことである.端末の画面があたかもガラス板で反対側が透けて いるかのように映像を生成して提示することができれば,上記問題は生じないと 考えられる.環境が複雑な場合,精細なモデルを取得することは困難であり,モ デルの精度が不足していると生成される映像の細部が歪む問題やオクルージョン によりカメラに写らない欠損箇所が生じる問題がある.本研究では,環境の映像 を取得するカメラとユーザ側に配置されたカメラが装備されている一般的なタブ レット型情報端末を用いた拡張現実感において,環境を平面近似し,映像を補正 することにより画面外の実風景と画面内の実映像の位置ずれを低減させる手法を 提案する.提案手法では,まず環境側のカメラ映像から Structure from motion に より環境中の疎な特徴点の三次元位置を取得し,ユーザ側のカメラ映像からユー ザの視点位置を取得する.次に,環境中の支配的な平面を算出し,homography 変換により位置ずれの小さい映像を生成し表示する.環境の形状を自由度の小さ い平面で近似することにより,映像生成時に大きな歪みが生じることを回避しつ つ,位置ずれの低減を図る.実験では,理論上位置ずれが全く生じない映像が生 成可能な平面を対象とし,生成された映像の精度を検証する.2 章では、過去に おける関連研究について述べ、3 章では,提案手法について述べる 4 章では,実 装した提案手法を用いた実験により,その効果について検証する.最後に 5 章で 全体を総括する. 1 2. 関連技術 2.1 拡張現実感の映像提示デバイス ユーザの眼前の風景に,コンピュータグラフィックスにより,付加情報を重畳 表示し,ユーザに直感的に情報を提示する拡張現実感(Augmented Reality; AR) において,付加情報を提示できるデバイスは以下の3つに分類できる. それぞれのデバイスを比較した場合の長所,短所をまとめ,タブレット型情報 端末と他の情報提示機器との違いを明確化する. ヘッドマウントディスプレイ ユーザの頭部に搭載されたディスプレイとカメラを用いることで,ユーザ に仮想物体が重畳表示された映像が提示される.ビデオシースルー型と光 学シースルー型がある.視界が覆われるため,ユーザはディスプレイの表 示部のみを見る. 長所 – 視点の位置・姿勢をセンシングすることによりユーザ視点位置に 基づいた映像提示が容易である. 短所 – 小型化,広視野化が難しく,普及が進んでいない. – 装置を身につけなければならないことにより重さによる不快感が あること,顔が隠されてしまい意思疎通が難しい. – ビデオシースルー型のヘッドマウントディスプレイは異常動作に よりユーザの視界を奪う危険性がある. プロジェクタ 実空間の対象物にプロジェクタを用いて画像を直接投影することにより,実 空間中に仮想物体が存在するかの様に表示することが出来る. 長所 – 実環境に直接重畳表示ができるので,デバイスを身につけたり手 を持ったりする必要がない. 短所 – 重畳表示する仮想物体が実環境の形状と表面特性により制限され る. 2 タブレット型情報端末 ユーザ側にタッチパネルディスプレイ,環境側にカメラ が搭載されており,カメラで取得した画像上に仮想物体を重畳表示させる ことにより,擬似的にビデオシースルー表示を実現するデバイスである. 長所 – 近年普及小型化が進んでいる. – 複数のユーザでお互いの利用して表情を確認できる. – タッチパネルを介した仮想物体の直感的なインタラクションが可 能である. 短所 – 実風景と実映像に位置ずれが生じる. – ユーザは提示装置を手で持つ必要があるため,両手がふさがる作 業中は利用できない. 日常生活において携帯するのに適したデバイスはタブレット型情報端末に限ら れる.本研究では,最も普及が進んでいるタブレット型情報端末を利用した拡張 現実感における問題に着目した.次節ではこの問題について述べる. 2.2 タブレット型情報端末を用いた拡張現実感 タブレット型情報端末を用いた拡張現実感システム [1][2][3] では,一般的な整 合性問題に加えて,タブレット特有の整合性問題が存在する.2.2.1 節で,まず一 般の拡張現実感における整合性問題についてまとめ,2.2.2 節では,本研究で解決 しようとするタブレット型情報端末特有の整合性問題について述べる. 2.2.1 一般の拡張現実感のための整合性問題 拡張現実感においては,実風景の中にコンピュータグラフィックスにより描か れた仮想物体をまるでそこに存在するかの様に提示するために,以下の3つの整 合性の問題を解決する必要がある [4]. • 幾何学的整合性 実環境に対して重畳表示する仮想物体の位置や姿勢がずれる問題や,仮想 物と実物体の前後関係がくずれる問題. 3 図 1 Augmented Interaction[1] より引用 • 光学的整合性 カメラ画像と実環境の重畳表示する仮想物体の輝度値や実環境と仮想物体 との影の問題. • 時間的整合性 実環境に対して描画される仮想物体の時間遅れの問題. 幾何学的整合性の問題に関しては,拡張現実感システム構築ツール ARToolKit[5] や Parallel Tracking and Mapping[6] を利用して実環境とカメラ間の位置姿勢を 推定する手法,および,モデルベーストラッキング [7][8][9] により,実環境に対 するカメラの位置姿勢を推定することにより解決できる. ARToolKit は予め定義されたマーカを,取得したカメラ画像から検出すること で幾何学的整合性の問題を解決するライブラリである. 光学的整合性の問題は,マーカ内に小型の魚眼レンズ搭載カメラを設置するこ とで,周囲の光源環境を推定する手法 [10],マーカ内に光源環境を計測するため のセンサを組み合わせた手法 [11],形状が既知の物体を配置して,その物体への 映りこみを利用して,仮想物体への映りこみを反映させる手法 [12] などがある. 時間的整合性の問題は映像提示システムの性能や取得したカメラ画像を表示す るまでにかかる時間,重畳表示を行う CG の描画にかかる計算量等の問題により 生じる時間遅れの問題である.これを解決するには,提示システムの処理性能を 4 向上させる必要がある. 拡張現実感の3つの整合性の問題のうち,幾何学的整合性の問題は,これまで は提示される映像内の問題のみを取り扱われてきたが,タブレット型情報端末に おける拡張現実感においては,ユーザの視点位置からみた実風景とディスプレイ に表示される映像との間の位置ずれの問題も解決する必要がある. 2.2.2 タブレット型情報端末を用いた拡張現実感のための整合性問題 従来からタブレット型情報端末における拡張現実感の研究は暦本による Aug- mented Interaction[1] をはじめとし,これまで数多く報告されている. タブレット型情報端末における拡張現実感のために,仮想物体をそこに存在す るかのように,ユーザ視点位置に基づいて提示するためには,従来の整合性の問 題に加え,ユーザから見た画面内外の幾何学的整合性の問題を解決する必要が ある. しかし,現在,タブレット型情報端末による拡張現実感において,ユーザ視点 位置を考慮し,画面内外の幾何学的整合性問題を解決した研究はない.本研究で は,画面内外で生じる幾何学的整合性の問題に着目し,問題解決のための手法を 提案する. 2.3 ユーザ視点位置に基づく映像提示 仮想空間内の情報をユーザ視点位置に基づいた映像として提示する手法はこれ まで数多く研究されてきた.ユーザ視点位置に基づいた映像提示は運動視差 3 次 元ディスプレイとも呼ばれる. 一之瀬らはコンピュータグラフィックスをユーザの視点位置に応じて生成する 手法として視点位置をヘッドマウント型の頭部位置検出センサにより検出し,仮 想物体をユーザ視点位置に基づく映像としてレンチキュラを用いた3 D ディスプ レイにより提示している [13]. また磁気センサを用いて,頭部の位置を計測する手法として,CAVE[14] など の没入型ディスプレイでの利用,ヘッドマウントディスプレイにおける利用が数 5 図 2 ハンドヘルド型拡張現実感のアプリケーションの例 多くある.舘らは,磁気センサを利用するオブジェクト指向型ディスプレイとし て,MEDIA3 [15] を提案している.MEDIA3 はディスプレイを 4 面組み合わせた 画面に,視点位置に基づいた映像を提示している.磁気センサを用いた手法は, 時期発生装置とセットで用いられ,ユーザにセンサの装着が必要になるなどの問 題点がある. カメラ画像を用いて,視点位置を計測する手法を用いてユーザ視点位置に基づ く映像を生成する例として,成田らの窓メタファ[16] が挙げられる.これはディス プレイを窓枠として捉え,ユーザはそれを覗き込むように閲覧するインタフェー スである.ユーザは視点位置を移動させることにより,ディスプレイ内の情報の 位置や大きさ等の表示領域を,直感的に変更できる利点がある. ユーザの前に設置されているディスプレイにカメラが設置されており,そのカ メラに対するユーザの視点位置をカメラ画像から推定することにより,ユーザ視 点位置とディスプレイ,及び仮想物体との位置関係を求めることで,ユーザ視点 位置に基づいた仮想物体の提示を行っている. また,松本 [17] らによる,3 次元顔モデルを用いることで,ユーザ視点の 3 次 元位置を精度よく計測する手法を用いて,末永らは [18] ユーザ視点位置に基づく 映像を生成している. 拡張現実感の用途においては,吉田らによる ARscope が報告されている [19]. この手法では,ユーザは頭部に搭載されたヘッドマウント型プロジェクタカメラ 6 図 3 ARscope の全体構成 と手持ちの表面が再帰性反射材のカメラ付き虫眼鏡型デバイスを装備する.ユー ザからは虫眼鏡型デバイスがあたかも透けて向こうが見えるように,実風景と虫 眼鏡型デバイス内の投影された映像が位置合わせされた状態で映像が投影される. 虫眼鏡型デバイスのカメラは実風景のカメラ画像を取得し,これとヘッドマウ ント型カメラのカメラ画像とパターンマッチングを行うことで位置合わせを行い, その結果をプロジェクタで出力することで,ユーザ視点位置に基づいた映像を生 成し,画面内外の幾何学的整合性の問題を解決している.しかし,この手法はヘッ ドマウント型プロジェクタカメラを利用時に頭部に装着しなければならない問題, 実風景が平面環境でなければ,補正時に誤差が発生する問題がある. ユーザ視点映像を生成する手法の研究は数多く行われてきたが,タブレット型 情報端末における拡張現実感のためにユーザ視点映像生成する例はない.現在普 及しているタブレット型情報端末は端末の前後にカメラを備えている例が多いが, これを想定した拡張現実感のためにユーザ視点位置に基づいた背景映像を生成す る手法が今後要求されると考えられる. そこで本研究では,タブレット型情報端末における拡張現実感のためにカメラ 2 台で取得している実映像とユーザの顔画像から,をユーザ視点位置に基づいた 映像を生成するシステムを開発する. 7 図 4 ARscope のユーザの視野 2.4 本研究の位置づけ タブレット型情報端末の普及や,アプリケーション開発の活発化により,タブ レット型情報端末を用いた拡張現実感を用いた映像提示の機会は今後より多くな ると考えられる.これまでタブレット型情報端末の前後両面のカメラを用いて, ユーザ視点位置に応じてカメラ画像を補正し,画面内外の幾学的整合性の問題の 解決を試みた例はない. 本研究では,ヘッドマウントディスプレイ,プロジェクタと比較して,普及が進 んでいるタブレット型情報端末において拡張現実感を利用するシステムに着目し, 端末前後の2つのカメラ画像により,ユーザ視点位置に基づく映像提示を行う拡 張現実感システムを提案する.普及しているタブレット型情報端末は前後 2 台の カメラが搭載されていることが期待できるため,提案システムはシステム構築に タブレット型情報端末以外の煩雑な機器が必要ないことが本手法の長所となる. 8 図 5 提案システムの機器構成 3. タブレット型情報端末のための実映像の幾何学的補正 提案システムは図のような端末前後,あわせて2つのカメラを持つタブレット 型情報端末で構成される.カメラはそれぞれ,ディスプレイ背面部についている ものをカメラ1,表示画面側についているものをカメラ2と呼ぶ.カメラ1は, 実環境撮影用カメラで,カメラ2は視点位置検出用カメラである. カメラ1は実環境の画像を取得し,実環境の形状 S 及び実環境に対する端末画 面の位置・姿勢 M を求めるのに用いる.カメラ2は,ユーザの視点位置 v を求 めるのに用いる. 3.1 キャリブレーション 3.1.1 各カメラのキャリブレーション 各カメラはキャリブレーションにより,一般的なピンホールカメラモデルとし て較正される.Zhang の手法 [20] はオープンソースライブラリ OpenCV[21] で実 9 図 6 カメラキャリブレーションで用いたチェスボードマーカ 装されている.今回は,OpenCV を用いて ARToolKit で実装されたキャリブレー ションプログラムを利用した. カメラキャリブレーションで得られる内部パラメータは以下の4つである. • 焦点距離 レンズ中心と画像の投影平面間の距離 • レンズ歪み係数 レンズによって生じる画像の歪みを表すパラメータ • 画像主点位置 レンズ中心を通り,投影平面に垂直に交差する点の位置 • 画素のサイズ 画素の縦横の大きさ 内部パラメータは以下の行列 A で表される. f su f ks u0 A= 0 0 f s v v0 0 1 10 (1) 内部パラメータ A の各変数は焦点距離 f ,u 方向及び v 方向の画素の大きさは (su , sv ),カメラの光軸と投影平面の交点の交点座標は(u0 , v0 ),画像平面上の u 軸と v 軸の傾きを示すせん断係数が ks となる [22]. ピンホールカメラモデルでは,カメラ座標系の 3 次元座標 P = [X Y Z 1]T は 以下の式で画像上の 2 次元座標系 p = [u v 1]T に対応する. sp = A[R|T]P (2) カメラで撮影した画像には非線形歪みが半径方向と円周方向に発生しているため, その補正には歪み係数が必要になる.歪み係数 (distortion coeffience) は5つの数 値で表現される. distortion coef f icence = (k1 , k2 , p1 , p2 , k3 ) k は半径方向の歪み係数で,p が円周方向の歪み係数であり,式 2 は以下の式に 拡張される. x X = R Y + T s y Z z 11 (3) x0 = x/z y 0 = y/z x00 = x0 (1 + k1 r2 + k2 r4 + k3 r6 ) + 2p1 x0 y 0 + p2 (r2 + 2x02 ) y 00 = y 0 (1 + k1 r2 + k2 r4 + k3 r6 ) + p1 (r2 + 2y 02 ) + 2p2 x0 y 0 u = fx x0 + u0 v = fy y 0 + v0 where r2 = x2 + y 2 ここで,s は画像のスケール係数,[R|T] は世界座標系に対するカメラの位置姿勢 を表す外部パラメータ行列である. 外部パラメータ行列の R は 3 行 3 列の回転行列で T は 3 行 1 列の並進行列で, 以下のように記述される [23]. r1 r2 r3 R= r4 r5 r6 r7 r8 r9 tx (4) T= t y tz (5) 3.1.2 カメラ-ディスプレイ間のキャリブレーション 各カメラの画像から,それぞれのカメラの位置姿勢を求める.求めたカメラの 位置姿勢から,カメラ座標が定義できる.ここで,カメラ1を原点とした座標系 をカメラ1座標系,カメラ2を原点とした座標系をカメラ2座標系と呼ぶことに する.提案手法では,カメラ1座標系で得られた実環境の形状モデルとカメラ2 座標系で得られた視点位置を,タブレット型情報端末の表示画面を基準とする端 末画面座標系に変換する.端末画面座標系は図 7 のように定義される. 12 図 7 端末画面座標系 13 図 8 対応点の組の導出原理 端末画面座標系の記述に変換し,視点位置と実環境の形状モデル各頂点を結ぶ 各直線と端末画面座標系の z = 0 の平面の交差点を求め,画像変換に用いる対応 点とする. このとき,各カメラ座標系でえられるから端末画面座標系へ変換するために, あらかじめカメラ1座標系から端末画面座標系への変換行列 MC1 → D 及びカメ ラ2座標系から端末画面座標系への変換行列 MC2 → D を求めておく必要がある. 以下,変換行列 MC1 → D ,MC2 → D について述べる.カメラ1座標系から端末画 面座標系への変換行列は下記の各値を用いる.カメラ2座標系から端末画面座標 系への変換行列は下記の各値を用いる.各値を端末画面座標系におけるカメラ座 標系原点の位置から計測によって求め,以下の様に変換行列 MC1 → D ,MC2 → D を設定する. 各値は以下の長さに対応している. a:カメラ1座標系原点から端末画面座標系原点の x 軸方向の距離 b:カメラ1座標系原点から端末画面座標系原点の y 軸方向の距離 c:カメラ1座標系原点から端末画面座標系原点の z 軸方向の距離 d:カメラ2座標系原点から端末画面座標系原点の x 軸方向の距離 14 e:カメラ2座標系原点から端末画面座標系原点の y 軸方向の距離 f:カメラ2座標系原点から端末画面座標系原点の z 軸方向の距離 カメラ1,カメラ2の光軸方向及び端末画面座標系の z 軸方向が平行であると いう仮定のもとで,変換行列 MC1 → D ,MC2 → D は以下のような行列となる. 1.0 0.0 0.0 MC1 → D 0.0 1.0 0.0 b = 0.0 0.0 1.0 c 0.0 0.0 0.0 1.0 MC2 → D a (6) −1.0 0.0 0.0 1.0 0.0 0.0 = 0.0 0.0 d −e 0.0 −1.0 f 0.0 0.0 1.0 (7) 端末画面座標系での実環境上のマーカ頂点位置 ci は以下の式で表される. ci = MW → C1 MC1 → D wi ただし,wi は実環境上のマーカ座標系におけるマーカ頂点位置となる. 3.2 画像の補正法 画像の補正にはホモグラフィ変換を利用する.Collins は上空からの写真に写っ た地形を平面とみなした上で,ホモグラフィ変換を用いて上空からの地上の写真 を補正し,任意視点画像を生成している [24]. この手法では,上空からの写真の 4 点と,それに対応する生成したい視点の画 像の対応点の組を利用して,ホモグラフィ変換を行うことで画像生成している. 15 図 9 提案手法におけるカメラ1,端末画面,実環境間の変換行列 16 図 10 提案手法のフロー図 17 提案手法では、画像を補正するために,まず,実環境の形状モデルを平面抽出 し,端末画面座標系に視点位置と形状モデルの平面 S を変換する.視点位置と実 環境の形状モデル S を直線で結び,直線と端末画面上の平面 (z = 0) の交点から, 4 点以上の対応点の組を求め,ホモグラフィ変換によりユーザ視点依存映像を生 成する.以下,その手法について説明する. まず,カメラ1とカメラ2で得られたカメラ1座標系における実環境上の AR マルチマーカの頂点位置と,カメラ2座標系におけるカメラ3の位置の各座標を 端末画面座標系における座標系へと変換する. 対応点は,検出されたマーカの頂点 ai と視点位置 v を結ぶ直線 li ,と端末画面 座標系 z = 0 平面との交点 (bix , biy ) として求まる. bix ~v + s(~ ai − ~v ) = biy 0 (8) ただし,s は媒介変数である 上記の式が成立する条件を用いて,ユーザ視点依存映像生成時の端末画面平面 上の対応点を導出する. ここまでで求めた対応点はミリ単位の座標系で表現されている.試作システム では,カメラ画像上の実環境上の点のピクセル座標系とそれに対応するディスプ レイ上の点のピクセル座標系からなる対応点の組を利用してホモグラフィ推定を 行う.このため,2つの座標系間で座標系の変換を行う必要があり,すなわち, 端末画面座標系のミリ単位の座標系の bix , biy から以下の式によりピクセル単位 の座標系の bpix , bpiy に変換する必要がある. bpix = bix × (端末画面の画面横サイズ [pixel])/端末画面の画面横サイズ [mm] bpiy = biy × (端末画面の画面縦サイズ [pixel])/端末画面の画面縦サイズ [mm] 18 ホモグラフィ推定では,カメラ画像内で検出した実環境中のピクセル座標系の 点群と,それに対応する bpi の点群の対応点の組を利用してホモグラフィ行列を 求める.求めるホモグラフィ行列 H は以下のような 3 × 3 の行列で表現される. h11 h12 h13 H= h h h 21 22 23 h31 h23 h33 カメラ画像上での各頂点のピクセル座標を ci とすると,ホモグラフィ行列 H と 対応点の組は以下の関係が成立する. bpix cix bpiy = H ciy 1.0 1.0 19 4. 実験 ここでは,提案手法を実装して製作した試作システムの補正精度を測る客観評 価について述べる.補正精度を検証する目的について述べ,次に,試作システム の構成について説明し,評価手段,評価結果について説明する. 4.1 目的 開発した提案手法に,どれほどの誤差があるかを,客観評価する.以降,提案 手法を実装した試作システムについて述べる. 4.2 試作システム 試作システムの機器構成と仕様は図 11 と表 1 のとおりである. タブレット型情報端末の代わりにカメラを新しく搭載させて,機器構成をタブ レット型情報端末と同等とみなし,提案手法を実装した.カメラ1,2は全てカ メラキャリブレーションにより較正されている.AR マルチマーカ a はカメラ3 の位置を求めるために使う.AR マルチマーカ b は実験時において,実環境の形 状モデルとして利用する. 変換行列 MC1 → D ,MC2 → D ,MC3M → C3 は以下のように設定した. 1.0 0.0 0.0 80.7 MC1 → D 0.0 1.0 0.0 55.4 = 0.0 0.0 1.0 48.0 0.0 0.0 0.0 1.0 MC2 → D −1.0 0.0 0.0 1.0 0.0 0.0 = 0.0 0.0 (9) 65.0 −37.0 0.0 −1.0 10.0 0.0 0.0 1.0 20 (10) 図 11 機器構成 21 処理用ノート PC 表 1 試作システムの仕様 東芝 Qosmio G30/97A インテル Core(TM) 2 Duo プロセッサー T7200 動作周波数 2GHz Windows Vista(TM) Home Premium 正規版 メモリ 1GB(512MB × 2) NVIDIA GeForce Go 7600(PCI Express) 専用ビデオ RAM 256MB カメラ1 Point Grey Research 社製 DragonFly 解像度 640 × 480 カメラ2 Point Grey Research 社製 DragonFly2 DR2-HICOL 解像度 1032 × 776(利用時は 640 × 480) カメラ3 Point Grey Research 社製 DragonFly 解像度 1024 × 768 ハンドヘルドディスプレイ Hanwha 社製 HM-TL7T 解像度 800 × 480 (有効表示領域:152.4(W) × 91.44(H) mm) AR マルチマーカ a 3 × 2 個 一辺 38.0mm AR マルチマーカ b 7 × 5 個 一辺 83.0mm 22 図 12 実験に用いた試作システムのフロー図 4.3 観測用カメラによる評価 4.3.1 観測用カメラの位置推定 カメラ2を使って人間の視点位置の代わりのカメラ3の位置を求める方法につ いて述べる.まず,カメラ2のカメラ画像から,カメラ3に設置された AR マル チマーカを認識して,カメラ3に対するカメラ2の位置姿勢を求める.これに, あらかじめ求めておいた,カメラ3に設置された AR マルチマーカからカメラ3 への変換行列 MC3M → C3 を用いることにより,視点位置を推定できる. カメラ3に設置された AR マルチマーカ座標系からカメラ3座標系への変換行 列は表の各値を用いる.各値を端末画面座標系におけるカメラ座標系原点の位置 から計測によって求め,以下の様に変換行列 MC3M → C3 を設定する. h:AR マルチマーカ座標系原点からカメラ3座標系原点の x 軸方向の距離 23 図 13 提案手法におけるカメラ2,カメラ3,端末画面間の変換行列 24 i:AR マルチマーカ座標系原点からカメラ3座標系原点の y 軸方向の距離 j:AR マルチマーカ座標系原点からカメラ3座標系原点の z 軸方向の距離 MC3M → C3 −1.0 0.0 0.0 h 0.0 −1.0 0.0 −i = 0.0 0.0 1.0 −j 0.0 0.0 0.0 1.0 (11) 端末画面座標系におけるカメラ3の位置姿勢 MD → C3 は以下の式により求める ことができる. MD → C3 = MC2 → D MC3M → C2 MC3M → C3 −1 求めた位置姿勢部分の,並進成分が端末画面座標系におけるカメラ3の位置となっ ている. なお,MD → C3 の行列は以下のように設定した. MC3M → C3 −1.0 0.0 0.0 115.0 0.0 −1.0 0.0 −145.0 = 0.0 0.0 1.0 −20.0 0.0 0.0 0.0 1.0 (12) 4.3.2 評価手段 定位置に配置した評価用カメラにより,端末を通さずに AR マルチマーカ b を 撮影したカメラ画像と,端末を通して撮影した端末画面に表示された補正画像を 比較する.評価指数は撮影した 2 枚組の画像から,端末を通して撮影した画像の 25 図 14 カメラ3による観測画像1組 端末画面内の頂点位置と,端末を通さずに撮影した画像の対応する頂点位置の距 離の差距離とする.9 組の画像を固定したカメラの視界を覆うように撮影し,補 正誤差の発生している状態を観測し評価する. 4.3.3 実験結果 以下の 9 組の画像により評価を行い,画面内の頂点の誤差の平均をとった.な お,フレームレートは 6∼9[fps] であった.一組目以外の端末なしのカメラ3画像 は省略する. 4.4 考察 4.4.1 幾何学的誤差の考察 9 枚の画像に対応する誤差の分布は以下の図のようになった.なお,各画像で 発生した誤差は図 4.4.1 に対応した,以下の表のようになった.観測画像の評価 した結果,最小誤差は 22.64[pixel],最大誤差は 80.54[pixel] となった. 26 図 15 カメラ3による観測画像1組 (端末なしでのカメラ画像) 図 16 カメラ3による観測画像2組 80.54 54.29 45.97 50.31 39.86 28.40 58.45 23.36 22.64 表 2 観測した位置ずれ(単位:pixel) 27 図 17 カメラ3による観測画像3組 図 18 カメラ3による観測画像4組 28 図 19 カメラ3による観測画像5組 図 20 カメラ3による観測画像6組 29 図 21 カメラ3による観測画像7組 図 22 カメラ3による観測画像8組 30 図 23 カメラ3による観測画像9組 図 24 撮影した 9 組の端末越しの画像 31 4.5 フレームレート考察 カメラ画像の歪み補正は OpenCV で行っていることから,処理時間がかかっ ていることが推測される.この処理を除くとフレームレートは 10∼13[fps] になっ た.この結果から,フレームレートを向上させるには,歪み補正の処理の高速化 が必要になると考えられる. 32 5. 結論 本論文では,タブレット型情報端末における拡張現実感のために,カメラ画像 をユーザ視点に依存する映像に補正して提示する手法を開発した.カメラをキャ リブレーションすることで内部パラメータを求め,さらにカメラと端末画面間の 位置姿勢関係を求めるためのカメラ-ディスプレイ間のキャリブレーションを行っ た.さらに各カメラから得られる画像から,実環境上の平面抽出,および評価用 カメラ3を利用した視点位置検出を行い,ユーザの視点位置と実環境間との対応 のとれたユーザの視点位置に依存する映像を生成するために,ディスプレイ平面 上の対応点を視点位置と実環境の点の直線との交差点として求める手法を提案し, 実験環境を開発,実験し,考察を行った. 今後の課題として,視点位置検出を実際の顔画像から検出すること,ユーザは 提案手法を用いることで仮想物体で強調表示された場所を直感的に把握しやすく なり作業効率が向上するケースが存在することを実験で検証すること,非平面環 境への対応が挙げられる.さらに,画面内外のカラーキャリブレーションや,非 平面環境下での有効性の検証,および実際のタブレット型情報端末への実装が挙 げられる. 本研究で提案したシステムは,タブレット型情報端末における拡張現実感の利 用時に,直感的に実風景と背景映像の関係,画面内外の関係をよりユーザに理解 しやすくすることができるため,従来より拡張現実感による作業支援の効果を高 め,応用の困難な複雑な環境下でも作業支援をしやすくする効果が期待できる. 近年のタブレット型情報端末の急速な普及を背景に拡張現実感を利用したアプ リケーションは急増しているなか,提示される背景映像はユーザの視点位置を考 慮しないのが現状である.提案手法の直感的な画面内外の位置関係把握を可能に する機能は,拡張現実感による作業支援をより直感的なものにすることが可能で あり,タブレット型情報端末による拡張現実感の欠点を補うことができ,作業効 率の向上や,応用範囲の拡大だけでなく,使用感の改善が期待される. 33 謝辞 本研究を進めるにあたり,研究の機会を与えて下さるだけでなく,多大なご指 導と,ご助言を賜りましたインタラクティブメディア設計学講座加藤博一教授に 心から感謝の意を表します. 副指導教官として,数々の有意義なご助言を賜りました視覚情報処理学講座横 矢直和教授に深く感謝申し上げます. 副指導教官として,本研究の遂行を行う上で多くのご指導を賜り,数々の有益 なご助言を頂きました,大阪大学池田聖助教に深く感謝申し上げます. ミーティングや日ごろの研究生活,発表練習において日頃から有益なご助言を 頂き,本研究の遂行にあたり数々の助言を賜りました,インタラクティブ設計学 講座宮崎純准教授,浦西友樹助教,山本豪志朗助教,武富貴史助教に厚く御礼申 し上げます. 研究室での活動を支えて下さり,数々のお心配り,ご支援を頂いた上野真紀子 秘書,及びインタラクティブメディア設計学講座の皆様にお礼申し上げます. さらに,研究の初期の段階において緻密な議論を重ねて下さり,研究内容につ いて多大な多方面からのご指導とご助言を賜りました,元像情報処理学講座の大 阪電気通信大学千原國宏教授,千葉大学眞鍋佳嗣教授,大阪大学井村誠孝准教授, の皆様に深く感謝申し上げます. 34 参考文献 [1] Junichi Rekimoto. Augmented Interaction: 状況認識に基づく新しいイン タラクションスタイルの提案. Technical report, Sony Computer Science Laboratory Inc. [2] J. Rekimoto. NaviCam: A Magnifying Glass Approach to Augmented Reality. Presence: Teleoperators and Virtual Environments, Vol. vol. 6, no. 4, pp. pp. 399–412, Aug. 1997. [3] D. Mogilev, K.Kiyokawa, M.Billinghurst. AR Pad: an interface for faceto-face AR collaboration. CHI ’02 extended abstracts on Human factors in computing systems, pp. 654–655, 2002. [4] 田村秀行. 複合現実感研究プロジェクト. 電子情報通信学会総合大会講演論 文集, Vol. 1997, No. 2, pp. 455–456, 1997-03-06. [5] 加藤博一. 拡張現実感システム構築ツール ARToolKit の開発. 電子情報通信 学会技術研究報告. PRMU, パターン認識・メディア理解, Vol. 101, No. 652, pp. 79–86, 2002. [6] David Murray Georg Klein. Parallel tracking and mapping for small AR workspaces. 2007. [7] H. Wuest, F. Vial, and D. stricker. Adaptive line tracking with multiple hypotheses for augmented reality. In International Symposium on Mixed and Augmented Reality, pp. 62–69, 2005. [8] 小竹大輔, 佐藤清秀, 内山晋二. ロバストなエッジベース位置合わせを用いた 作業支援 MR. MIRU2006 画像の認識・理解シンポジウム論文集, 2007. [9] L. Vacchetti, V. Lepetit, and P. Fua. Combining edge and texture information for real-time accurate 3d camera tracking. In International Symposium on Mixed and Augmented Reality, pp. 48–57, 2004. 35 [10] 神原 誠之, 横矢 直和. 光源環境の実時間推定による光学的整合性を考慮した ビジョンベース拡張現実感. 電子情報通信学会技術研究報告. PRMU, パター ン認識・メディア理解, Vol. 102, No. 555, pp. 7–12, 01-10 2003. [11] A. Nonozawa H. Matsuoka and E.Hosoya. Environment mapping for objects in the real world: a trial using artoolkit. Proc. Int. Augmented Reality Toolkit Workshop, 2002. [12] Paul Debevec. Rendering synthetic objects into real scenes: bridging traditional and image-based graphics with global illumination and high dynamic range photography. No. 32, pp. 32:1–32:10. [13] 一之瀬 進, 鉄谷 信二, 志和 新一, 田中 知明, 石橋 守人. 頭部追跡型立体画像 投写表示技術の検討. 社団法人映像情報メディア学会 テレビジョン学会誌, Vol. 44, pp. 1027–1033, 08-20 1990. [14] Carolina Cruz-Neira, Daniel J. Sandin, and Thomas A. DeFanti. Surroundscreen projection-based virtual reality: the design and implementation of the cave. ACM SIGGRAPH’93 Proceedings, pp. 135–142, 1993. [15] 川上直樹, 稲見昌彦, 柳田康幸, 前田太郎, 舘 [ススム]. オブジェクト指向型 ディスプレイの研究. [16] 成田 智也, 渋谷 雄, 中村 重雄, 物部 文彦, 辻野 嘉宏. 視点による情報提示イ ンタフェースの試作と評価. 情報処理学会研究報告. HI, ヒューマンインタ フェース研究会報告, pp. 39–46, 09 2001. [17] 松本吉央, 怡土順一, 竹村憲太郎, 小笠原司. リアルタイム顔・視線計測シス テムの開発と知的インタフェースへの応用 (¡特集¿cv と hci). 情報処理学会論 文誌. コンピュータビジョンとイメージメディア, Vol. 47, No. 15, pp. 10–21, 2006-10-15. [18] 末永剛, 松本吉央, 小笠原司. 非拘束な運動視差提示 3 次元ディスプレイの提 案と評価. ヒューマンインタフェース学会論文誌, Vol. 9, No. 2, pp. 49–56, 36 2007. [19] Takumi Yoshida , Shinobu Kuroki , Hideaki Nii , Naoki Kawakami , Susumu Tachi. ARscope. 2008. [20] Zhang Zhengyou. A Flexible New Technique for Camera Calibration. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. vol.22, No. 11, pp. 1330–1334, 2000. [21] G. Bradski. The OpenCV Library. Dr. Dobb’s Journal of Software Tools, 2000. [22] 奈良先端科学技術大学院大学 OpenCV プログラミングブック制作チーム. OpenCV プログラミングブック. 毎日コミュニケーションズ, 2007. [23] カメラキャリブレーションと3次元再構成. http://opencv.jp/opencv-2. 1/cpp/camera_calibration_and_3d_reconstruction.html. [24] Robert T. Collins and Robert T. Collins. Projective reconstruction of approximately planar scenes. pp. 174–185, 1992. 37