Comments
Description
Transcript
研究成果 - アクセス空間
P-4 知覚・表現メディア工学 プロジェクトリーダ: 斎藤 英雄 事業推進担当者: 大西 公平 笹瀬 巌 鄭 南寧 開放環境科学専攻 教授 総合デザイン工学専攻 教授 開放環境科学専攻 教授 西安交通大学 学長 電子物理・デバイス研究所 人工知能とロボティクス研究所 研究推進協力者: 山本 喜一 岡田 謙一 萩原 将文 池原 雅章 岡田 英史 青木 義満 D・ラ ド ヴ ィ ッ チ 開放環境科学専攻 開放環境科学専攻 開放環境科学専攻 総合デザイン工学専攻 総合デザイン工学専攻 総合デザイン工学専攻 開放環境科学専攻 教授 教授 教授 教授 教授 教授 教授 桂 誠一郎 F・ド ゥ ソ ル ビ エ 植松 裕子 総合デザイン工学専攻 特別研究教員 開放環境科学専攻 専任講師 助教 助教 開放環境科学専攻 総合デザイン工学専攻 総合デザイン工学専攻 開放環境科学専攻 総合デザイン工学専攻 総合デザイン工学専攻 総合デザイン工学専攻 総合デザイン工学専攻 総合デザイン工学専攻 総合デザイン工学専攻 総合デザイン工学専攻 総合デザイン工学専攻 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 RA: 内山 英昭 B. Yalcin U. Tumerdem 小山田 雄仁 境野 翔 田中 裕之 鈴木 大三 三柴数 佐藤 智矢 矢代 大祐 横倉 勇希 山之内 亘 3 3 3 3 3 3 3 3 2 2 2 2 年 年 年 年 年 年 年 年 年 年 年 年 吉田太一 S. Martedi S. Callier P. Sanoamuang M. Muminovic I 総合デザイン工学専攻 開放環境科学 開放環境科学 開放環境科学 開放環境科学 後期博士課程 後期博士課程 後期博士課程 後期博士課程 後期博士課程 1 1 1 1 1 年 年 年 年 年 研究の概要 (1)背景 個人の活動に合わせてディジタル支援を行うための新しい人間中心の 科学技術が求められている。このためには個人と環境、個人と社会、個 人と個人等を結び付けるアクセス空間を創成してサービスとセキュリテ ィの多様な要求を一段高い次元で調整しなければならない。このように 人間の活動を余すところなく支援するための重要な技術として、本研究 では、音声・映像に加えた五感全てを統合したディジタルメディアの解 析処理とインタフェースの技術を追究する。これらの学問創生によりパ ーソナルなアクセス空間を創出でき、来るべき少子・高齢化社会におけ る安全・安心で高度なサービスが提供可能になる。 少子・高齢化社会において安全で高度なサービスを提供するには、こ こに知覚に基づくヒューマンインタラクションや五感に基づく知的処理 を可能にするディジタル支援技術を構築する必要がある。先行する主な 技術として、すでにユビキタスコンピューティングやアドホックネット ワーク研究が国内外で行われているが、主に映像や音声メディアを利用 する研究が主体であり、ハプティクスを含めた五感をトータルに利用し ようとする試みは盛んではない。 (2)目的、計画 リアルタイムネットワーク上の双方向、相互接続により五感に基づく 知覚と表現メディア技術の原理を確立し、バイラテラル通信によるモバ イ ル ハ プ テ ィ ク ス を 世 界 に 先 駆 け て 実 用 化 す る と 共 に 、Int.NOE の 協 力 の下で五感ディジタルの国際実証実験を行う。さらに、五感に基づく知 覚メディアのコミュニケーションをサポートするための要素技術を研究 することにより、これら一連のアクセス空間を高度化し、パラダイムシ フトを誘発する。 各事業推進担当者・協力者の具体的なテーマは以下のとおりである。 ( A) ハ プ テ ィ ク ス の 知 覚 と 表 現 に 関 す る 技 術 ( 大 西 ) ( B) 知 覚 ・ 表 現 メ デ ィ ア の 高 信 頼 通 信 技 術 ( 笹 瀬 ) ( C) 映 像 情 報 の 高 度 処 理 に よ る 多 次 元 映 像 メ デ ィ ア 生 成 と 表 示 技 術 (斎藤、植松、ドゥソルビエ) ( D) イ ン タ ー ネ ッ ト を 用 い た 配 信 ア プ リ ケ ー シ ョ ン 開 発 ( 山 本 ) ( E) 電 子 メ デ ィ ア と 実 物 体 の 複 合 空 間 に お け る 協 調 作 業 支 援 の 研 究 (岡田謙一) ( F) 言 語 情 報 を 利 用 し た シ ー ン 推 定 に 基 づ く 物 体 認 識 技 術 ( 萩 原 ) ( G) 高 度 信 号 処 理 技 術 を 用 い た 映 像 メ デ ィ ア の 解 析 と 生 成 技 術( 池 原 ) ( H) 五 感 メ デ ィ ア 協 調 作 業 下 に お け る 脳 機 能 の 解 析 技 術 ( 岡 田 英 史 ) ( I) モ デ ル ベ ー ス 人 間 計 測 ・ 認 識 シ ス テ ム の 研 究 開 発 ( 青 木 ) ( J) 複 合 感 覚 メ デ ィ ア の 保 存 ・ 再 生 に 関 す る 研 究 開 発 ( 桂 ) ( K) 実 世 界 空 間 デ ザ イ ン と 人 間 の 感 性 に 関 す る 研 究 ( ラ ド ビ ッ チ ) (3)意義 信号処理理論・パターン認識理論をベースとして、五感メディアを扱 う研究は非常に盛んに行われている。本プロジェクトでは、この分野に おける五感メディアの入力・出力・生成・表示・変換・合成、といった 要素技術を専門とする多くの研究者が参加するが、それだけではなく、 それらをコミュニケーションするうえの根幹となる情報通信理論・通信 ネットワーク、さらに実際の五感知覚デバイスそのもの、さらには実世 界空間デザインと人間の感性までの幅広い応用分野までを研究ターゲッ トとしている研究者が融合した研究プロジェクトとなっている点が特色 である。 (4)研究成果概要 ( A) ハ プ テ ィ ク ス の 知 覚 と 表 現 に 関 す る 技 術 ( 大 西 ) ハプティクスの知覚と表現に関するアプリケーションの研究とし て、遠隔手術実現のための多自由度マスタ-スレーブシステムの 開発、安全な歯科インプラント治療のための歯科ドリルの掘削力 推定、爪先関節と踵関節を用いた 2 足歩行ロボットの不整地歩行 のための制御法、力覚通信のための非可逆圧縮、モバイルハプト の実用化に向けたアプリケーションの研究、ネットワーク化制御 システムの研究開発、を中心的なテーマとして研究を行った。 ( B) 知 覚 ・ 表 現 メ デ ィ ア の 高 信 頼 通 信 技 術 ( 笹 瀬 ) ネットワークセキュリティに関する研究を行った。 ( C) 映 像 情 報 の 高 度 処 理 に よ る 多 次 元 映 像 メ デ ィ ア 生 成 と 表 示 技 術 (斎藤、植松、ドゥソルビエ) 拡張現実感(AR)のためのカメラトラッキングとその応用に関 する研究や、物体認識技術を利用したARシステムの研究を行っ た。さらにメディア検索技術として映像検索のための研究を行っ た。また、多視点画像を利用した新しい映像生成に関する研究を 行った。 ( D) イ ン タ ー ネ ッ ト を 用 い た 配 信 ア プ リ ケ ー シ ョ ン 開 発 ( 山 本 ) イ ン タ ー ネ ッ ト 環 境 に お け る 大 規 模 RIA ア プ リ ケ ー シ ョ ン 開 発 支 援環境の研究や、ジェスチャインタフェースの研究を行った。 ( E) 電 子 メ デ ィ ア と 実 物 体 の 複 合 空 間 に お け る 協 調 作 業 支 援 の 研 究 (岡田謙一) テーブルトップインタフェースと仮想空間の連携を、演劇などの 演出プラニングに応用したシステムの構築を行った。 ( F) 言 語 情 報 を 利 用 し た シ ー ン 推 定 に 基 づ く 物 体 認 識 技 術 ( 萩 原 ) 言語情報を利用して画像に撮影された物体認識を行うための手法 の研究を行った。 ( G) 高 度 信 号 処 理 技 術 を 用 い た 映 像 メ デ ィ ア の 解 析 と 生 成 技 術( 池 原 ) 映像メディア処理技術の理論とその応用についての研究を進めた。 ブ レ 画 像 の 修 復 や 、画 像 の 欠 落 部 分 を 埋 め る イ ン ペ イ ン テ ィ ン グ 、 さらに画像の内容を壊さないように画像サイズを縮小する技術に ついて研究を進めた。 ( H) 五 感 メ デ ィ ア 協 調 作 業 下 に お け る 脳 機 能 の 解 析 技 術 ( 岡 田 英 史 ) 五感メディア協調作業下における脳機能を解析することを目的と し 、近 赤 外 分 光 法 (NIRS:Near-InfraRed Spectroscopy)に 基 づ く 脳 機能イメージングに関する要素技術を展開することを目的とした 研究を進めた。 ( I) モ デ ル ベ ー ス 人 間 計 測 ・ 認 識 シ ス テ ム の 研 究 開 発 ( 青 木 ) カメラに撮影された映像から、撮影された人間の動作や形状を解 析するための技術についての研究を進めた。 ( J) 複 合 感 覚 メ デ ィ ア の 保 存 ・ 再 生 に 関 す る 研 究 開 発 ( 桂 ) 実世界触覚情報の工学的な保存・再生を取り扱う学問である「実 世界ハプティクス」に関する研究を行い、熱感覚やなぞり感覚な どとの複合感覚統合技術の研究を行った。 ( K) 実 世 界 空 間 デ ザ イ ン と 人 間 の 感 性 に 関 す る 研 究 ( ラ ド ビ ッ チ ) 実世界の空間として、都市の建築物に注目し、これに対する人間 の感性についての研究を行った。 (5)国際連携実施状況 2010 年 6 月 に 、 慶 應 義 塾 大 学 理 工 学 部 に お い て 、 Ecole Centrale de Nantes(ECN)と 共 同 ワ ー ク シ ョ ッ プ を 行 っ た 。ECN か ら は 、Guillaume Moreau 博 士 を 招 待 し 、さ ら に ビ デ オ 会 議 シ ス テ ム を 利 用 し て 、Myriam Servieres 博 士 が 参 加 し た 。 本 GCOE か ら は 、 斎 藤 英 雄 教 授 、 ド ゥ ソ ル ビ エ フ ラ ン ソ ワ 助 教 、 さ ら に P-4 の プ ロ ジ ェ ク ト メ ン バ ー が 参 加 し 、 活発な議論が行われた。 2010 年 10 月 に 、 フ ラ ン ス の INRIA Rennes に お い て 、 INRIA Rennes と 共 同 ワ ー ク シ ョ ッ プ を 行 っ た 。 INRIA か ら は 、 Eric Marchand 教 授 、 Luce Morin 教 授 他 が 参 加 し 、 本 GCOE か ら は 、 斎 藤 英 雄 教 授 、 植 松 裕 子 助 教 、 ド ゥ ソ ル ビ エ フ ラ ン ソ ワ 助 教 、 ほ か 、 P-4 の プ ロ ジ ェ ク ト メ ン バ ー が 参 加 し た 。ま た 、University of Paris Est か ら 、Vincent Nozick 博士、剣持雪子博士を招待し、講演を依頼した。最新の研究成果発表が 行われ、活発な議論があった。 2010 年 10 月 か ら 、 MOA 締 結 済 み の University of Paris EST の Dr. Vincent Nozick と の 共 同 研 究 の た め に 、斎 藤 英 雄 教 授 の 指 導 す る 修 士 課 程 学 生 1 名 が 短 期 留 学 し 、3 次 元 物 体 の 認 識 に 関 す る 研 究 成 果 を 挙 げ た 。 さ ら に 、 本 研 究 に 関 連 す る 内 容 の 博 士 論 文 の 審 査 員 と し て 、 2010 年 12 月に、斎藤英雄教授が招聘され、学位審査を行った。 RA の 小 山 田 雄 仁 が 、 共 同 研 究 推 進 海 外 派 遣 制 度 を 利 用 し て 、 Microsoft Research Asia( 中 国 ) の Dr. Yasuyuki Matsushita の 下 に 3 ヶ 月 間 滞 在し、コンピュータビジョンに関する共同研究を行った。 RA の Baris Yalcin が 、 共 同 研 究 推 進 海 外 派 遣 制 度 を 利 用 し て 、 ア リ ゾ ナ 州 立 大 学( 米 国 )の Prof. Kanav Kahol の 下 に 1 ヶ 月 間 滞 在 し 、distal touch に 関 す る 共 同 研 究 を 行 っ た 。 RA の 鈴 木 大 三 が 、 共 同 研 究 推 進 海 外 派 遣 制 度 を 利 用 し て 、 カ リ フ ォ ル ニ ア 大 学 サ ン デ ィ エ ゴ 校 ( 米 国 ) の Prof. Truong Nguyen の 下 に 4 ヶ 月 間滞在し、フィルタバンクを用いた画像の変換符号化に関する共同研究 を行った。 RA の 内 山 英 昭 が 、 共 同 研 究 推 進 海 外 派 遣 制 度 を 利 用 し て 、 Ecole Polytechnique Federale de Lausanne ( ス イ ス ) と INRIA Rennes-Bretagne Atlantique( フ ラ ン ス ) に 派 遣 さ れ 、 画 像 の マ ッ チ ン グに関する共同研究を行った。 II. 研究成果 (1)ハプティクスの知覚と表現に関する技術 (1) 遠 隔 手 術 実 現 の た め の 多 自 由 度 マ ス タ - ス レ ー ブ シ ス テ ム の 開 発 (a) 目 的 遠隔手術は、離島や過疎地の患者に対して高度な医療を施すことを目 的のひとつとして研究されている。本研究では、力覚伝達をともなった 遠隔手術を実現するためのシステムの実現を目指す。 (b) 多 自 由 度 マ ス タ - ス レ ー ブ シ ス テ ム 図 1 に 本 研 究 で 開 発 し た プ ロ ト タ イ プ シ ス テ ム (ス レ ー ブ シ ス テ ム 、患 者 側 )を 示 す 。本 シ ス テ ム は 8 自 由 度 を 有 す る 双 椀 型 シ ス テ ム で あ る 。エ ン ド エ フ ェ ク タ は 2 自 由 度 あ り 、バ イ ラ テ ラ ル 制 御 器 を 用 い て 術 者 の 操 作 す る マ ス タ シ ス テ ム と の 間 で 力 覚 伝 達 を お こ な う 。残 り の 6 自 由 度 は エンドエフェクタの位置を制御するために位置制御される。 図 1 実 験 シ ス テ ム (ス レ ー ブ シ ス テ ム ) 本実験では、実験システムを図 2 に示すように構成した。慶應義塾大 学 信 濃 町 キ ャ ン パ ス の リ サ ー チ セ ン タ ー に て 、1 階 に マ ス タ シ ス テ ム 、9 階 に ス レ ー ブ シ ス テ ム を 設 置 し 、 二 つ の シ ス テ ム 間 を VPN (Vitrual Private Netwok) で 接 続 し た 。 ス レ ー ブ 側 の 映 像 は ラ イ ブ ス ト リ ー ミ ン グシステムを用いて術者側のディスプレイに表示した。 図 2 実験システムの構成 図 3 に実験の様子を示す。本実験は、慶應大学医学部と共同で実施し た。また、図 4 に術者側で用いたディスプレイシステムを示す。 図 3 実験の様子 図 4 術者側の映像 マスタシステムは、力覚伝達のための 2 自由度のシステムを用いた。 医師がマスタロボットを操作し、スレーブ側で発生する反力による力覚 がマスタシステムを通して操作者に伝達されることを確認した。また、 スレーブシステムの位置情報や力情報を表示させることで、術者の動作 を 客 観 的 に 観 察 す る こ と が 可 能 で あ っ た 。ま た 、VPN を 用 い て も 力 覚 情 報と画像情報を同時に通信できることを確認した。 本プロトタイプシステムは、左右それぞれ 2 自由度のみ、力覚伝達が 可能なシステムであった。今後は、システムをより実践的な動作が可能 なシステムの開発をおこなっていく。 (2) 安 全 な 歯 科 イ ン プ ラ ン ト 治 療 の た め の 歯 科 ド リ ル の 掘 削 力 推 定 (a) 目 的 近年、歯科治療の 1 つとして歯科インプラント治療が注目され、広く 用いられている。歯科インプラント治療とは、人の歯がなくなってしま った場所に人工の歯を取り付ける治療法で、骨にドリルで穴を空けてボ ルトを埋め込み、人工の歯をしっかりと固定する方法である。しかし、 歯科インプラント治療の問題として、骨にドリルで穴を空けるときに、 ドリルの磨耗等に気が付かず、掘削しすぎてしまうという事故や摩擦熱 により骨が非常に高温になってしまう事態が発生するといった問題があ る。新品のドリルと磨耗したドリルでは掘削に必要な力が異なるが、医 師がドリルの磨耗や掘削力が認識できていないためにこれらの問題が発 生してしまう。 そこで、安全な歯科インプラント治療を実現するための研究として、 歯科ドリルの掘削力を提示する手法を研究した。歯科ドリルの掘削力を 定量的に知ることができれば、ドリルの磨耗等による掘削力の変化を認 識することができ、掘削しすぎるといった事故や骨が非常に高温になっ てしまう事態の防止に役立つ。 (b) ド リ ル ロ ボ ッ ト シ ス テ ム 本研究では、図 5 に示すドリルロボットシステムを開発し、掘削力推 定システムを提案した。このドリルロボットシステムは、直動モータの 上に回転モータを配置し、回転モータにドリルの歯を取り付けたロボッ トシステムである。設定した速度で対象物の掘削を行うことができ、手 法の定量的な評価に用いることができる。また、提案手法は制御用のエ ンコーダと外乱オブザーバを用い、力センサやトルクセンサなしで掘削 力を推定する手法であり、低コストで安全なシステムを実現できる。提 案手法では、掘削力の推定のために図 6 に示す掘削モデルに基づいた 2 次元掘削のダイナミクスを考慮している。 図 5 ドリルロボットシステム 図 6 掘削モデル そして、提案手法の検証実験を行った。比較のために新品のドリルと 実際の治療で使用された後の磨耗したドリルを用いた。それぞれのドリ ルで中密度繊維板を掘削したときの提案手法による掘削力の実験結果を 図 7 に 示 す 。 図 7 に お い て は 、「 New」 が 新 品 の ド リ ル の 結 果 、「 Old」 が磨耗したドリルの結果を表しており、横軸が時間、縦軸が推定した掘 削力である。実験結果から、磨耗したドリルのほうがより多くの掘削力 が必要であったことが定量的に評価できている。したがって、提案手法 を用いた掘削力推定によるドリルの磨耗の違いが確認できた。 図 7 掘削力の実験結果 (3) 爪 先 関 節 と 踵 関 節 を 用 い た 2 足 歩 行 ロ ボ ッ ト の 不 整 地 歩 行 の た め の 制御法 2 足歩行機構を持つヒューマノイドロボットは人間への親和性が高く、 実用化が望まれており、研究が進められている。しかし、2 足歩行ロボ ットの運用上の問題の 1 つとして「不整地(凹凸のある地面)において 安定な歩行が困難である」という問題がある。従来手法では、不整地の 凹凸により、2 足歩行ロボットの転倒する可能性が高い。しかし、ロボ ットによるアクセス空間支援として人間の活動を余すところなく支援す る た め に は 、平 ら な 整 地 だ け で な く 不 整 地 に お い て も 安 定 な 2 足 歩 行 に よる空間移動が望まれる。そこで、不整地における 2 足歩行ロボットの 安定な歩行を実現するための手法を研究した。 本研究では、機械構造的に不整地への適応性を向上させるために、爪 先関節と踵関節を用いた足構造を用いている。そして、安定な 2 足歩行 のためには歩行安定化制御(転倒を防ぐように全身でバランスをとる制 御)との兼ね合いを考慮した不整地適応制御(爪先と踵を含む足構造を 不 整 地 に 適 応 さ せ る 制 御 )が 必 要 と な る た め 、そ の 手 法 を 研 究 し て い る 。 前年度の研究では、爪先と踵の回転トルクを用いた不整地適応制御を提 案した。そして本年度の研究にて、さまざまな地形の不整地に適応する た め に 、さ ら に 爪 先 と 踵 の 垂 直 反 力 を 用 い た 不 整 地 適 応 制 御 を 提 案 し た 。 爪先と踵の回転トルクと垂直反力の両方を考慮した適応を実現すること で、さまざまな不整地への適応が可能となる。提案手法では、切り替え インピーダンス制御器を用いており、不整地への適応のためにインピー ダンス(足の制御剛性の柔らかさなど)の切り替えを行うことで、前述 した歩行安定化制御と不整地適応制御の兼ね合いを考慮し、干渉なく独 立 し た 制 御 系 設 計 が で き る 。図 8 に 提 案 手 法 に お け る イ ン ピ ー ダ ン ス 切 り替えの概念を示す。インピーダンス制御器を用いることで、地面に対 する適応性を設定することができる。地面に対し柔らかい制御を行った 場合、地面への適応性は高くなるが、バランスを取ること(歩行安定化 制御)は難しくなる。そこで、着地時は柔らかい制御(図 8 の真ん中の 前 足 )、 適 応 後 は 硬 い 制 御 ( 図 8 の 右 の 前 足 )、 足 上 げ 期 は 姿 勢 を 戻 す 制 御 の 3 つ を 切 り 替 え る こ と で 、歩 行 安 定 化 制 御 と 不 整 地 適 応 制 御 を 干 渉 な く 両 立 さ せ る 。提 案 手 法 で は こ の 方 式 を 1 つ の 切 り 替 え イ ン ピ ー ダ ン ス 制 御 器 を 用 い て 実 現 し て い る た め に 、実 装 や 解 析 が 容 易 で あ る 。ま た 、 制 御 器 の 提 案 と 同 時 に 、制 御 器 の た め の 反 力 指 令 値 の 生 成 法 も 提 案 し た 。 そして、提案手法の有効性を確認するための検証実験を行った。図 9 に足踏み実験における不整地への足の適応の様子を示す。不整地に爪先 関 節 と 踵 関 節 を 用 い た 足 が 適 応 し た 様 子 が 確 認 で き る 。 図 10 に 不 整 地 に お け る 歩 行 実 験 の 歩 行 安 定 性 指 標 (Zero-Moment Point (ZMP))の 結 果 を 示 す 。ZMP 応 答 値( 赤 線 )が 安 定 範 囲 の 境 界( 青 線 と 緑 線 )に 接 し て い る 場 合 、 転 倒 す る 可 能 性 が あ り 、 安 定 範 囲 の 内 側 に ZMP 応 答 値 が 常 に あ れ ば 安 定 な 2 足 歩 行 で あ る 。提 案 手 法 を 用 い な か っ た 場 合 は 安 定 範 囲 の 境 界 に ZMP 応 答 値 が 達 し て い る が 、 提 案 手 法 を 用 い る こ と で そ の 不安定な箇所は解消されていることがわかる。したがって、提案手法に よる 2 足歩行ロボットの不整地歩行における安定性向上が確認できた。 図 8 提案手法におけるインピーダンス切り替え (a) 不 整 地 適 応 前 (b) 不 整 地 適 応 後 図 9 足踏み実験における不整地への足の適応の様子 (a) 提 案 手 法 な し (b) 提 案 手 法 あ り 図 10 不 整 地 に お け る 歩 行 実 験 の 歩 行 安 定 性 指 標 (ZMP)の 結 果 (4) 力 覚 通 信 の た め の 非 可 逆 圧 縮 (a) 目 的 力 覚 通 信 の 技 術 を 用 い る こ と に よ っ て 、力 覚 フ ィ ー ド バ ッ ク を と も な っ た遠隔操作が実現可能である。遠隔操作を行う場合は、一般に力覚情報 だけではなく、画像や音声の情報も通信することが必要である。画像や 音声情報を伝達する場合、通信路の負荷を低減させるためにこれらの情 報はしばしば圧縮される。ここで、より効率的な圧縮を実現するために 非可逆圧縮が用いられることがある。非可逆圧縮とは、圧縮された情報 を完全に復元することができないタイプの圧縮手法である。画像や音声 情報においては、人間が知覚可能な周波数帯域には限界があるなど、こ れらの人間には知覚しづらい帯域の情報量を削減することで非可逆圧縮 を実現している。力覚情報においても、人間に知覚可能な周波数帯域に は限界があるため、非可逆圧縮手法を適用可能であると考えられる。そ こで本研究では、力覚通信のための、時間-周波数変換の一種である離 散コサイン変換を用いた力覚情報の非可逆圧縮を提案する。 (b) 整 数 離 散 コ サ イ ン 変 換 を 用 い た 力 覚 情 報 の 非 可 逆 圧 縮 本 研 究 で は 、制 御 系 の ハ ー ド リ ア ル タ イ ム 性 を 保 証 す る た め に 、FPGA (Field Programmable Gate Array) 上 に エ ン コ ー ダ 、 デ コ ー ダ お よ び 制 御系を実装する。効率的な演算を実現するために、エンコーダおよびデ コ ー ダ で は 整 数 離 散 コ サ イ ン 変 換 (IntDCT) を 用 い る 。 図 11 に 力 覚 情 報の圧縮の手順を示す。 図 11 圧縮の手順 本 研 究 で は 、 ”original data”と し て 、 位 置 、 速 度 お よ び 力 情 報 を 用 い て い る 。取 得 し た ”original data” を 量 子 化 し 、整 数 離 散 コ サ イ ン 変 換 を お こ な う 。 そ こ で 得 ら れ た 係 数 を 図 12 に 示 す よ う な フ ォ ー マ ッ ト に 変 換 する。このフォーマットされたがデータが非可逆圧縮されたデータとな る。 図 12 データフォーマット こ の 非 可 逆 圧 縮 手 法 を 組 み 込 ん で 、 FPGA 上 に 図 13 に 示 す よ う に モ ジ ュ ー ル を 設 計 し た 。こ こ で は 、ひ と つ の FPGA 内 に 二 つ の マ ス タ お よ び スレーブコントローラを実装し、コントローラ間では非可逆圧縮された デ ー タ を 、 Giga-bit Ethernet を 用 い て 通 信 し て い る 。 図 13 モ ジ ュ ー ル 設 計 図 14 に 実 験 結 果 の 位 置 応 答 と 力 応 答 を 示 す 。位 置 応 答 で 背 景 が 着 色 さ れている部分は接触環境の位置を示しており、力応答のそれはスレーブ システムが環境と接触していることを示している。ここでは、接触対象 は硬い金属片とした。 図 14 実 験 結 果 なお、本実験では非可逆圧縮の影響通信遅延および補償器は導入してい ない。 実 験 結 果 よ り 、非 可 逆 圧 縮 を 適 用 し て も 良 好 な 応 答 が 得 ら れ る こ と が 確 認された。 (5) モ バ イ ル ハ プ ト の 実 用 化 に 向 け た ア プ リ ケ ー シ ョ ン の 研 究 (a)従 来 の モ バ イ ル ハ プ ト の 問 題 点 昨年度の研究において提案した制御系では、安定かつ高精度なモバイ ルハプトを実現することに成功した。これはすべてのタスクを座標変換 として扱うことが可能な一般的な運動方程式を提案することにより可能 になった。しかし、現実的なモバイルハプトの実用において、未だ移動 ロボットのヨーレートを制御していないという問題があった。よって、 不整地を移動ロボットが通過したときに移動方向を維持することが困難 であった。また、モバイルハプトを実現しつつ、同時に移動ロボットの ヨーレートを制御しようとすると、その干渉を定量的に評価することが 困難であった。 (b)本 研 究 の 内 容 本研究では、昨年度提案した運動方程式を用いることにより、モバイ ルハプトと移動ロボットヨーレートの動的干渉を、昨年度提案した運動 方程式を用いることにより定量的に記述した。提案手法では、タスクを 座 標 変 換 と し て 取 り 扱 う こ と に よ り コ ン ポ ー ネ ン ト 化( オ ブ ジ ェ ク ト 化 ) することが可能であり、複数のタスクの動的干渉を半自動的に補償する ことが可能である。よって、モバイルハプトとヨーレートといった全く 異なるタスクを非常に簡易に同時に実現可能である。 一般的なタスクの記述と制御法を以下にまとめる。 1. 制 御 目 標 を 座 標 変 換 と し て 定 義 す る 。 2. 提 案 し た 運 動 方 程 式 に 代 入 し 、 タ ス ク の 動 特 性 を 導 出 す る 。 3. 1 階 の 運 動 方 程 式 と し て 導 出 さ れ る タ ス ク を 、P 制 御 器 に よ っ て 制御する。 制御系と実験結果を以下の図に示す。 図 15 モ バ イ ル ハ プ ト 制 御 系 図 16 実 験 結 果 (位 置 -速 度 応 答 ) 図 17 実 験 結 果 (力 応 答 ) 図 18 実 験 結 果 (ヨ ー レ ー ト 応 答 ) (6) ネ ッ ト ワ ー ク 化 制 御 シ ス テ ム の 研 究 開 発 フィードバックループ内の通信制約(遅延・レイテンシ・帯域制限) は制御系の安定性と制御性能を著しく劣化させるが、これまでこの問題 が包括的に扱われることはほとんどなかった。そこで本研究では、ネッ トワークを介した位置・力のハイブリッド制御系に含まれる通信制約に 対 処 す る た め の ① 集 中 型 制 御 器・② 遅 延 補 償 器 /量 子 化 器・③ フ ロ ー 制 御 器の研究を進めている。これらの成果は、車載機器・ファクトリーオー トメーション・力覚フィードバックを伴う遠隔操作システム、複数台マ ニピュレータによる協調作業などへの適用が期待される。 (a)集 中 型 制 御 器 の 検 討 従来のネットワークを介したハイブリッド制御は、分散型制御器を用 いたものが大半だった。例えば、触覚通信の基盤技術であるバイラテラ ル制御系の設計では、波変換・4 チャネル制御構造が有名である。それ に対して、集中型制御器に基づく設計法を提案し、より汎用性が高く、 か つ 制 御 性 能 の 高 い ハ イ ブ リ ッ ド 制 御 を 可 能 に し た( 図 19)。本 年 度 は 、 集中型制御器をマルチラテラル制御に適用し、分散型制御器よりも汎用 性の高い設計が可能になることを示した。また、集中型制御器のネット ワーク上の設置位置と透明性の関係を解析した。 Centralized Controller x + _ Compensator + + Compensator + _ Local Controllers + Plants Network Z f 図 19 集 中 型 制 御 器 を 用 い た 位 置 /力 の ハ イ ブ リ ッ ド 制 御 (b)遅 延 補 償 器 /量 子 化 器 の 検 討 フ ィ ー ド バ ッ ク ル ー 内の通信遅延を補償するための Delay-Model-Free Predictor (DMFP)を提案した(図 20) 。DMFP は遅延のモデルを必要とせず、ジッタにより定常偏差が 発生しないという点で、従来の遅延補償器である Smith 法や通信外乱オブザーバに勝ってい る。また、帯域制限に伴うデータの量子化を補償するための動的量子化器を提案した。これら の手法を、位置制御系・バイラテラル制御系・マルチラテラル制御系に適用し、制御性能が向 上することを確認した。 (c)フロー制御器の検討 位置・速度・力のデータに加えて、画像データをリアルタイムに送受信することが 求められる視触覚通信では、視覚情報の送信レートが通信帯域を上回る結果、バッフ ァオーバフローが発生し、システムが不安定化することがある。そこでマスタ・スレ ーブ間で双方向に伝送される触覚情報を含むパケットを用いてネットワークのトラ フィック状況を推定し、視覚情報の送信レートを制御する端末間フロー制御器を提案 した(図 21)。本手法により帯域変動下でおいても低遅延の視触覚通信が可能になる ことを実験により確認した。 + x’ + + + _ _ x f’ f Compensator 図 20 Compensator DMFP の ブ ロ ッ ク 線 図 Video capture Encode Send Frame rate command Display UDP packet (1~20 packets/s, Image data, 30000 bytes/packet) Decode Receive Routers Flow controller Motion controller Slave system 図 21 Motion controller UDP packet 500 packets/s, haptic data and RTT info., Master system 100 bytes/packet 視触覚通信のためのフロー制御器 (2)知覚・表現メディアの高信頼通信技術 (1) MANET に お け る 属 性 証 明 書 を 用 い た 通 信 経 路 の 信 頼 度 評 価 法 各ノードがパケット中継を行う自立分散型の無線アドホックネットワ ークにおいては、パケット内容を改ざんしたり、パケットの転送を行わ ない悪意あるノードが存在する可能性がある。これまで、ノードの信頼 度をもとに通信経路を評価する方式が提案されているが、信頼度の改ざ んやノードのなりすまし問題、また通知方式によるノードの負担や信頼 度利用の非効率問題がある。そこで本論文では、公開鍵証明書に付随す る 属 性 証 明 書 を 用 い た 通 信 経 路 の 信 頼 度 評 価 法 を 提 案 す る 。本 方 式 で は 、 属性証明書を用いて信頼度を通知することで、証明書の検証による信頼 度の改ざん検知とノードのなりすまし検知を可能とし、さらに信頼度を 算出した相手ノードに直接通知することで信頼度算出によるノードへの 負担と信頼度利用の非効率問題に対処する。計算機シミュレーションに より、提案方式によって選択された経路の評価とパケット到達率、また 通信に伴うオーバーヘッドや算出された信頼度の利用効率の評価を行い 本提案方式の有効性を示した。 パケット到達率(%) 信頼度の利用率(%) 提案方式 従来方式 ノードの平均移動速度(m/s) 図 22 信頼度の利用効率 ノード数50 ノード数100 ノード数150 選択した経路 遅延最適経路 全ノード数に占める悪意あるノードの割合(%) 図 23 パケット到達率 (2) 排 他 的 論 理 和 を 用 い た Single-Pcket IP Traceback DoS や DDoS 攻 撃 に 対 し て 、 そ の 発 信 元 を 特 定 す る IP ト レ ー ス バ ッ クは重要な技術である。これまで、マーキング方式やロギング方式が個 別に提案されてきたが、マーキング方式ではトレースバックのために大 量の攻撃パケットの収集が必要であるという欠点があり、またロギング 方式ではトレースバックサーバによる問い合わせ回数が増大する問題が あ る 。 近 年 、 2 つ の 方 式 の 欠 点 を 補 う HIT(Hybrid IP Traceback)方 式 が 提 案 さ れ た 。HIT 方 式 で は マ ー キ ン グ と ロ ギ ン グ を 交 互 に 行 う の で あ る が、以前トレースバックサーバへの問い合わせ回数が増加したり、悪意 ある情報が記入されたパケットによりトレースバックが失敗したりする といった問題がある。そこで本論文では、問い合わせ回数の低減と悪意 ある情報の記入によるトレースバック失敗の課題に対して、排他的論理 和を用いたトレースバック方式を提案する。本方式では、排他的論理和 を用いることでロギング回数を抑制しトレースバックサーバへの問い合 わせ回数の低減が可能である。また、乱数とハッシュ値を用いることで 悪意ある情報の記入に対処し、攻撃ホストに繋がるルータの特定を可能 とする。計算機シミュレーションにより問い合わせ回数の評価と、故障 ルータ数におけるトレースバック成功率を評価し、本方式の有効性を示 した。 90 問い合わせの平均回数(回) 80 :ロギングを行うルータ :マーキングを行うルータ :排他的論理和を行うルータ Traceback Server 攻撃者からのパケット送信時 攻撃 ホスト R1 R1 XOR R2 R1 R2 R3 R4 R5 提案方式 60 50 40 30 20 10 XOR R4 従来方式 70 R4 R5 R6 トレースバック処理 R7 0 R7 被害 ホスト 0 5 10 15 20 25 30 トレースパスのルータ数(個) 図 24 提案方式のトレースバック 図 25 ルータへの問い合わせ回数 (3) MANET に お け る 匿 名 通 信 の た め の 経 路 設 計 を 必 要 と し な い Onion Routing MANET の 匿 名 通 信 に お い て 、 中 継 ノ ー ド が 多 重 暗 号 化 す る こ と で 、 経路構築が不必要であり、また送信ノードの暗号化による負荷を分散す る Onion Routing を 提 案 し た 。提 案 方 式 で は 、中 継 ノ ー ド が 確 率 的 に 暗 号化を行うことで経路が自動的に構築され、匿名性を保証しつつ宛先へ パケットを届けることが可能となる。また、中継ノードの暗号化回数を 規制することによりホップ数の増大及び パケットドロップ率の低減が 可能となる。計算機シミュレーションにより、パケットの到達時間、お よび宛先ノードがメッセージを入手できる確率を評価した。 (3)映像情報の高度処理による多次元映像メディア生成と表示技術 (1) 紙 地 図 上 へ の GIS デ ー タ の AR 表 示 法 に 関 す る 検 討 (a) Introduction Augmented paper maps have been getting a lot of attention since the past decade. In general, traditional paper maps can provide large scale and detailed information such as names of places and map symbols. However, the data on the traditional maps is usually static and tends to become out-of-date soon. In contrast, digital geo-referenced data such as 3D buildings is dynamically growing up. Recently, the integration between traditional maps and up-to-date digital geographic data has been discussed to enhance the functionality of the paper maps toward further novel uses as augmented paper maps. The main technical issues in previous works assumed that a surface is composed of one plane. However, a typical use of a map includes folding, which was never discussed before. In that case, the assumption above cannot be applied because a surface is composed of multiple planes. The user would frequently fold and unfold the map to watch an appropriate region. In other words, folding is the action that changes the amount of the visible information according to the user ’s purposes. Because folding can be regarded as an important action in paper map manipulation, we develop folding based visualization and interaction for augmented maps. In the development of foldable augmented maps, one of the main problems is how to recognize whether a map is folded or not and respond the folding automatically. We need to use a single view image because we employ a typical augmented reality set-up using a video see-through HMD and consider the constraint of mobile augmented reality. In this case, the problem becomes the recovery of the surface shape of a reference plane from a single view image. Recently, the problem for a non-rigid surface was tackled. The solutions took the approximation of the surface by a collection of triangles. Compared to a non-rigid surface, a folded surface can be regarded as a description of a simple model such that the surface is composed of multiple rigid planes. In this research, we present folded surface detection and tracking for augmenting paper maps. This work is based on our previous work of single map image retrieval using 2D standard maps with intersection dots. In folded surface detection, keypoint correspondences between an input image and a reference map are first established. From these correspondences, multiple planes are detected by iterative homography computation because the surface is composed of non-parallel multiple rigid planes. For a natural augmentation on the surface, the exact folding line is obtained by computing the intersection line of the planes. Based on the angle between the planes, we judge whether the map is folded or not. After the map is judged as folded, each plane is individually tracked by frame-by-frame descriptor update. We extend our previous tracking for a plane to multiple planes. The angle between the planes is utilized as a trigger to switch the states between the detection and the tracking. In our best knowledge, no other works have discussed folding visualization and interaction for papers that depend on the content of the paper in augmented reality. Because folding is a natural, usual and frequently-performed human behavior for papers, the development of the technique for detecting and tracking a folding surface is meaningful and important as a contribution to other researches in augmented reality. Foldable augmented maps is applicable for developing a novel mobile augmented reality application. Normally, the users need to match the 2D information on maps with real 3D scene in their heads when they lose their way outside. It is sometimes hard to match them from the ground viewpoint. In this case, the users can watch 3D information of buildings and their texture on the maps through the mobile device as seen in Figure 26. Thus, it helps the users know where they are. Figure 26: The output of mobile foldable augmented maps. The user freely hold a map and look at the 3d building models and match with the real landmarks. (b) Augmentation We use a set of 3D models of buildings as the virtual content of augmented maps provided by CAD CENTER CORPORATION in Japan The coordinate system of each model is the same as that of reference maps. Because the augmentation of each plane is individually performed, we divide the virtual content into dierent parts according to the size of the planes from the result of folded surface detection. First, we load the whole part of the virtual content that corresponds to the map we use. While the map is not judged as folded in folding initialization, we render the virtual content entirely. When the map is judged as folded, the virtual content is divided into two parts at the estimated folding line. We then overlay the virtual content on each plane using each homography as illustrated in Figure 27. Figure 27: Augmentation on a folded surface. Because we have virtual contents on the reference plane, we can divide them into two parts according to the size of each plane, and overlay virtual contents on each plane independently. In case the multiple plane detection fails, we keep tracking one detected plane. Thus, the 3D models are augmented on the successfully tracked plane as shown in the Figure 28. Figure 28: Augmentation on full size and half size plane. When two planes are not detected, the tracking and augmentation are applied only into the detected one. (a) Full size augmentation is applied if two planes are detected. (b) Half size augmentation is applied if only one plane is detected. (c) Interaction In the augmented paper maps, it is necessary to study the user interaction toward a novel use. Hence, we implemented a method that enables users to select the symbols for accessing the related data. For finger pointing based interaction, we use a finger tip detection method. After two planes are detected and tracked, we start to detect a finger tip from the image. In order to extract a hand region, we first use the simplest but accurate enough HSV color space classifier computed beforehand. By thresholding HSV for each pixel, we obtain a mask image of the hand region. We assume that the user actually touches somewhere on the map as illustrated in Figure 29(a). In order to detect a finger tip, the user hand has to pose a pointing gesture. Also, the dorsal part of the hand should appear in the image entirely. We try to detect the upper end of the hand as a finger tip. It is obtained by computing the center of gravity of the hand region and finding the farthest point from the center as illustrated in Figure 29(b). Because we have computed the region of the folded maps in the image by reprojecting the map boundary with the computed homography, we can restrict our finger tip search area to the map region only in the image. Figure 29: Finger tip detection. (a) User ’s pointing. A user points a map symbol with touching the map. (b) Definition of finger tip position. The farthest point from the center of the hand region is defined as a finger tip. The user can access the related data of each map symbol by pointing the symbol. Because we assume that the user actually touches the map while pointing, we search the nearest map symbol at the finger tip in the image. We define pointing interaction by observing the position of finger tip. If a user ’s finger tip constantly stays close to one of map symbols in several consecutive frames, the map symbol is recognized as pointed. Then, we overlay the data related to the symbol after the pointing occurs. In our implementation, we overlay a picture as related data when a map symbol is pointed as illustrated in Figure 30. Figure 30: Accessing the data of each symbol. We overlay a picture and ID of the symbol as example contents when a map symbol is pointed. (2) キ ー ポ イ ン ト 追 跡 を 利 用 し た 類 似 ビ デ オ 検 索 に 関 す る 検 討 (a) 概 要 近年、静止画検索の研究において、特徴点とその記述子をベクトル量 子 化 し ヒ ス ト グ ラ ム と し て 画 像 を 表 現 す る Bag of Features モ デ ル が 成 功 を 収 め て い る 。BoF モ デ ル を 用 い た 画 像 表 現 で は 、前 述 の 通 り ベ ク ト ル量子化する特徴量を入力画像から抽出する必要があり、前述の例では その特徴量に画像上の特徴点とその記述子を用いている。この手法を動 画へと拡張する場合、用いれる特徴量には様々な物が挙げられるが、静 止画で用いられていた手法の拡張を考慮すると時系列的に特徴点が積み 重なる特徴点軌跡を用いる事が自然だと考えられる為、本研究では特徴 点の描く軌跡とその時系列特徴量を用いている。 BoF モ デ ル で 用 い ら れ て い る ベ ク ト ル 量 子 化 に お い て 、実 際 に 入 力 さ れる特徴量はベクトル量子化される特徴量空間の中でごく一部である為、 図 31 左 側 に 示 す 様 に 量 子 化 を 行 う 為 に 事 前 学 習 を 用 い る 手 法 が 一 般 的 となっている。事前学習はこれから入力されるであろう特長量の分布を 事前に知る為に行う物であり、この事前知識を前提にベクトル量子化は 行われている。しかし、これは学習用のデータがと、これから入力され るであろうデータとの相関性がある場合を前提としており、学習データ に 相 応 し く な い デ ー タ を 用 い て 事 前 学 習 を 行 う と 、BoF モ デ ル を 用 い た 動画表現は上手く働かない。この様に、事前学習を用いるベクトル量子 化は事前学習の結果に大きく影響される事が分かっており、適切なベク トル量子化が行えない場合動画検索等の結果に悪影響が出てしまう。 図 31: BoF モ デ ル ( 左 ) と 周 辺 ヒ ス ト グ ラ ム ( 右 ) 例 え ば 図 32(a)、 (b) に 2 点 の SIFT 特 徴 点 を 示 す 。 こ れ ら の 特 徴 点 (a) と (b) が 画 像 上 類 似 し た 部 分 か ら 算 出 さ れ た 場 合 、 ベ ク ト ル 量 子 化 を 通 じ 同 じ Visual Words に 割 り 当 て ら れ る 事 が 理 想 的 な 量 子 化 結 果 と なる。しかし、ノイズやオマージュによって赤く塗りつぶした矩形領域 の 様 な 特 徴 量 の 違 い が 生 じ た 場 合 、 こ れ ら 一 部 の ノ イ ズ に よ っ て (a) と (b) の 特 徴 量 空 間 上 の 距 離 が 開 き 、 結 果 と し て 異 な る Visual Words に 量子化されてしまう場合がある。以上の理由により、同じ手法を用いた としても、事前学習に用いたデータの質や量、事前クラスタリングの結 果によって提示されている性能が発揮されない場合がある。 そ こ で 本 研 究 で は 、 図 31 の 右 側 に 示 す よ う な ベ ク ト ル 量 子 化 を 用 い ない動画表現を提案する。本手法ではまず、動画像から得た特徴点の軌 跡ゆを次元毎に周辺ヒストグラムを用いて表現する事で動画から得た特 徴量を量子化した。動画間の類似度は各次元で対応した周辺ヒストグラ ム 間 で Cos メ ジ ャ ー を 用 い て 類 似 度 を 計 測 し 、そ の 平 均 値 を 動 画 間 の 類 似度とした。周辺ヒストグラムを用いる事で、本手法は事前学習を用い ず動画を表現している。 図 32: 類 似 し た 点 周 辺 に お け る S I F T 特 徴 量 の 現 れ 方 (b) 処 理 の 流 れ 本 手 法 の 流 れ を 図 33 に 示 す 。 本 手 法 は 大 き く 分 け る と 、 ( 1 ) 特徴点を追跡し、特徴点軌跡を得る。 ( 2 ) 各軌跡の持つ特徴量次元を統一する。 ( 3 ) 各次元で周辺ヒストグラムを算出する。 以 上 の 3 ス テ ッ プ に 分 け ら れ 、先 ず 入 力 動 画 か ら 特 徴 量 を 抽 出 す る( 図 33(a))。 図 33(b) は 、 現 在 多 く 用 い ら れ て い る BoF モ デ ル で の 特 徴 量 の扱いを示している。入力された特徴量はベクトル量子化を通じて Visual Words ヒ ス ト グ ラ ム を 構 築 し 、 構 築 さ れ た ヒ ス ト グ ラ ム 間 の 距 離 で 動 画 間 の 類 似 度 を 計 測 す る 。 対 し て 、 本 手 法 を 図 33(c) に 示 す 。 本 手法は入力された特徴量を各次元にてまとめ、周辺ヒストグラムを算出 する。各次元に分割して特長量を表す事で、本手法では抽出した特徴量 を、ベクトル量子化を用いずに固定長のヒストグラムへと量子化し動画 を表現した。ベクトル量子化を用いない事で不定性を排除した。上記の 処 理 を 通 じ て 、入 力 さ れ た 動 画 は 128×Dim 次 元 の 特 徴 量 に て 表 現 さ れ 、 動画間の類似度はこれらのヒストグラムの類似度平均値となる。またこ の 際 Dim は SIFT で の 各 次 元 を 何 分 割 す る か に よ っ て 変 り 、 本 手 法 で 調整の必要となる唯一のパラメータとなっている。 図 33: 提 案 す る 特 徴 点 の 軌 跡 を 利 用 し た 動 画 像 検 索 手 法 の 概 要 (c) 実 験 及 び 評 価 本章では、本手法を用いた動画検索の結果及びその性能比較実験の結 果を示す。本論文では検索を行う対象として、実際にインターネット上 に あ る 動 画 サ イ ト か ら 動 画 を 収 集 し た 。 動 画 サ イ ト 上 で は ”タ グ ”と 呼 ば れる動画の内容を表す文字列をユーザーが動画に付与されている。よっ て今回の実験ではこのタグを動画の持つカテゴリとして用い、同一のタ グを持つ動画の中で類似動画だと思われるものを目視で選ぶ事で同カテ ゴ リ 動 画 と し て 扱 っ た 。実 験 に 用 い た 動 画 像 デ ー タ ベ ー ス( 以 下 DB と 記 す ) で は 10 種 類 の カ テ ゴ リ を 定 義 し 、 そ れ ぞ れ の カ テ ゴ リ に 大 し て 10 種 類 の 動 画 を 準 備 す る 事 で 合 計 100 個 の 動 画 を 準 備 し た 。 各 カ テ ゴ リ に 用 い た タ グ と 動 画 の 例 を 図 34 に 示 す 。DB に 用 い た 10 カ テ ゴ リ の 持 つ 特 徴 を 述 べ る 。カ テ ゴ リ (1)は あ る 大 本 の 動 画 と 、そ の 動 画 を 高 圧 縮 し た も の や 、ユ ー ザ ー に よ る オ マ ー ジ ュ 作 品 と な っ て い る 。カ テ ゴ リ (2) は 、 あ る キ ャ ラ ク タ ー の 3D モ デ ル を 動 か し た 動 画 と な っ て お り 、 動 か し た 際 の 背 景 や 動 作 の 内 容 に 関 し て は 統 一 さ れ て い な い 。 カ テ ゴ リ (3) は、逆に同じ背景・動作をを特徴として持つ動画を同ジャンルとして扱 っ た 。 カ テ ゴ リ (4) は 同 一 シ リ ー ズ の ア ニ メ ー シ ョ ン を 主 に 扱 っ て い る 動 画 を 並 べ た 。 カ テ ゴ リ (5) 及 び カ テ ゴ リ (6) は 、 そ れ ぞ れ 同 一 の ビ デ オ ゲ ー ム を 行 っ て い る 画 面 を 撮 影 し た も の と な っ て い る 。 カ テ ゴ リ (7) 及 び カ テ ゴ リ (8) は 、 同 一 の キ ャ ラ ク タ ー を 特 徴 と し て 持 つ 動 画 を 同 ジ ャ ン ル と し て い る 。 但 し カ テ ゴ リ (8) は 実 写 及 び ア ニ メ ー シ ョ ン を 含 ん で い る 。 カ テ ゴ リ (9) は カ テ ゴ リ (5) 、 カ テ ゴ リ (6) と 同 じ く 同 一 ビ デ オ ゲームを行っている画面をキャプチャーしたものだが、機種の違いによ る 解 像 度 や 圧 縮 率 の 違 い を 含 ん で い る 。カ テ ゴ リ (10) は 同 一 作 者 の 同 シ リーズであるアニメーションをジャンルとして扱った。 本 手 法 を 用 い た 類 似 動 画 検 索 の 結 果 の 一 部 を 図 35 に 示 す 。 図 35 の 各 行 は 、左 端 の 動 画 を ク エ リ と し て 用 い た 際 の 類 似 度 上 位 4 位 ま で の 動 画 を ク エ リ の 右 側 に 並 べ て 表 示 し て い る 。 図 35(a)で は 、 本 手 法 は ク エ リ動画がユーザーによって加工された動画が検索の上位に挙げられてい る 。 図 35(b) で は 、 同 一 作 者 に よ る 同 一 シ リ ー ズ の 動 画 を 類 似 動 画 と し て 抽 出 し た 。図 35(c) で は 、同 一 キ ャ ラ ク タ ー の き ぐ る み を 異 な る 日 時 、 場所で撮影した動画が検索の上位に挙げられている。しかし上位に挙げ ら れ た 幾 つ か の 結 果 は 異 な る カ テ ゴ リ の 動 画 と な っ て い る 。図 35(d) は 本手法が上手くカテゴリを認識出来なかった場合の結果を示している。 本手法は特徴点を次元ごとに分解して扱うため、無地の背景といった類 似度が偏る様な動画を誤認識している。 図 34: 実 験 に 使 っ た 10 カ テ ゴ リ の 動 画 像 図 35: 本 手 法 に よ る 検 索 結 果 (3) 全 方 位 カ メ ラ を 用 い た テ ー ブ ル ト ッ プ 型 AR シ ス テ ム (a) は じ め に 本 研 究 で は 、 ユ ー ザ に 機 器 を 装 着 さ せ る こ と な く AR を 実 現 す る シ ス テ ム を 目 指 し 、全 方 位 カ メ ラ を 用 い た テ ー ブ ル ト ッ プ 型 の AR シ ス テ ム を 提 案 す る 。 AR と し て 仮 想 物 体 が 重 畳 さ れ る 液 晶 デ ィ ス プ レ イ に は 、 全方位カメラで撮影した全方位画像が表示される。テーブルトップに全 方 位 画 像 が 表 示 さ れ る た め 、ユ ー ザ が 機 器 を 装 着 す る こ と な く AR を 実 現できる。全方位画像を表示することにより、液晶ディスプレイに表示 される画像はミラーのような効果をユーザにを与えることができる。ま た 、提 示 さ れ た 物 体 を 認 識 す る た め の 手 法 と し て 、bag-of-words に 基 づ く特定物体認識手法を用いる。提案するシステムのアプリケーションと して、我々は実験的にカードゲームアプリケーションを実装した。 (b) シ ス テ ム の 構 成 提 案 シ ス テ ム の 構 成 を 、 図 36 に 示 す 。 提 案 シ ス テ ム で 使 用 す る 機 材 は、全方位カメラと液晶ディスプレイである。液晶ディスプレイは、テ ー ブ ル 上 に 水 平 に 配 置 す る 。 次 に 、 PC に 接 続 さ れ て い る 全 方 位 カ メ ラ を、液晶ディスプレイの、全方位画像の中心の位置に設置する。液晶デ ィスプレイには、全方位カメラで撮影した円形の全方位画像が表示され る が 、こ の と き 、周 囲 の 環 境 が ミ ラ ー に 反 射 し て い る よ う に 見 え る よ う 、 全方位カメラの角度を調節して設置する。全方位カメラは、水平方向の 周 囲 360 度 を 一 度 に 撮 影 可 能 で あ る た め 、認 識 す る 物 体 が 周 囲 の 任 意 の 位 置 に あ っ た と し て も 、物 体 を 画 像 中 に 収 め る こ と が 可 能 と な る 。ま た 、 テーブル上のディスプレイに画像が表示されることにより、ユーザは HMD な ど の 機 器 を 装 着 す る 必 要 が な い 。 ユ ー ザ が 実 際 に シ ス テ ム を 使 用 す る と き は 、 あ ら か じ め デ ー タ ベ ー ス に 登 録 さ れ て い る 物 体 が 図 36 のようにカメラに正対して提示されると、その物体は認識される。物体 が認識されると、物体に関連付けられた注釈情報や、ゲームの状態に基 づく情報が全方位画像に表示される。また、提案手法は、複数の物体を 認識することができるため、あらかじめ関連付けられている複数物体が 同 時 に 認 識 さ れ る と 、そ れ ら の 関 連 情 報 が AR と し て 全 方 位 画 像 上 に 表 示される。 図 36: シ ス テ ム の 構 成 (c) 複 数 物 体 認 識 処 理 の 流 れ を 図 37 に 示 す 。 本 手 法 で は 全 方 位 画 像 を 歪 み の 少 な い パ ノ ラマ画像に変形して処理を行う。パノラマ画像の投影面は円筒面である が 、 そ の 局 所 的 な 部 分 は 平 面 に 近 似 さ れ る と 考 え ら れ 、 SIFT を 適 用 し た場合にマッチングを行うことが可能になる。登録フェーズでは、手動 でカメラに正対するように物体を提示し、パノラマ画像中の物体の矩形 領域の左上と右下の座標をマウスによって指定する。各物体に対して、 指 定 さ れ た 物 体 領 域 の 画 像 中 の 特 徴 点 座 標 と 各 特 徴 点 の SIFT 特 徴 量 、 各 SIFT 特 徴 量 を 量 子 化 し た visual words、物 体 の 名 称 等 が 登 録 さ れ る 。 ま た 、 各 visual words が 含 ま れ る 物 体 の リ ス ト も 用 意 さ れ る 。 物 体 認 識 フ ェ ー ズ で は 、パ ノ ラ マ 画 像 か ら 抽 出 さ れ た SIFT 特 徴 量 を 量 子 化 し た visual words を 用 い て 、 bag-of-words に 基 づ い て 物 体 を 検 索 す る 。 次 に 、検 索 さ れ た 候 補 物 体 と パ ノ ラ マ 画 像 間 で SIFT 特 徴 量 マ ッ チ ン グ を行い、物体の画像中の位置を検出する。最後に、検出された物体の登 録 情 報 に 基 づ い て 、 AR が 全 方 位 画 像 上 で 実 現 さ れ る 。 図 37: 処 理 の 流 れ (d) 物 体 検 索 候 補 物 体 の 検 索 は 、Nister ら の 複 数 物 体 検 索 手 法 に 基 づ い て 行 う 。ま ず 、 パ ノ ラ マ 画 像 上 で 、 SIFT 特 徴 量 を 抽 出 す る 。 SIFT 特 徴 量 は 、 拡 大 ・ 縮 小 や 、 回 転 、 照 明 変 化 に 不 変 な 特 徴 量 で あ る が 、 SIFT 特 徴 量 は 128 次 元 の 高 次 元 な ベ ク ト ル で 表 さ れ る た め 、大 き な 処 理 コ ス ト が か か っ て し ま う 。そ こ で 、検 出 さ れ た 128 次 元 の 各 SIFT 特 徴 量 ベ ク ト ル を 、 hierarchical k-means tree に よ っ て visual word で 表 現 す る 。 一 方 、 デ ー タ ベ ー ス に は 、 bag-of-words に 基 づ き 、 登 録 さ れ て い る 各 物 体 が visual words の 集 合 と し て 表 現 さ れ て い る 。そ し て 、各 visual word ご と に 、 そ の visual word が 含 ま れ る 物 体 の リ ス ト が 作 成 さ れ て い る 。 入 力 パ ノ ラ マ 画 像 の visual words ご と に こ の リ ス ト を 参 照 し 、 デ ー タ ベ ースの各物体が入力画像内に存在する尤度を計算する。データベース内 の 物 体 は 、尤 度 の 降 順 に ラ ン ク 付 け さ れ 、そ の 上 位 6 つ の 物 体 が 、画 像 中に存在する物体の候補とみなされる。 (e) 実 験 結 果 今回の実験では、双曲面ミラーを用いた全方位カメラを用いた。全方 位 カ メ ラ か ら 得 ら れ る 全 方 位 画 像 サ イ ズ は 、1428×1428 画 素 で あ る 。全 方 位 画 像 か ら 変 換 し た パ ノ ラ マ 画 像 の サ イ ズ は 、 1024×166 画 素 で あ る 。 ここで、提案システムではパノラマ画像に映る物体の範囲は制限される ため、全方位画像の縦方向の解像度を制限してパノラマ展開を行った。 こ の 結 果 、 パ ノ ラ マ 画 像 の サ イ ズ が 小 さ く な り 、 SIFT 特 徴 点 検 出 の 計 算時間が大幅に縮小される。また、実験においてシステムが対象とする 物 体 と し て 、 市 販 の カ ー ド を 用 い る こ と と し 、 あ ら か じ め 60 枚 を デ ー タ ベ ー ス に 登 録 し た 。 使 用 す る hierarchical k-means tree は 、 と し 、 木 の 深 さ は 8 と す る 。 ま た 、 visual words の 数 は 約 60000 で あ る 。 最初の実験として、パノラマ画像上で、複数のカードに対する検索、 位 置 推 定 精 度 を 評 価 し た 。適 当 に 選 択 さ れ た カ ー ド を カ メ ラ に 提 示 し た 。 図 38 に 、 物 体 認 識 結 果 を 示 す 。 提 示 さ れ た す べ て の カ ー ド は 、 正 確 な 位置で検出されている。 図 38: 物 体 認 識 結 果 の 一 例 ま た 、 処 理 速 度 は 表 1 の よ う に な っ た 。 SIFT 特 徴 点 検 出 と 特 徴 量 マ ッ チ ン グ は GPU 上 で 行 っ た 。 全 体 の 処 理 時 間 は 364msec と な り 、 カ ードゲームなどのアプリケーションに対して十分高速な処理速度だと言 える。 表 1: 処 理 速 度 提案システムのインターフェースを評価するため、3 人のユーザにテ ーブルの周囲に座ってもらい、カードゲームを行った。ユーザがカード を他のユーザに見せるようにテーブルに立てると、周囲の環境が映り、 カ ー ド の 情 報 が 重 畳 さ れ た 全 方 位 画 像 が ス ク リ ー ン に 表 示 さ れ た 。ま た 、 複数のカードが提示されると、登録されているカードの強弱を比較し、 強 い カ ー ド か ら 弱 い カ ー ド に 向 け て 火 の 玉 が 発 射 さ れ た (図 39)。 こ の よ うに、インタラクティブ性のあるカードゲームアプリケーションを実現 できた。 図 39: カ ー ド ゲ ー ム ア プ リ ケ ー シ ョ ン の 一 例 (4) AR を 用 い た ヴ ァ イ オ リ ン 演 奏 支 援 シ ス テ ム (a) は じ め に ヴァイオリンは非常によく知られた楽器であるが、同じ弦楽器である ギターと比較すると習得が困難であるとされている。その理由として、 ヴァイオリンにはギターにおけるフレットのような押さえる場所の目印 がなく、初心者は自分が弾いた音程の正確性を判断出来ないことが挙げ られる。 そこで、演奏者にヴァイオリン演奏の為に必要な指の位置や弓の使い 方を直感的に提示することで初心者のヴァイオリン演奏を支援するよう な シ ス テ ム が 求 め ら れ る 。楽 器 の 演 奏 支 援 を 行 う 為 の 一 つ の 手 法 と し て 、 近 年 、 拡 張 現 実 感 (AR)の 技 術 を 利 用 し た シ ス テ ム が 開 発 さ れ て い る 。 例 と し て 、 元 川 ら の 開 発 し た AR を 用 い た ギ タ ー 演 奏 支 援 シ ス テ ム で は 、 コ ー ド を 演 奏 す る 際 に 押 さ え る べ き 手 の 形 を PC の デ ィ ス プ レ イ を 通 じ て 実 際 の ギ タ ー 上 に 表 示 さ せ る こ と で 演 奏 者 の 支 援 を 行 う 。 AR を 楽 器 の 演 奏 支 援 に 用 い る メ リ ッ ト は 非 常 に 大 き く 、楽 器 を 改 造 す る こ と な く 、 また多くの情報を表示することが出来る。 こうした背景から、本研究では、ヴァイオリン演奏習得を簡単に出来 る こ と を 目 的 と し て 、 AR を 用 い た ヴ ァ イ オ リ ン 演 奏 支 援 シ ス テ ム を 開 発した。本システムは、本物のヴァイオリンの上に仮想モデルを重畳表 示することにより、ヴァイオリン初心者に弦の押さえる場所と弓の使い 方を提示する。また同時に、演奏者の演奏した音階名と音程の正しさの リアルタイム表示を行う。これにより、演奏者はヴァイオリンの正しい 演奏法を簡単に理解することが出来る。本システムの実現には、楽器の 大 き さ や 調 弦 に よ っ て 異 な る 、正 し い 音 を 出 す 為 に 押 さ え る べ き 位 置 (以 下 、 音 階 位 置 )を 正 確 に 表 示 す る こ と が 求 め ら れ る 。 そ こ で 本 研 究 で は 、 AR 表 示 さ れ た 位 置 を 押 さ え て 楽 器 を 弾 い た 際 の 演 奏 音 を 元 に キ ャ リ ブ レーションを行う方法を提案し、音階位置の表示の正確性の向上度合に ついて検証を行った。 (b) 提 案 シ ス テ ム 提 案 シ ス テ ム の 構 成 図 を 図 40 に 示 す 。ユ ー ザ は ヴ ァ イ オ リ ン を 持 ち 、 ディスプレイの前に設置されたカメラの前に座る。ディスプレイ上に自 分の姿と演奏支援情報が映し出されるため、ユーザはそれらを元に演奏 を行うことが出来る。 図 40: 提 案 す る ヴ ァ イ オ リ イ ン 演 奏 支 援 シ ス テ ム の 構 成 ヴァイオリンにはギターにおけるフレットのような押さえる目印が存 在しない為、初心者はどこを押さえたら正しい音が出るのかを判断でき な い 。 そ こ で 、 本 シ ス テ ム で は 図 41 に 示 す よ う に CG で 作 成 し た 仮 想 のフレットによって音階位置をヴァイオリンの指板上に表示することに より、音階を正しく演奏する為の支援を行う。 図 41: CG に よ り 生 成 し た 仮 想 フ レ ッ ト の AR 表 示 に よ る 支 援 また、ヴァイオリン演奏においては、押さえる位置を変更する事によ って音程を自分自身で調整することが求められる為、多くの初心者は自 分の演奏した音程が正しいのかを判断することが出来ない。そこで、図 42 に 示 す よ う に ヴ ァ イ オ リ ン の 演 奏 音 を 周 波 数 解 析 し た 結 果 を 基 に 音 階の正確性を表示することによって、ユーザが演奏している音程が正し いかどうかを判断し、修正する為の支援を行う。 図 42: ヴ ァ イ オ リ ン の 演 奏 音 の 周 波 数 解 析 結 果 の A R 表 示 さらに、ヴァイオリンを演奏する為には、弓とヴァイオリン間の角度 を 正 確 に 保 た な け れ ば な ら な い 。 そ こ で 、 本 シ ス テ ム に お い て は 図 40 の左に示すようにヴァイオリン上に正しい角度を表示することにより、 ユーザが正しい角度で弓を演奏する為の支援を行う。 (c) 評 価 実 験 今回の実験では、両端である G 線と E 線について、初期状態で表示 さ れ て い る 番 号 の 場 所 を 押 さ え て 演 奏 し た 際 の 周 波 数 を 各 10 回 ず つ 測 定 し 、 A=440Hz と し た 場 合 の 各 音 階 の 基 本 周 波 数 と の 平 均 誤 差 を 算 出 し た 。 図 43 の 右 に は そ の 平 均 誤 差 を 基 に キ ャ リ ブ レ ー シ ョ ン を 行 っ た 後の表示結果を示し、今回の結果では音階位置はマーカ側に移動したこ とがわかる。また、キャリブレーション後に表示された仮想フレットを 押さえ、処理前と同条件で測定した結果を表2に示す。結果より、処理 後 に は 全 番 号 の 平 均 で 0.89%誤 差 が 減 少 し て お り 、 よ り 正 確 な 音 階 位 置 の表示が出来たことがわかる。 図 43: 演 奏 音 を 利 用 し た AR 表 示 の 補 正 処 理 。左 が 処 理 前 、右 が 処 理 後 表 2: 補 正 処 理 の 効 果 (5) Depth Displays Camera to Generate Content for Auto-Stereoscopic (a) Background Stereoscopy is a major issue for spatial perception and understanding. Its goal is to reproduce the human perception of an environment by using two images captured from two slightly different viewpoints. The distance between these two viewpoints generally corresponds to the normal distance between two eyes, i.e. ~6.5cm. The stereoscopic process means that spectators have to use a special device that separate the image observed by left eye from the image observed by right eye. Most of the time, such devices are glasses that are categorized into passive or active stereo. However, glasses are not convenient. They are heavy, reduce luminosity, are intrusive and, depending on their quality, induce a ghosting effect. For these reasons, a new generation of displays is appearing. These screens are named auto-stereoscopic displays and make possible to watch 3-D content without need of any kind of glasses. Auto-stereoscopy is a technology recently applied to LCD displays that introduces the ability for one or several users to watch stereoscopic images without wearing any glasses. Depending on their characteristics, auto-stereoscopic displays require from 5 to 64 images to display a single 3D frame. A filter, made of small lenses or strips, is overlaid on the surface of the screen and ensures to emit each image in a specific direction. So, if the user is well located in front of the display, each eye can see a single specific image. Some examples of use of that kind of display are or will be available on consumer hardware like cameras or gaming consoles. So, the number of views required by an auto-stereoscopic display is an important constraint, especially in case of live input stream. So in our research, we focus on reducing the number of video cameras required to create a live video content for auto-stereoscopic. (b) Our approach Our idea was to take advantage of a special camera, named Time Of Flight camera or TOF . It is made of an illumination unit (LEDs) and a capture unit (CCD/CMOS sensor). A light pulse (IR) is emitted, reflected by the objects located in the scene and come back toward the sensor of the camera. The time corresponding to the travel of the light is precisely computed and used to evaluate the depth value of each pixel. The Swiss Ranger SR4000 depth camera can generate a depth map in real-time, but can also provide a gray-scale amplitude image, a confidence map and the spatial coordinate associated with a depth value for each pixel of the sensor. However, most of the depth camera systems based on the TOF technology are unable to generate the color information. The color information is then obtained by adding a color camera besides the TOF camera. So, our system is only made of a color camera and a TOF camera. Considering we can get the depth information in real time, we had two objectives. The first one was to match the color information with the depth information since viewpoints are different. The second objective was to create the different views required by an auto-stereoscopic display. Mainly, existing approaches are using an image based rendering applying a transformation on each pixel which can be a slow process. For that reason, we preferred a method that could mix Computer Vision and Computer Graphics and that could take advantage of the graphic card capabilities (GPU). Referring to a study about the perception of a 3-D image, the color is the most important component. So we decided to preserve the quality of the color image and to transform the depth image. Our solution is to convert the depth map into a mesh (set of triangles defined in 3-D space) and to render that mesh from the viewpoint of the color camera. This approach has the advantage of resolving the problem of the small resolution of the depth image and to reduce automatically occlusions. To obtain the different input images required by an auto-stereoscopic display (from 5 to 9), we just need to render the mesh from a slightly different viewpoint. Figure 44: Overview of our approach (c) Implementation The implementation of our depth ca mera based capture system takes advantage of a 3-D mesh. As we explained in the previous section, we are using two separate cameras: a color camera and a depth camera. A mapping of the depth image onto the color image is then required. This transformation is computed thanks to a calibration stage that estimates the pose of the color camera according to the position of the depth camera. This can be easily achieved by defining manually or automatically a set of 2D/3D correspondences between both images and using a specific library like OpenCV to evaluate the result. For each pixel of the depth image, the depth camera provides the corresponding 3D coordinate. If such information is not directly available, it can be computed by using the depth image and the intrinsic parameters of the depth camera. By using this set of 3D coordinates, we are able to generate the mesh representing the captured scene and made of about 50000 triangles (resolution of 176x144). To get the depth map mapped on the color camera's viewpoint, we render that mesh from the viewpoint corresponding to the color camera as depicted in Fig. 44. This rendering process operated by OpenGL will generate the depth map in real Figure 45: Examples of new depth maps obtained with our approach However, since viewpoints of color and depth cameras are different, some areas can be missing on the border of the mesh. Our solution to resolve that problem of missing information was to extrude the borders of the mesh. Examples are presented in the Fig. 45. Extrusions are visible in the left part of the results (flat areas). Content for auto-stereoscopic displays can be divided into two categories. The first one is the 2D plus Depth format that requires a color image with its corresponding depth map which can be easily provided by our approach. The second one purpose is to generate the multiple views and display it. In our approach, a 3D mesh reduces significantly the complexity of the multi-view rendering because we can use the same stereoscopic rendering algorithm than in computer graphics. It consists of translating the viewpoint along a specific axis according to the eye separation distance and the view direction. (d) Results and conclusions In the previous section, we have presented our new approach that is using a depth camera based capture system to convert a live input video stream into a multiple views thanks to mesh based approach. We also presented a novel method to duplicate 3-D geometry on the graphic card that significantly speeds-up the multi-view rendering process. With this research, we were able to propose a complete real time algorithm that can generate content in real-time for auto-stereoscopic displays. We were also able to propose an augmented reality application which consists of adding virtual objects into a real environment. For example, it became possible to basically manipulate (push, hit,...) a virtual ball, to add virtual shadows, or a virtual blur based on the depth of the scene (depth of field). Some results are presented in Fig. 46 wherein frame-rate is upper than 40 frames per second. Figure 46: Augmented reality results obtained by using our approach: Depth of field, shadows and interactions. In future works, we want to improve the 3-D mesh structure to transform it from a single one into multiple layers. Benefits are that this new representation will reduce the effect of the occlusions and also will allow virtual objects to move behind objects of the scene. Another work will be to focus on the improvement of the detection of the collisions between the virtual objects and the animated mesh. (6) 多 視 点 カ メ ラ 撮 影 に よ る 野 球 の シ ー ス ル ー 映 像 生 成 に 関 す る 検 討 (a) は じ め に 近年、テレビの視聴率低下が著しく、特に野球中継においてはその傾 向が顕著である。そのため放送局側では、視聴者が簡単に認識でき、か つ大きなインパクトを与えられるような映像の提供を目指しており、従 来の野球中継にはなかった新たな視点での映像を作り出すことを望んで いる。そこで我々は、複数のカメラ映像から任意の視点の映像を合成す る自由視点映像生成の技術を野球放送に応用し、新たな視点での野球放 送用映像の生成を行う。 我々は、視聴者にとってピッチャーの投げたボールが最も見えやすい 視 点 は “ キ ャ ッ チ ャ ー の 視 点 ”で あ る と 考 え る 。 こ れ は 、 実 際 に ボ ー ル の 軌道を認識する上で自分に向かってくる正面からの視点が一番確認しや すい場所となるからであり、また昨今の野球ゲームにおいても、主にキ ャッチャー付近の視点によって作られていることからも確認できる。し かし実際の試合環境では、キャッチャー自身にカメラを付けることは難 しく、またキャッチャーの後方から撮影すると、ピッチャーやボールは 審判とキャッチャーに隠れてしまい、視聴者が見ることはできない。 そこで本研究では、キャッチャー後方(左、中央、右)と三塁側サイ ド に 設 置 し た 4 台 の カ メ ラ 映 像 か ら キ ャ ッ チ ャ ー と 審 判 を 除 去 し 、隠 さ れていたピッチャーとボールを透視したシースルー映像を生成する。 (b)手 法 本手法では、野球の試合において、キャッチャーの左後方、真後ろ、 右後方、および三塁脇サイドの 4 視点から撮影した映像を入力として、 キャッチャーと審判に隠されたピッチャーを透視したキャッチャー視点 の映像の作成を行う。 全 体 の 処 理 は 、(1)ピ ッ チ ャ ー 領 域 の 視 点 変 換 、(2)遮 蔽 物 体 領 域 の 抽 出 、 (3)ピ ッ チ ャ ー 領 域 の 合 成 、 の 3 つ に 分 か れ る 。 ピッチャー領域生成においては、野球の試合では、キャッチャーの後 ろにあるカメラに対してピッチャーが十分に遠くに存在するので、ピッ チャーを平面領域であると仮定することができると考える。そこで、カ メ ラ 間 の 平 面 領 域 に 対 し て 成 立 す る 平 面 射 影 変 換 Homography を 利 用 して、左右カメラに写ったピッチャーの領域を、中央カメラ視点へと変 換する。 遮蔽物体領域とは、キャッチャーや審判の写っている領域を指す。野 球では、キャッチャーや審判が常に動いているため、その領域を動画像 中で常に抽出しておく必要がある。そこで本手法では、領域抽出アルゴ リ ズ ム の 一 つ で あ る Graph Cut を 用 い る 。初 期 フ レ ー ム に お い て 、遮 蔽 物体領域を手動で指定し、それ以降のフレームにおいては自動的にそれ ら の 領 域 が 抽 出 さ れ る 。 キ ャ ッ チ ャ ー が 補 給 の 際 に 大 き く 動 き 、 Graph Cut で 対 応 し き れ な か っ た 場 合 に は 、 手 動 で 設 定 し た 領 域 を 別 途 組 み 合 わせて用いる。 サイドカメラ 左カメラ 右カメラ Homography 変 換 Homography 変 換 合成 図 47:左 右 カ メ ラ か ら の ピ ッ チ ャ ー 領 域 の 合 成 図 48:遮 蔽 物 体 領 域 抽出された遮蔽物体領域に対して、視点変換したピッチャー領域を合 成する。合成する際には α ブレンディングを行う。ピッチャーの投球モ ーション中は、仮定する平面の位置が前後するため、合成時の重なり具 合を変化させることで対応する。さらに、左右のカメラからボールの位 置も視点変換しておくことで、通常は隠されて見えないボールの様子も 可視化される。 (c) 実 験 と 結 果 本 手 法 に よ る 実 験 結 果 を 図 49 に 示 す 。 カ メ ラ の 前 に 存 在 し た 審 判 と キャッチャーがけされ、それらを透視してピッチャーの投球を見ること ができている。また、ボールを付加することによって、よりキャッチャ ー視点の映像に近付いていると言える。今後は、遮蔽されていたピッチ ャ ー の 足 の 部 分 を CG な ど で 復 元 し 、 よ り 自 然 な 映 像 生 成 を 目 指 す 。 図 49:キ ャ ッ チ ャ ー 及 び 審 判 領 域 を 除 去 し ,ピ ッ チ ャ ー を 透 視 し た 結 果 (4)インターネットを用いた配信アプリケーション開発 (1) 大 規 模 RIA ア プ リ ケ ー シ ョ ン 開 発 支 援 環 境 の 研 究 RIA(Rich Internet Applications)と は 、動 的 な Web ペ ー ジ を 用 い た 高 機能かつインターネットを経由してサービスを行うアプリケーションで あ り 、大 規 模 な サ ー ビ ス を 行 う た め に は Web ペ ー ジ の 外 形 的 な デ ザ イ ン と内部処理とを分離することが極めて困難である。そのため、アプリケ ー シ ョ ン の 設 計 者 、開 発 者 は Web デ ザ イ ナ と 何 度 も や り 取 り を し な が ら 開発を進めざるを得ない。更に、現実のアプリケーションでは運用に入 ってからの変更・修正が頻繁に生じることが普通であり、このような状 況 で は Web デ ザ イ ナ と 内 部 ロ ジ ッ ク の 開 発 者 と の 協 調 は 極 め て 難 し く なる。 本 研 究 は 、2008 年 度 か ら 継 続 し て 行 っ て い る も の で あ り 、こ の よ う な 状況を避けるためにオブジェクトの機能を別のオブジェクトに委譲して 処 理 を 行 わ せ る デ レ ゲ ー シ ョ ン と よ ぶ 技 術 を 用 い て 、大 規 模 な RIA ア プ リ ケ ー シ ョ ン を Web デ ザ イ ナ と は 独 立 に 設 計・実 現 す る た め の 枠 組 み を 開発した。 Web デ ザ イ ナ は 内 部 ロ ジ ッ ク と は 独 立 に 、ユ ー ザ の 利 便 性 が 高 く な り 、 か つ デ ザ イ ン も 優 れ た Web ペ ー ジ を 作 り 上 げ る が 、ア プ リ ケ ー シ ョ ン 開 発者はこのページから例えばボタンをクリックして起動される処理を内 部ロジックとして開発し、それらを相互に結びつける必要がある。この と き 静 的 な Web ペ ー ジ で あ れ ば 問 題 は な い が 、例 え ば ボ タ ン が 回 転 し な がら移動し、その間に内部ロジックを実行するというような動的なペー ジを作ると、ページのデザイン部分とロジックの部分を完全に分離する ことが難しくなる。本研究で実現したフレームワークは、このような状 況であってもページのデザインと内部ロジックを完全に分離して開発で き、それらを相互に結合するための簡単な宣言を追加するだけで済むよ う に し て 、大 規 模 な RIA ア プ リ ケ ー シ ョ ン の 開 発 及 び 保 守 を 効 率 よ く 行 え る よ う に し て い る 。実 際 の RIA ア プ リ ケ ー シ ョ ン を こ の フ レ ー ム ワ ー クを利用して開発したとき、デレゲーションのためのコードを自動的に 追加することから、処理のオーバヘッドが心配されたが、評価結果は無 視 で き る 程 度 の 処 理 量 増 加 に 留 ま り 、十 分 実 用 に な る こ と が 確 認 で き た 。 こ こ ま で の 成 果 に よ っ て 、モ ジ ュ ー ル の 独 立 性 を 保 ち な が ら RIA ア プ リケーションを開発する手段を提供できたが、それでもなおソースコー ドの記述量が多く、コーディング規約として守らなければならない制約 が多いことから、開発者の労力をさらに軽減するためアスペクト指向の 概念を利用した枠組みを新たに開発する研究を行った。アスペクト指向 は、オブジェクト指向設計ではカバーしきれないオブジェクト横断的な 処理を、オブジェクトの記述とは別のモジュールで宣言的に記述し、そ の結果必要になる処理をオブジェクト記述に自動的に組み込む (weaving と よ ぶ )こ と に よ っ て 、 複 雑 な プ ロ グ ラ ム の 設 計 、 開 発 、 保 守 の 効 率 を 改 善 し よ う と す る も の で 、 本 研 究 で は AspectFX と 名 付 け た 枠 組みを開発した。 (2) ジ ェ ス チ ャ イ ン タ フ ェ ー ス の 研 究 iPhone を 初 め と す る ス マ ー ト フ ォ ン や タ ッ チ パ ネ ル 端 末 の 急 速 な 普 及によって、ジェスチャインタフェースが再び脚光を浴びている。従来 のタッチペンを用いたインタフェースに比べ、指しかも複数の指を同時 に使ったマルチタッチインタフェースや装置そのものを振る動作による インタフェースなど、はるかに広範な可能性が広がり、タッチパネルデ ィスプレイの性能向上もあって今後更に広く使われる可能性が大きい。 ゲーム機ではすでに体全体を使ったジェスチャインタフェースが実用化 されている。 一方、これらの機器に対するシステム開発者側を見ると従来と同じく インタフェース部分をそれぞれがコーディングしている。ジェスチャの 定義とその検出、対応する操作や機能を動的に結合する中間層を実現す ることによって、機器側(ハードウェア)とアプリケーションソフトウ ェアをゆるく結合することができ、ユーザが機器を使うときに自分の好 みでインタフェースを変更できるようになる。例えば、スマートフォン でアプリケーションの起動がアプリケーションアイコンのダブルタップ に割り当てられているとき、ユーザカスタマイズ機能としてこの操作を 2 本指のシングルタップに変更するというようなことが、簡単に実現で きる。 本 研 究 で は 、 iPhone の iOS の 下 で こ れ を 実 現 す る 中 間 層 を 開 発 し 、 実機を用いた実験によって効率には全く問題がないことを実証した。全 く 同 様 の ア プ ロ ー チ に よ っ て Android な ど の 他 の OS に つ い て も 対 応 す ることを計画している。 (5)電子メディアと実物体の複合空間における協調作業支援の研究 (1) テ ー ブ ル ト ッ プ イ ン タ ー フ ェ ー ス と 仮 想 空 間 の 連 携 に よ る 演 出 プ ラ ンニング支援 (a) 背 景 近年、情報技術の発達により、コンピュータとのインタラクションの 方法のひとつとして、操作を直感的に知覚できるインタフェースが注目 されてきている。例えば、指でテーブル型のディスプレイに触れるなど して操作を行うテーブルトップインタフェースや実物のデバイスに直接 触れることでデジタル情報を操作するタンジブルユーザインタフェース が 例 と し て 挙 げ ら れ る 。同 様 に 、表 現 方 法 と し て 、3次 元 情 報 の 利 用 が 盛 んになっている。テーブルトップインタフェースはテーブルを囲むこと で、複数ユーザによる対面での操作環境を提供することができ、協調作 業 や 協 調 学 習 を 支 援 す る 環 境 を 構 築 す る の に 適 し て お り 、3 次 元 情 報 は 、 実空間にできない事を補助するほかに、臨場感の向上や理解の手助けを 施すため様々なデバイスに取り入れられている。 一 方 で 、本 研 究 で は 演 劇 創 作 に お け る 演 出 の プ ラ ン ニ ン グ に 着 目 し た 。 演出のプランニングでは経験のない者にとっては舞台演出を総合的にイ メージすることは容易ではない。また、そういった芸術的な創作活動を 支 援 す る 情 報 シ ス テ ム の 現 状 と し て は 、PCを 用 い た パ ー ソ ナ ル な シ ス テ ムか、ストーリーテリングの支援を行うシステムがほとんどで、演出の プランニングにおける協調作業には着目していない。 (b) 研 究 コ ン セ プ ト 演出のプランニングの際には、異なる役割を持った様々な人が協調的 に議論を重ねて舞台演出を決定していく。そのため本研究では、システ ムを操作したユーザが自身の作業だけでなく、他者の作業を意識しなが らタスクを進められるようなイメージ共有支援を行うために仮想空間を 利用し、仮想空間にて演出の進捗を確認する際に共通のイメージを持て るように設計する。テーブルトップインタフェースの実空間で演劇の舞 台再現を行い、仮想空間を用いて作業内容を表示する。仮想空間は自分 以外の作業も反映されるために、自分の操作時に他者の行動を視認可能 である。また、仮想空間は共通のディスプレイに表示するため、ユーザ が舞台を見る視点に左右されない共通のイメージが作成される。これら によって演出アイデアをユーザ間で共有しながら協調的に議論を重ねて いくことが出来る。さらに、テーブルトップインタフェースはテーブル トップを各ユーザが囲むことで、複数ユーザが関わる協調作業を支援す る場合に役立つことが指摘されている。本研究においても、演出のプラ ンニングのために複数ユーザが演出を議論する場として、テーブルトッ プインタフェースが適していると考える。 (c) シ ス テ ム 構 成 コ ン セ プ ト に 基 づ い て 、 本 シ ス テ ム は 図 50に 示 す よ う に テ ー ブ ル ト ッ プ イ ン タ フ ェ ー ス と し て DiamondTouchを 用 い る 。 ユ ー ザ は 微 弱 な 電 流 の 流 れ る シ ー ト に 座 っ た 状 態 で 操 作 を 行 う 。 DiamondTouchの テ ー ブ ル 表 面に指で触れると身体に微弱な電流が流れ、その電流から接触検知とユ ーザ識別が可能なインタフェースである。テーブルトップ上の画像は大 型ラックの上部に設置されたプロジェクタから投影される。テーブルト ッ プ 上 で は 実 物 体 の 操 作 も 可 能 と す る 。ま た シ ス テ ム 制 御 用 の PC、仮 想 空間を表示するためのディスプレイをそれぞれ一台用意した。 図 50: システム構成 (d) シ ス テ ム 概 要 提 案 シ ス テ ム の 特 徴 は 、 1.実 空 間 と 仮 想 空 間 に お け る 舞 台 演 出 の 再 現 に よ る イ メ ー ジ・イ メ ー ジ 共 有 支 援 2.実 物 体 に よ る 直 感 的 な 仮 想 物 操 作 である。以下ではその特徴について具体的に述べる。 ・実空間と仮想空間における舞台演出の再現によるイメージ支援 本システムを用いてユーザは、舞台上の演出効果として、役者の立ち 位置、舞台、音響の3種類の再現と作業者が演出付け中にカメラワーク を利用できる。舞台演出の中には、照明効果と背景や舞台といった大道 具による演出も含まれる。また、背景設定とカメラワークは仮想空間内 でのみ利用可能である。本システムでは、テーブル上の操作パネルを利 用 し て 演 出 付 け が 可 能 で あ る ( 図 51) 。 図 51: テ ー ブ ル ト ッ プ 上 操 作 画 面 テーブルトップ上で舞台担当は、床板の選択、全体照明、環境光の色 設定、スポットライト、背景の選択(仮想空間内のみ反映)が可能とな る。またカメラ担当は、左側・正面・右側・真上の4つの定点カメラの 切 り 替 え 、 ズ ー ム イ ン /ア ウ ト 、 カ メ ラ 角 の 微 調 整 が 可 能 と な る 。 音 響 担 当 は 、 再 生 、 巻 き 戻 し 、 一 時 停 止 、 音 量 の 制 御 、 音 響 種 類 を ME( Music Effect:音 楽 )と SE( Sound Effect:効 果 音 )か ら 選 択 、効 果 音 の 始 ま り と 終わりのエフェクト選択が可能となる。音響を除く演出付けは、実空間 だ け で な く 、 仮 想 空 間 へ も リ ア ル タ イ ム で 反 映 さ れ る ( 図 52) 。 そ の た め、仮想空間と実空間において照明の状態を再現したり、背景の確認を しながら舞台を構成していくことが可能となった。また、従来舞台演出 の再現中の作業が個人作業になりがちであったが、仮想空間によってユ ーザの配置に左右されない同一視点を得ることができ、他者の操作を意 識しながらの演出付けが可能となった。カメラワークの利用をすること で、客席を意識した演出付けが可能となる。 図 52: 仮 想 空 間 と テ ー ブ ル ト ッ プ 上 の 実 物 体 ・実物体による直感的な仮想物操作 仮想空間とテーブルトップインタフェースの連携を実現することで、 操作はテーブルトップ表面を指で触る、実物の人形を動かすといった直 感 的 で 理 解 が 容 易 な 操 作 の み で 仮 想 物 を 操 作 可 能 と な っ た 。こ れ に よ り 、 仮想空間内の特定の仮想物を操作可能になり、さらに方向を反映するこ と が で き る ( 図 53) 。 こ の 特 徴 は 、 仮 想 空 間 内 で 、 実 空 間 で の 人 形 の 移 動や照明の変更などの作業を確認可能とした。 図 53 実物体の操作方法 これらの機能を利用することにより、照明や音響、大道具などの演出を 実空間と仮想空間で総合的に再現できるため、舞台上のイメージを具体 的に把握しながら演出を考えることが出来るだけでなく、ユーザ同士で お互いのアイデアを共有しながら演出に関する議論を行うことができる。 結果として、システムによる演出イメージ支援により演劇に精通してい ないユーザでも、演劇創作における作業過程のうち演出のプランニング について、支援を受けながら操作する事が可能となった。 (6)言語情報を利用したシーン推定に基づく物体認識技術 (1) 背 景 近 年 、 デ ジ タ ル カ メ ラ や カ メ ラ 付 携 帯 電 話 等 の 普 及 、 PC の 低 コ ス ト 化 に 伴 い 、 PC や イ ン タ ー ネ ッ ト 上 に デ ジ タ ル 画 像 が 大 量 に 蓄 積 さ れ る ようになっている。しかし、画像が膨大になるにつれ全ての画像を人手 で処理する事が困難になっている。そこで画像の自動分類やアノテーシ ョンに対するニーズが高まっている。 これらを背景として画像中の物体の属するクラスを一般的な名称で識 別する一般物体認識と呼ばれる研究分野が盛んになっている。一般物体 認識を困難にしている理由として、一般的な名称が表す同一クラスの範 囲が広い事、同一クラスに属する対象のアピアランスの変化が極めて大 きい事等が挙げられる。例えば車というクラスを認識する場合には、自 転車やトラック、定義によっては飛行機等も車というクラスに含まれて しまうこともある。このような問題に対応するために物体やカテゴリー の表現の研究が行われてきた。また、アピアランスの変化に対応するた めに、物体の写り方の変化に頑健な特徴量検出・記述や得られた特徴量 を元に分類を行う識別器等の研究が行われてきた。 しかし、一般物体認識に属する多くの先行研究では、一枚の画像中で 他の物体の存在を考えていない。このような各クラスを独立に扱ってい る手法では、一般的な画像すなわち一枚の画像に対して複数の物体が写 っているような状況に適していない。 そこでコンテクストの一種である同時に写る物体同士の共起情報を用 いた研究がある。これらは物体が画像中に同時に出現する頻度を利用す る事で、アピアランス特徴量のみからでは認識が困難な物体の認識が可 能である。しかし、物体同士の共起情報を用いる事には以下の2つの問 題点が挙げられる。第一に、学習サンプル中であまり共起していない物 体同士の共起も考慮するため、識別精度に悪影響を与える可能性がある 事である。第二に、物体を新たに学習しようとする時、その物体と他の 物体との全ての共起回数を算出しなければならず負担が大きい事である。 他のコンテクストを利用した研究として、画像中の三次元的な特徴で あ る Geometric Context を 用 い た 研 究 が あ る 。こ れ ら は 画 像 中 の 領 域 の 三次元特徴を考慮する事で認識を良くする事が可能であるが、三次元特 徴もアピアランス特徴であるため、認識結果は画像から得られる特徴量 のみに依存してしまう。 そこで本研究ではコンテクストとして画像のシーンを用いる事で物体 認識の精度を向上させる手法の提案を行う。具体的には物体とシーンと の共起を考慮する事で、学習画像中で共起していない場合でも物体同士 の共起関係を利用する新しい物体認識手法である。提案手法では物体と シ ー ン の 共 起 を Google N -gram と 呼 ば れ る 言 語 資 源 に お け る 共 起 頻 度 によって表現する。物体認識に、認識対象物体とシーンとの言語上の共 起頻度を利用することにより、その精度の向上を図っている。 提 案 方 式 を 、屋 内 、都 会 、田 舎 の 3 シ ー ン に 適 用 し た 。物 体 と し て は 、 ディスプレイ、ドア、ビル、車、道路、空、田畑、木、フローリングの 9 物体を認識対象とした。 (2) シ ー ン 推 定 に 基 づ く 物 体 認 識 手 法 提案物体認識手法では、まず一般画像を入力し、入力された画像に対 して物体認識を行う。そして、認識された物体からシーンを推定する。 その後、物体とシーンの間でニューラルネットワークが構成され、各シ ーンを尤もらしくするように物体とシーンの共起度を物体認識結果にフ ィードバックを行い、再度シーンを算出する。フィードバックが指定の 回 数 終 了 し た 後 、結 果 か ら 適 切 な 認 識 結 果 を 求 め 最 終 出 力 と す る 。以 降 , 各ステップについて詳しく説明する。 (a) 一 般 画 像 入 力 システムに一般画像が入力される。この際、全ての画像の長辺の長さ が同じになるように、正規化が行われる。 (b) 物 体 認 識 まず初回の物体認識が行われる。物体認識は、物体検出、確定処理、 領域の検出の 3 段階で行われる。以降、段階毎に説明していく。 第 1 段 階 の 物 体 検 出 は Torralba ら の ブ ー ス テ ィ ン グ を 用 い た 物 体 検 出手法を用いる。検出する物体候補は長方形枠で検出可能な車、ビル、 ドア、ディスプレイ、木としている。第2段階では検出された枠の確定 処理を行う。確定処理は1段階で検出された枠それぞれの物体としての 尤度を算出する。ここで一般的に人工物は形がその物体を表し、自然物 は色がその物体を表す傾向がある事に着目する。そこで今回、確定処理 は検出枠が人工物であるか自然物であるかで処理を分岐させる。検出枠 が 人 工 物 の 場 合 の 確 定 処 理 は bag-of-features と pLSA(probabilistic Latent Semantice Analysis) を 用 い て 行 う 。ま ず 検 出 さ れ た 枠 そ れ ぞ れ か ら SIFT 特 徴 量 を 取 得 す る 。そ し て 取 得 し た 特 徴 量 を bag-of-features に よ っ て ク ラ ス タ リ ン グ す る 。 そ の 得 ら れ た 特 徴 量 そ れ ぞ れ を Visual Word と し て pLSA に 適 用 し 、 そ の 検 出 枠 の 尤 度 を 算 出 す る 。 こ の よ う に し て 、 検 出 枠 か ら SIFT 特 徴 量 を 取 得 し 、 そ の 特 徴 量 を 用 い て 領 域 が 物体である尤度を求める事が出来る。 図 54 に 実 際 の 画 像 に よ る 例 を 示 す 。(a) が 人 工 物 の 物 体 検 出 を 行 っ た 画 像 で 、 (b) が 人 工 物 の 確 定 処 理 を 行 っ た 後 の 画 像 で あ る 。 検 出 枠 は 線 の種類がそれぞれの物体に対応しており、実線が車で破線がドア、点線 (角)がビル、長鎖線がディスプレイ、長二点鎖線が木を表している。 図 54 物体検出と確定処理 こ の 図 の 例 で は 車 と し て 検 出 さ れ た 枠 か ら SIFT 特 徴 量 を 取 得 す る 。 そ の 特 徴 量 を 元 に 、検 出 枠 が 車 を 表 す 尤 度 P(車 ) を pLSA に よ っ て 算 出 す る 。 こ の 操 作 を そ れ ぞ れ の 検 出 枠 に 対 し て 行 い 、 P(z)が 閾 値 以 上 で あ れ ば そ の 物 体 領 域 と し て 採 用 す る 。検 出 枠 が 自 然 物 の 場 合 の 確 定 処 理 は 、 検 出 枠 中 の 色 相 を 用 い て 行 う 。図 55 の (c) が 自 然 物 の 物 体 検 出 を 行 っ た 画 像 で 、 (d) が 自 然 物 の 確 定 処 理 を 行 っ た 後 の 画 像 で あ る 。 自 然 物 の 確 定処理では検出枠中で、条件に適合する画素が検索枠内の画素に占める 割 合 を 尤 度 P(z) と す る 。 例 え ば 木 で あ れ ば 色 相 が 緑 を 表 す よ う な 画 素 となる。人工物と同様に尤度が閾値以上であれば、その物体領域として 採用する。第3段階では領域的に認識する物体を検出する。検出する領 域は、空、道路、田畑、フローリングとする。 (c) シ ー ン 推 定 物体認識の結果を元にシーン推定を行う。本研究ではシーンとして屋 内、都会、田舎の 3 種類を扱っている。 図 55 に 物 体 と シ ー ン 間 の ニ ュ ー ラ ル ネ ッ ト ワ ー ク モ デ ル を 示 す 。 こ の モ デ ル は ニ ュ ー ラ ル ネ ッ ト ワ ー ク に お け る IAC(Interactive Activation and Competition) モ デ ル を 基 本 と し た 構 造 に な っ て い る 。 物 体 と ス コ ア の 共 起 度 は Google N-gram 検 索 シ ス テ ム か ら 特 定 の 物 体 名 と シ ー ン 名 の 共 起 頻 度 を 利 用 す る 。 Google N -gram は Web 上 の 膨 大な文章をデータベース化してある言語資源である。ここから特定の物 体 名 と シ ー ン 名 の 単 語 が Google N-gram の 中 で 何 回 共 起 し て い る か を 取得する。 図 55 物体とシーン間のニューラルネットワークモデル (d) フ ィ ー ド バ ッ ク 得られた物体認識の結果に対して、シーンを尤もらしくするようにフ ィードバックを行う。フィードバックはそれぞれの検出枠が持つ尤度に 物体とシーンの共起度を掛ける事で行う。 (e) 判 定 前工程で求めたシーン確信度を用いて最終出力を決定する。最終出力 は物体の種類によって処理を分岐する。物体が人工物の場合には1番高 い確信度を持つシーンとして一定回数フィードバックした後、低い閾値 以上の物体を採用する。その後、2番目に高い確信度を持つシーンとし て一定回数フィードバックした後、高い閾値以上の物体を採用する事で 人工物の最終出力とする。 (3) 実験 フィードバックの有効性の評価を行った。評価は検出枠が物体を捉え ら れ て い る ( TP:True Positive )、 検 出 枠 が 物 体 を 捉 え ら れ て い な い ( FP:False Positive)の 2 つ の 指 標 の 数 に よ っ て 行 っ た 。 検 出 枠 が 物 体 を捉えられている場合は、枠が物体を重心で捉えている、あるいは枠内 に全体像が捉えられている場合のいずれかであれば捉えられているとし た 。領 域 的 に 表 現 さ れ る 物 体 で は 、正 解( Ground Truth)全 体 を 捉 え ら れ て い た 場 合 と し た 。 使 用 画 像 は MSRC,PASCAL, LabelMe, Web か ら 取 得 し た 画 像 200 枚 と し た 。 物 体 認 識 精 度 の 結 果 を 表 3 に 示 す 。 同 表 よ り 、 フ ィ ー ド バ ッ ク を 行 う 事 に よ り TP の 値 を 維 持 し つ つ 、 FP の 値 を抑える事が確認できる。 表 3 物体認識精度 TP:True Positive FP:False Positive 物体検出のみ 580 2,673 物体検出+確定処理 461 602 物体検出+確定処理+フィードバック 462 405 (7)高度信号処理技術を用いた映像メディアの解析と生成技術 (1) 一 枚 の 手 ぶ れ 画 像 か ら の 画 像 復 元 近年のデジタルカメラの爆発的普及により、一般の人でも手軽に写真 を撮ることが可能となった。しかし撮影の際、露光時間中にカメラと被 写体の相対的な位置関係が変化することにより写真がぶれてしまい画像 の質が低下してしまう問題がある。このぶれを除去するために、光学式 の手ぶれ補正と呼ばれる、ハードの側面でぶれを補正する手法がしばし ば使われている。これは、カメラのぶれの方向と反対方向(ぶれを軽減 する方向)に撮像素子を動かす機構によりぶれを軽減するものである。 しかし、この方法はぶれ幅が大きすぎると効果が無く、またコストがか かるという問題がある。 そこで、一枚のぶれが含まれる画像から、ソフトウェアを用いてぶれ を除去する研究が近年盛んに行われている。特に一次元的(直線状)に ぶれた画像に対してぶれを除去する手法は数多く提案されている。しか し 、 現 実 に 発 生 す る ぶ れ は 図 56 に 示 さ れ る よ う な 二 次 元 の ぶ れ で あ る ため、このようなぶれを適切に除去できる手法の確立が望まれている。 PLUMB は 、 直 線 的 な ぶ れ を い く つ か 組 み 合 わ せ た 二 次 元 ぶ れ が 含 ま れ る画像のぶれ除去に有効な手法である。この手法は、二次元ぶれを幾つ かの直線に分け、それぞれの成分のぶれの方向、長さを求め、最後に最 適な組み合わせを求めるというものである。しかし、この手法にも問題 点が二つある。一つは計算コストがかかりすぎること、二つ目は直線の 組み合わせのぶれにしか対応していないことである。 本研究ではこの二つの問題を解消するべく、研究を行っている。これ ま で の 調 査 か ら 、 計 算 コ ス ト の 高 さ が 、 方 向 を 推 定 す る 際 に 0°~ 179° の全方向に対して処理を行っていることに起因することを明らかにした。 そ の た め 、 代 表 的 な 四 つ の 角 度 (0°,45°,90°,135°)の み で 精 度 の 高 い 復 元 を実現する方法を模索している。この考えに基づき計算コストの問題を 解決した後に、より多様なぶれに対応できるように拡張した手法を考案 することが、今後の計画である。 図 56 原 画 像( 左 )に 対 し 、図 中 央 に 示 さ れ る 軌 跡 を 持 つ 二 次 元 ぶ れ が 加わることにより、右図のようなぶれ画像が生成される。 (2) ブ ロ ッ ク リ フ テ ィ ン グ 分 解 を 用 い た 整 数 高 速 フ ー リ エ 変 換 の 設 計 ディジタル信号処理技術は近年急速に進歩し、現在では通信や音声、 画像処理などの化学、工学の幅広い分野で広く用いられ、今日の高度情 報社会では必須の技術となっている。このディジタル信号処理における 基 本 的 な 理 論 の 1 つ に 離 散 フ ー リ エ 変 換 ( DFT) が あ り 、 標 準 画 像 符 号 化 の JPEG や MPEG な ど に お け る 符 号 化 の ベ ー ス で あ る 離 散 コ サ イ ン 変 換 ( DCT) の 原 理 は DFT を 基 に 考 え ら れ て い る 。 デ ィ ジ タ ル 信 号 処 理 の 基 本 理 論 で あ る DFT は 、 過 去 に も 多 く の 研 究 が な さ れ て お り 、計 算 コ ス ト を 大 き く 削 減 し た 高 速 フ ー リ エ 変 換( FFT) や 整 数 の ま ま 変 換 す る 整 数 高 速 フ ー リ エ 変 換 ( Int-FFT) な ど が 提 案 さ れ て い る 。 Int-FFT は 、 リ フ テ ィ ン グ 構 造 と 呼 ば れ る 手 法 で 可 逆 性 を 維 持するが、高速構造の維持とフィルタ性能の低下防止のために正規化の 工程を省いている。このとき、正規化することでダイナミックレンジが 小さくなり、メモリの消費量を抑えることができる。しかし可逆性を維 持するためには、リフティング構造における乗算直後にラウンディング 処理をして整数に変換する必要があり、そのラウンディング誤差が問題 となる。特に分割数が増加するとリフティング数が増加し、つまりはラ ウ ン デ ィ ン グ 誤 差 が 増 加 し 、 Int-FFT の フ ィ ル タ 性 能 が 下 が る 。 そこで本研究では、ブロックリフティング分解と呼ばれる構造を適用 さ せ る こ と で 、正 規 化 さ れ た Int-FFT の ラ ウ ン デ ィ ン グ 誤 差 を 低 減 さ せ る手法を考案した。ブロックリフティング分解とは、従来のリフティン グ係数がスカラ係数であったのに対し、行列係数を使用する(演算をま とめる)ことで、ラウンディング処理の回数を削減し、その誤差を低減 する手法である。また、この構造は正規化を考慮していることから、従 来の手法よりも演算メモリの削減を実現した。 ブ ロ ッ ク リ フ テ ィ ン グ 分 解 を 適 用 し た Int-FFT の 性 能 評 価 を す る た め に 、従 来 の Int-FFT と の ラ ウ ン デ ィ ン グ 誤 差 の 比 較 及 び リ フ テ ィ ン グ 係 数 を 有 限 語 長 に 近 似 し た 際 の 量 子 化 誤 差 の 比 較 を 行 っ た 。 図 57、 図 58 に示したように、結果として提案法の方が誤差を削減できている。 14000 18 提案法 10000 12 10 8 6 4 8000 6000 4000 2 2000 64 12 8 25 6 51 2 10 24 16 32 4 8 2 0 0 従来法 12000 従来法 提案法 14 変換誤差 ラウンディング誤差 16 分割数N 図 57. ラ ウ ン デ ィ ン グ 誤 差 の 比 較 0 6 7 8 9 10 11 12 13 14 15 量子化ビット数n 図 58. 量 子 化 誤 差 の 比 較 (3) 色 領 域 分 割 に よ る エ ッ ジ 復 元 に 基 づ く 画 像 の イ ン ペ イ ン テ ィ ン グ インペインティングはデジタル画像の一部を修復する技術として考案 され、近年では画像内の特定の物体を除去する技術としても盛んに研究 が 行 わ れ て い る 。代 表 的 な 手 法 と し て パ ッ チ イ ン ペ イ ン テ ィ ン グ が あ る 。 そ れ は 9×9 ピ ク セ ル 程 度 の 小 さ い 領 域 を パ ッ チ と 呼 び 、復 元 対 象 の 領 域 において領域の境界線をまたぐようにパッチを想定し、存在する領域よ り確からしい別パッチを抜き出してそのパッチを復元する。この処理を 境界から内側に徐々に繰り返し画像復元を実現する。この従来法は模様 などテクスチャの復元に非常に効果的であると知られている。しかし、 この手法では復元対象の内部に本来曲線が含まれている場合にそれを修 復することが困難であるという問題点が存在している。 本研究は、まず修復領域内に存在する曲線を復元し、次にこの曲線に 沿ってパッチインペインティングを適用する手法を提案した。また、ベ ジェ曲線の曲線描画アルゴリズムを用ることで単純な弧を描く曲線だけ ではなく、波を描くような曲線の復元も同時に可能としたため、様々な 画像の復元が可能となった。さらに本提案法では、原画像を幾つかの類 似する色ごとのグループに分類した色領域分割画像を用いることにより、 Ω 周辺に復元候補の曲線が多数存在する場合も、分類された色情報を用 いて候補を絞り込むことで曲線をより確からしく復元できた。同様に、 色領域分割画像を用いて、類似パッチの候補を絞り込むことで本提案法 はより高速に、より自然な修復を行うことができた。 (a)従 来 法 (b) エ ッ ジ 復 元 画 (c) 提 案 図 59: 実 験 結 果 本 提 案 法 と 従 来 法 の 復 元 結 果 の 比 較 を 図 59 に 示 す 。 本 提 案 法 は 従 来 法に比べ、より確からしく境界をつなぎ、より自然に復元されているこ とがわかる。従来法では事前に曲線の復元を行っていないため、境界線 の一つが滑らかな曲線を描かず、段々になっている。また、もう一つの 境界は互いに繋がることなく自然な復元が出来ていない。本提案法を用 いた結果ではインペインティングを行う前に曲線を復元しており、さら にその曲線に沿ったインペインティングを行っているため、従来法では 困難だった曲線を含む修復領域の復元を可能にした。また色領域分割を 用いることで処理時間の大幅な減少と修復領域の自然な修復を実現した。 (4) 音 響 フ ィ ル タ バ ン ク と 平 均 調 波 構 造 を 用 い た 音 高 推 定 複数の楽器音が混合された音響信号から各音高・音色等を解析する技 術は自動採譜・音楽検索等の応用が可能であり広く研究されている。そ の 1 つ に 平 均 調 波 構 造 を 利 用 し た 手 法 が あ る 。各 楽 器 が 独 自 に 持 つ 調 波 構造を楽曲から算出し、それに基づき楽曲全体の成分を楽器ごとの成分 に分類、音高を推定する手法である。この手法は単に鳴っている音がど の音階なのかを特定するだけでなく、それがどの楽器の音なのかまで判 断できる点で優れているが、各楽器の調波構造を算出する段階での精度 が手法全体の精度を大きく左右してしまうという問題点がある。はじめ の段階で音の重なりなどによって埋もれている音があった場合、正確な 調波構造を算出できず、分類結果が劣化してしまう。したがって、入力 信号をいかに音高を推定しやすい形状にするかが求められている。 本提案法は前処理に音響フィルタを適用して、入力信号を音高が推定し やすい形状に変換、従来法の精度を向上させた。音響フィルタは音の特 徴である調波構造に沿って入力信号を強調できるフィルタであり、入力 信号を音高推定しやすい形状に変換できる。それにより従来法の問題点 を克服し、より高い精度で調波構造を算出することができる。 入力信号を音高推定しやすい形状に変換しない従来法では、周波数域に おいて埋もれてしまって抽出できない音が多く、調波構造が正確に抽出 できず、音を正しく分離できなかった。一方、音響フィルタを用いた提 案法は抽出できない音が減少したことによって、高精度な調波構造を算 出でき、音高推定の精度向上を実現した。以下にグランドピアノとベー ス の 2 楽 器 で 構 成 さ れ る Beatles の 「 Lucy in the sky with Diamonds」 という曲について音高推定を行った結果を示す。上部の楽譜が提案法の 結果、下部が楽曲の正しい楽譜を示している。赤い丸が正しく推定でき な か っ た 場 所 を 示 し て い る 。 図 60、 61 か ら 見 て 取 れ る よ う に 2 つ の 楽 器 の 音 が 混 合 す る 音 源 に お い て 、 提 案 法 で は 10~20%の 誤 差 で そ れ ぞ れ の楽器の音を抽出し区別することができた。 図 60. グ ラ ン ド ピ ア ノ 図 61. ベ ー ス (5) 構 造 的 レ ギ ュ ラ リ テ ィ を 課 し た ロ ス レ ス ウ ォ ル シ ュ ・ ア ダ マ ー ル 変 換 に 基 づ く 整 数 DCT の 改 善 近年、ブロードバンドの普及やインターネットコンテンツの発展によ り、より高圧縮で高品質なデータが必要とされている。そこで、画像符 号 化 に お け る JPEG2000 の よ う な ロ ッ シ ー・ロ ス レ ス 統 合 符 号 化 が 注 目 さ れ て い る 。 離 散 コ サ イ ン 変 換 ( DCT) は 、 世 界 標 準 で あ る JPEG や MPEG と い っ た 変 換 符 号 化 の 変 換 部 に 広 く 採 用 さ れ て い る 手 法 で あ る が 、DCT を そ の ま ま 用 い た 場 合 、復 元 デ ー タ に 損 失 を 生 じ る ロ ッ シ ー 符 号 化 し か 実 現 で き な い 。そ こ で 、リ フ テ ィ ン グ 構 造 と い う 構 造 を 用 い て 、 損 失 の な い ロ ス レ ス 符 号 化 を 実 現 で き る 整 数 DCT( IntDCT) が い く つ か提案されている。また一方で、そのような変換はハードウェア化する 際、フィルタ係数に低ビットの有限語長を割り当てる必要がある。しか し 従 来 の 整 数 DCT の 係 数 に 低 ビ ッ ト 語 長 を 割 り 当 て る と 、 画 像 符 号 化 のための変換で重要となるレギュラリティを損ない、低ビットレート時 にチェス盤歪みというエラーが発生するという問題がある。 本研究では、昨年度に考案した構造的レギュラリティを課した整数 DCT の 改 善 を 行 っ た 。従 来 、水 平 方 向 と 垂 直 方 向 の 処 理 は 別 々 に 行 わ れ るが、各リフティングステップにおいて水平・垂直両方向を同時処理す る構造を提案した。その結果、従来の手法よりも圧縮効率の良い整数 DCT を 実 現 し た 。 設 計 し た 整 数 DCT の 性 能 評 価 を す る た め 、 低 ビ ッ ト 語 長 を フ ィ ル タ 係数に割り当て、ロッシー・ロスレス統合画像符号化に適用した。表 4 は 4 ビット語長を割り当てた時の ロスレス画像符号化のシミュレー ション結果である。またロッシー 画像符号化時の実際の再構成画像 を 図 62 に 示 す 。 い ず れ に お い て 表 4. ロ ス レ ス 画 像 符 号 化 比 較 も本提案法が同等以上の結果を示 ( bit rate [bpp]) していることが分かる。 図 62. ロ ス レ ス 画 像 符 号 化 比 較 ( bit rate [bpp]) (6) 直 接 リ フ テ ィ ン グ を 用 い た M 分 割 パ ラ ユ ニ タ リ フ ィ ル タ バ ン ク (5) で は 変 換 符 号 化 で 最 も 実 用 的 な DCT の 統 合 符 号 化 へ の 応 用 に つ い て 述 べ た が 、DCT よ り 高 圧 縮 率 を 実 現 で き る パ ラ ユ ニ タ リ フ ィ ル タ バ ン ク ( PUFB) と い う も の が あ り 、 そ の 統 合 符 号 化 へ の 応 用 も い く つ か 提案されている。しかし、それらの構造の複雑さから、ラウンディング 数の増加によるフィルタ特性の劣化や、対称性などの制約のための符号 化特性の劣化など、どれも実用的であるとは言い難い。 図 63. Direct-lifting based paraunitary filter bank (DLPUFB) 本 研 究 で は 、 PUFB の よ り 実 用 的 な リ フ テ ィ ン グ 構 造 を 提 案 す る 。昨 年 度 に 整 数 DCT の 研 究 に お い て 提 案 し た 直 接 リ フ テ ィ ン グ 構 造 を 用 い る 。す る と PUFB を 構 成 す る 直 交 行 列 を そ の ま ま リ フ テ ィ ン グ 係 数 と し て 利 用 で き 、 ラ ウ ン デ ィ ン グ 数 を 大 幅 に 削 減 し 、 PUFB の そ の も の が 持 つ フ ィ ル タ 特 性 を 従 来 法 よ り も 維 持 す る こ と が で き る 。 図 63 に そ の 構 造を示す。 設 計 し た DLPUFB の 性 能 評 価 を す る た め 、 ロ ッ シ ー ・ ロ ス レ ス 統 合 画 像 符 号 化 に 適 用 す る 。 表 5、 6 は そ れ ぞ れ ロ ス レ ス 画 像 符 号 化 、 ロ ッ シー画像符号化のシミュレーション結果である。いずれにおいても本提 案法が従来法と同等もしくはそれ以上の結果を示した。 表 5. ロ ス レ ス 画 像 符 号 化 比 較 ( bit rate [bpp]) 表 6. ロ ッ シ ー 画 像 符 号 化 比 較 ( PSNR [dB]) (7) Edge-Directed Smoothness Filter フ ィ ル タ を 用 い た 観 測 モ デ ル に 基 づく画像拡大法 ハイビジョン機器の普及により、小さな画像をより大きな画像へと拡 大 す る 画 像 拡 大 技 術 が 重 要 性 を 増 し て い る 。 Bicubic 法 な ど の 古 く か ら 行われている画像拡大手法は、しばしば拡大画像にぼけが発生したり、 物体の輪郭などのエッジがジグザグ状に拡大されたりするアーチファク トの発生に悩まされていた。これらの問題を解決するために、画像中の エッジに着目し、その構造を利用することでより好ましい画像拡大を行 う手法が、近年数多く提案されている。しかしこれらの手法は、計算コ ストが高く、またエッジ付近において不自然な拡大が行われる場合があ り 、よ り 高 速 に 安 定 し た 拡 大 画 像 を 得 る た め の 手 法 が 必 要 と さ れ て い る 。 本研究では、エッジ方向の滑らかさを持ち、エッジ付近の不自然さを 抑えた拡大画像を高速に生成する画像拡大法を提案した。提案法は、未 知の拡大画像と原画像との関係を観察モデルと呼ばれるモデルを用いて 定式化し、原画像から最も確からしい拡大画像を推定することで拡大画 像を得る。この推定の過程で、拡大画像に対してエッジが滑らかに構成 されるような制約を加えた。本研究ではこの制約を実現するために、 Edge-Directed Smoothness Filter と 呼 ば れ る エ ッ ジ 方 向 の 滑 ら か さ を 測るためのフィルタを新たに導入した。 提案法を用いることで、従 来法に比べアーチファクトの 発生が少なく、エッジ方向に 滑らかな画像をより高速に得 る こ と が で き た 。 図 64 に 示 さ れ る よ う に 、 Bicubic 法 で はジグザグ状に構成されてい る縞模様が、提案手法では滑 図 64. 拡 大 画 像 の 比 較 らかに構成されていることが ( 左 ) Bicubic 法 ( 右 ) 提 案 法 分かる。また表 7 から、近年 提案されている新たな画 像 拡 大 法 で あ る NEDI 法 や SAI 法 と 比 較 し て も 、 提案法はより性能の高い 拡大を行えることが分か る。 表 7. 画 像 拡 大 性 能 比 較 ( PSNR[dB]) (8) 画 素 の 接 続 関 係 を 考 慮 し た 非 線 形 リ サ イ ズ 表示デバイスの多様化に伴い、個々に異なる表示サイズに対して画像 を適切にリサイズする技術が重要さを増している。単純な拡大縮小や画 像の一部を切り取るクロッピング処理を用いた画像のリサイズでは、人 間の顔や前景の物体などの重要な領域がひずんだり欠落したりする問題 が あ る 。近 年 新 た に 提 案 さ れ た シ ー ム カ ー ビ ン グ( SC)は 、重 要 な 領 域 を保持しながら画像のリサイズを可能にする技術として注目を集めてい る。 SC は 、 シ ー ム と 呼 ば れ る 1 画 素 の 幅 を 持 つ パ ス を 削 除 す る こ と で 、 画像幅を縮小する技術である。各画素には重要度がエネルギーとして定 められており、シームに含まれる全画素のエネルギーが最小となるシー ムが削除される。この処理を繰り返し行うことで、画像中の不要な部位 の み を 削 除 し た リ サ イ ズ 画 像 を 得 る こ と が で き る 。 し か し 、 SC を 用 い たリサイズでは、画像中の直線や曲線などの視覚的に重要な構造が維持 されず、リサイズ画像にひずみが生じる問題がある。 本研究では、画素の接続関係を考慮することで直線などの構造の維持 が可能な非線形リサイズ手法を提案した。提案法は、従来のシームカー ビングと同様に定められたエネルギー総和が最小となるシームを選択し て処理するが、画像幅の縮小は、画素を削除するのではなく隣り合う画 素の統合により行われる。また、画素の持つ構造を隣接画素間の輝度差 で 定 義 し 、接 続 関 係 を 用 い て エ ネ ル ギ ー を 計 算 す る 。こ の エ ネ ル ギ ー は 、 原画像の接続関係とリサイズ画像の接続関係の変化に応じて大きくなる た め 、原 画 像 が 持 つ 構 造 を な る べ く 維 持 す る よ う な シ ー ム が 選 択 さ れ る 。 このように提案法は、リサイズ処理において常に原画像の持つ情報を参 照することで、ひずみの蓄積を抑えたリサイズを可能にした。 図 65 に 示 さ れ る よ う に 、従 来 の SC で は 画 像 中 の 直 線 が ひ ず ん で し ま い、視覚的な違和感の大きな画像が生成された。一方で提案法を用いて 得られたリサイズ画像では、画像中の直線構造が維持されており、より 自然なリサイズ画像を得ることができている。 図 65. リ サ イ ズ 結 果 の 比 較 。( 左 ) 原 画 像 ( 中 央 ) 従 来 法 ( 右 ) 提 案 法 (9) 離 散 ウ ェ ー ブ レ ッ ト 変 換 の 非 可 分 型 2 次 元 リ フ テ ィ ン グ 構 造 を 用 い た方向適応型画像符号化 近 年 の PC や 通 信 網 の 高 性 能 化 、 高 機 能 な 携帯端末の普及に伴い、マルチメディア(音 声・画像・動画像など)の情報量は急速に増 加し続けている。そのため、それぞれのマル チメディアに対してより高度な情報圧縮技術 が求められている。 離 散 ウ ェ ー ブ レ ッ ト 変 換( DWT)は 画 像 圧 縮に有効であることが知られており、標準画 像 符 号 化 JPEG2000 の ア ル ゴ リ ズ ム に 採 用 図 66. DWT に よ る さ れ て い る 。JPEG2000 は JPEG に 比 べ 、よ 画像符号化 り 高 圧 縮 ・ 高 画 質 を 実 現 で き る が 、 DWT の 弱 点 で あ る “方 向 分 解 能 の 欠 乏 ”と 呼 ば れ る 問 題 に よ り 、 テ ク ス チ ャ が 豊 富に含まれているような画像に対しては、十分に圧縮することができな い と い う 問 題 が あ る 。 1 次 元 変 換 で あ る DWT を 2 次 元 信 号 で あ る 画 像 に 対 し て 施 す 場 合 、 DWT を 水 平 方 向 ・ 鉛 直 方 向 に 逐 次 的 に 行 う 。 こ の 場合、変換された画像は水平・鉛直方向のみに方向性を有している為、 水平・鉛直方向以外の方向性を持つテクスチャ・コーナーなどは効率的 に 表 現 で き ず 、 圧 縮 後 の 復 元 画 像 は 図 66 の 様 に 視 覚 的 に 劣 化 し て し ま う。 (原画像では斜めの縞模様であるテクスチャが碁盤の目状に変化して し ま っ て い る ) こ れ が “方 向 分 解 能 の 欠 乏 ”に よ る 視 覚 的 劣 化 で あ る 。 こ の 問 題 を 改 善 す る た め に 、 DWT を 用 い た 1 次 元 方 向 適 応 型 リ フ テ ィ ン グ (1D ADL)が 提 案 さ れ て い る 。 こ の 変 換 は 水 平 ・ 鉛 直 方 向 以 外 に も 図 67 の 様 に 、+45 度 、-45 度 な ど 、様 々 な 角 度 に 変 換 方 向 を 切 り 替 え ることができ、画像の特徴に合わせて適応的に方向性を持つウェーブレ ッ ト 変 換 が で き る た め 、 DWT よ り も 高 い 符 号 化 性 能 が 実 現 で き 、 か つ 視覚的に良好な画像符号化が実現できる。しかし、最適な変換方向を決 定する処理のために、多大な計算コストが必要であり、また 2 次元信号 で あ る 画 像 に 対 し て は DWT と 同 様 に 水 平 ・ 鉛 直 方 向 に 逐 次 的 に 変 換 を 施し、水平・鉛直方向時に個別に変換方向を選択した場合、2 重に変換 方 向 を 選 択 す る と い う 冗 長 性 や 、2 種 類 の 異 な る 変 換 方 向 の 選 択 に よ り 、 2 次元変換全体では所望の変換方向とは 異なってしまうという変換方向の歪みが 発生する。よって近年ではこれらの問題 点を解決する、計算・実装コストの少な い方向適応型ウェーブレット変換の実現 図 67. 1D ADL に よ る 方向適応型変換 について、盛んに研究されている。 本 研 究 で は 、 非 可 分 型 2 次 元 変 換 を 実 現 す る DWT を 基 に し た 非 可 分 型 2 次 元 リ フ テ ィ ン グ 構 造 を 提 案 し た 。従 来 の DWT 及 び 1D ADL で は 、 各 画 素 が 2 度 処 理 さ れ て い た が 、提 案 す る 非 可 分 型 2 次 元 変 換 で は 、各 画素の処理は 1 度でよい。従って、最適な変換方向を決定する処理や、 画像全体を変換する処理のために要する計算コストを削減することがで きる。更にサンプリング格子を、標準格子から斜め格子に取り替えるこ とによって方向変換を実現した。これは変換処理における最初の段階で 変換対象画素の配置を変更する事に相当し、画像の各領域内特徴に応じ て適応的に画素配置を変更する事で同一の変換処理システムを共有しつ つ適応的に様々な方向変換を実現できる。また1次元の時と異なり逐次 的変換処理を行わない為、変換方向の歪みを発生させない。 提 案 す る DWT を 基 に し た 非 可 分 型 2 次 元 リ フ テ ィ ン グ 構 造 を 用 い た 適応的方向変換の性能評価を行う為、ロスレス・ロッシー画像符号化に 適 用 し た 。表 8 は ロ ス レ ス 画 像 符 号 化 結 果 を 表 9 は ロ ッ シ ー 画 像 符 号 化 結 果 を 示 し て お り 、 図 68 に ロ ッ シ ー 圧 縮 後 の 復 元 画 像 を 示 す 。 従 来 の DWT に 比 べ 優 れ た 符 号 化 性 能 が 実 現 で き て お り 、ま た 、1D ADL と 比 較 するとロッシー画像符号化性能は ほぼ同等であったが、提案構造は 1D ADL よ り シ ン プ ル な 構 造 で あ り、計算・実装コストにおいて有 意性があることを示した。 表 8. ロ ス レ ス 画 像 符 号 化 比 較 ( bit rate [bpp]) 表 9. ロ ッ シ ー 画 像 符 号 化 比 較 ( PSNR [dB]) 図 68. ロ ッ シ ー 画 像 圧 縮 後 の 復 元 画 像 (左 )原 画 像 (中 )DWT (右 )提 案 法 (8)五感メディア協調作業下における脳機能の解析技術 (1)光 に よ る 脳 機 能 イ メ ー ジ ン グ に 関 す る 検 討 五感メディア協調作業のような、仮想環境とヒトとのインタラクショ ンが介在するディジタル支援技術の開発においては、実環境と仮想環境 における脳機能の差異を踏まえたシステム構築が重要になってくるもの と考えられる。本研究では、五感メディア協調作業下における脳機能を 解 析 す る こ と を 目 的 と し 、 近 赤 外 分 光 法 (NIRS:Near-InfraRed Spectroscopy) に 基 づ く 脳 機 能 イ メ ー ジ ン グ に 関 す る 要 素 技 術 を 展 開 す る こ と を 目 的 と し て い る 。 NIRS 脳 機 能 イ メ ー ジ ン グ は 、 使 用 環 境 や 同 時に使用する機器に対する制約が少なく、被験者が自由に動ける状態で 測 定 が 行 え る た め 、五 感 メ デ ィ ア 協 調 作 業 時 の 脳 機 能 計 測 に 適 し て い る 。 しかし、光を照射、検出するプローブを頭皮上に装着しているため、脳 機能画像は生体組織の散乱の影響によって空間分解能やコントラストが 低下するという問題が指摘されている。医療画像の分野においては、生 体組織と物理的特性が類似した物質からなる生体モデル(ファントム) を 用 い て 装 置 の 性 能 の 評 価 が 行 わ れ て い る 。 NIRS 脳 機 能 イ メ ー ジ ン グ 装置の性能評価に用いるファントムには標準的なものがまだ無いため、 今 年 度 の 研 究 で は 、 フ ァ ン ト ム を 作 製 し て NIRS 脳 機 能 イ メ ー ジ ン グ の 空間分解能とコントラストの評価を行った。 NIRS 脳 機 能 イ メ ー ジ ン グ 装 置 を 評 価 す る た め に 作 製 し た フ ァ ン ト ム を 図 69 に 示 す 。 フ ァ ン ト ム は 、 表 層 組 織 ( 皮 膚 と 頭 蓋 骨 )、 脳 周 囲 に 存 在する脳脊髄液、脳組織の 3 層で構成されている。各層は、生体組織と 光学特性値(散乱係数、吸収係数)が近い、ポリアセタール樹脂、エポ キシ樹脂、イントラリピッド溶液を用いている。脳組織を模擬したイン トラリピッド溶液中の任意位置に、エポキシ樹脂にインクを混入して吸 収係数を調整した吸収体を設置した。このことで、脳機能賦活部位で血 液量が増加することによる組織吸収の変化を模擬することができる。 図 69 NIRS 脳 機 能 イ メ ー ジ ン グ 評 価 の た め の フ ァ ン ト ム (a) 全 体 写 真 、 (b) フ ァ ン ト ム 本 体 の 構 造 、 (c) 脳 機 能 賦 活 部 位 フ ァ ン ト ム 実 験 で は 、 フ ァ ン ト ム の 底 部 に NIRS 脳 機 能 イ メ ー ジ ン グ 装置の照射プローブと検出プローブを装着し、吸収体を設置していない ときと吸収体を設置したときの各照射-検出プローブ対での検出光量を 測定した。複数の吸収体のイメージングを行うことで、プローブの配置 法 に よ る 空 間 分 解 能 と コ ン ト ラ ス ト の 差 異 を 検 討 し た 。 図 70(a)は 一 般 に 用 い ら れ て い る プ ロ ー ブ 配 置 ( 標 準 プ ロ ー ブ 配 置 )、 図 70(b)は プ ロ ー ブの密度を高くした配置(倍密度配置)における測定点(照射プローブ と検出プローブの中点)の分布と吸収体の位置を示している。標準プロ ー ブ 配 置 に お け る 測 定 点 の 間 隔 は 21.2 mm、倍 密 度 配 置 に お け る 測 定 点 の 間 隔 は 15 mm で あ る 。 吸 収 体 の 1 つ は 高 感 度 点 ( 測 定 点 直 下 ) に 配 置 し 、 他 方 の 吸 収 体 は (A)高 感 度 点 か (B)低 感 度 点 の い ず れ か 一 方 に 配 置した。トポグラフィー画像の作成は、一般の装置で用いられているマ ッピング法を用いた。この方法は、各照射-検出プローブ対で測定した 吸 収 体 の 有 無 に よ る 検 出 光 の 変 化 量 を 、対 応 す る 測 定 点 に マ ッ ピ ン グ し 、 空間的に補間を行うことで画像を作成するものである。 図 70 空 間 分 解 能 評 価 の た め の プ ロ ー ブ と 吸 収 体 の 配 置 (a) 標 準 プ ロ ー ブ 配 置 、 (b) 倍 密 度 プ ロ ー ブ 配 置 直 径 が 10 mm の 吸 収 体 2 つ を 高 感 度 点 の 直 下 に 配 置 し 、 (a)標 準 プ ロ ー ブ 配 置 と (b)倍 密 度 プ ロ ー ブ 配 置 に よ っ て フ ァ ン ト ム の ト ポ グ ラ フ ィ ー 画像を作成した結果を図 3 に示す。画像中の実線は吸収体の位置、破線 は得られたトポグラフィー画像のピークに対する半値領域を示している。 また、2 つの吸収体の中央を通る線上(画像中鎖線)における断面図を 各画像の右側に示している。得られたトポグラフィー画像を見ると、ど ちらのプローブ配置の場合でも、画像のピーク位置は吸収体を配置した 位置と一致している。ただし、吸収体のコントラストに関しては、倍密 度配置の方が、より良好な画像が得られていることが分かる。 図 71 脳機能賦活部位が高感度点にある場合のトポグラフィー画像 (a) 標 準 プ ロ ー ブ 配 置 (b) 倍 密 度 プ ロ ー ブ 配 置 直 径 が 10 mm と 20 mm の 吸 収 体 を 高 感 度 点 と 低 感 度 点 の 直 下 に そ れ ぞ れ配置して、標準プローブ配置と倍密度プローブ配置で測定した結果か ら 作 成 し た ト ポ グ ラ フ ィ ー 画 像 を 図 72 に 示 す 。2 つ の 吸 収 体 が 高 感 度 点 と低感度点にある組み合わせは、低感度点にある吸収体のコントラスト が 最 も 低 く な っ て し ま う 条 件 と 考 え ら れ て い る 。 図 72(a-1)、 72(a-2)か ら 分 か る よ う に 、 標 準 プ ロ ー ブ 配 置 で 測 定 を お こ な っ た 場 合 、 直 径 10 mm、 20 mm の い ず れ の 吸 収 体 の 場 合 で も 、 ト ポ グ ラ フ ィ ー 画 像 中 に 低 感度点にある吸収体に対応したピークが見られないことが分かる。吸収 体 が 1 つ だ け の 場 合 に は 、吸 収 体 が 低 感 度 点 に あ っ て も 吸 収 体 に 対 応 す るピークがトポグラフィー画像中に観察されていた。低感度点の吸収体 のコントラストは高感度点の吸収体に比べて低いため、相対的に低感度 点の吸収体のピークが見えにくくなっているものと解釈することができ る 。 一 方 、 倍 密 度 配 置 で 測 定 を 行 っ た 結 果 で あ る 図 72(b-1)、 図 72(b-2) を 見 る と 、吸 収 体 の 直 径 が 10 mm、20 mm の い ず れ の 場 合 で も 、2 つ の 吸 収 体 が 高 感 度 点 に あ る 場 合( 図 71)と 比 較 す る と コ ン ト ラ ス ト は 低 い も の の 、吸 収 体 の 位 置 に 対 応 し た 2 つ の ピ ー ク が ト ポ グ ラ フ ィ ー 画 像 中 に存在していることが分かる。 図 72 脳機能賦活部位が高感度点と低感度点にある場合の トポグラフィー画像 (a) 標 準 プ ロ ー ブ 配 置 、 (b) 倍 密 度 プ ロ ー ブ 配 置 (1) 吸 収 体 直 径 10 mm、 (2) 吸 収 体 直 径 20 mm 脳機能の測定においては、脳活動によって血液量が変化する部位をあ らかじめ設定しておくことはできない。したがって、2 つ以上の部位が 同 時 に 賦 活 す る よ う な 場 合 に は 、 図 71 に 示 し た よ う な 高 感 度 点 に 2 つ の活動部位が一致するという結果が得られることはまず無いと考える必 要がある。したがって、吸収体が高感度点と低感度点に存在する場合に 低感度点にある吸収体が画像中に明確に現れないような標準プローブ配 置は、複数の脳機能賦活部位が同時に発生するような測定には不向きで あると考えることができる。一方、倍密度配置の場合には、最も条件が 厳しい高感度点と低感度点に吸収体が存在したときにも、2 つの吸収体 に対応するピークが画像中に存在している。現在、光脳機能イメージン グ装置で一般的に使用されているのは標準密度配置であるが、この配置 はファントム実験の結果からも分かるように、吸収体の位置に依存する 感度むらの影響を大きく受けてしまうという問題点がある。一方、倍密 度配置にした場合、感度むらを考慮した逆問題を解くというような方法 を用いずに、一般的なマッピング法によってトポグラフィー画像を測定 しても、感度むらの影響が低減されていることが分かる。このような結 果から、将来的な光脳機能イメージング装置においては、倍密度配置が 一般的に用いられるようになることが期待される。 (9)モデルベース人間計測・認識システムの研究開発 (1) は じ め に 人間とシステムの円滑なインタラクションを実現するためには、シス テムが人間の機能、特性、状態を十分に把握した上で、適切なサービス を 提 供 す る 必 要 が あ る 。 我 々 は よ り 高 度 な Human System Interatcion の実現のため、人間を観測対象とした画像センシング技術により、人間 に関わる定性的・定量的情報を獲得することを目指している。人間を観 測対象としたセンシングにおいては、画像情報から得られる特徴と、人 に関する事前知識モデルを活用しながら、如何にロバストに必要とされ る情報を獲得するかが重要である。人間の持つ個人差やあいまいさにも 柔 軟 に 対 応 し な が ら 、 個 人 の 特 性 を 抽 出 し 、 表 現 で き る “Human Sensing”技 術 の 確 立 を 目 指 し 、 様 々 な 研 究 を 展 開 し て い る 。 画 像 情 報 と 人体モデルを併用した人間の形状や動作のモデリング。及び、映像から の人間の行動認識に関する研究について今年度の成果を述べる。 (2) 実 環 境 下 に お け る ロ バ ス ト な 人 物 行 動 認 識 シ ス テ ム (a)概 要 人 間 の 状 態 を 推 測 し な が ら 、適 切 な サ ー ビ ス を 提 供 す る よ う な “察 し の 良 い ”情 報 環 境 を 実 現 す る た め に は 、実 環 境 中 に お い て 活 動 す る 人 物 を 検 出 、 追跡しながら、その行動を理解する必要がある。カメラを用いたシステ ムは、非接触かつ広範囲なセンシングが可能であるため、人物の検出、 追跡、行動理解に関する様々な研究が行われている。しかし、照明変動 に代表される環境変動要因、人物の体型や服装の違いなどに対して、ロ バストに動作するシステムを構築することは困難である。 我々は、事前に獲得した人間や空間に関する様々な情報を事前知識とし て モ デ ル 化 し た 上 で 、実 環 境 中 で ロ バ ス ト に 人 間 を 検 出 、追 跡 し な が ら 、 行動を認識・理解するシステムを構築している。 (b)人 物 の 検 出 と 追 跡 映 像 中 の 人 物 の 検 出 と 追 跡 は 、 様 々 な 産 業 応 用 が 期 待 さ れ る Computer Vision に お け る 基 本 的 な 課 題 と な っ て い る 。我 々 は 、単 眼 カ メ ラ 映 像 を 用い、人物どうし、もしくは物体と人物の重なりによる遮蔽に対してロ バストな人物の検出と追跡を実現した。人物の検出には、人体共通の特 徴として、頭部から肩にかけての輪郭形状を機械学習により獲得して検 出 に 用 い た 。 ま た 、 人 物 の 追 跡 に は 、 得 ら れ た 肩 -頭 部 領 域 を 参 照 し て 、 その下部に複数の観測領域を設け、領域間に位置関係の制約条件を持た せ た Particle Filter を 適 用 し た 。 そ の 結 果 、 体 の 一 部 し か 見 え て い な い オクルージョンが発生した場合や、複数人物が複雑に交差するような状 況 に お い て も 、 高 精 度 な 人 物 検 出 と 追 跡 を 可 能 と し た ( 図 73)。 図 73 人 物 の 姿 勢 変 動 を 考 慮 し た PF に よ る 人 物 追 跡 結 果 (c)人 物 行 動 認 識 現在、画像情報からの人物の姿勢推定技術は、セキュリティシステムに おける行動認識、スポーツ映像のフォーム解析など、様々な応用が期待 されている。本稿では、単眼カメラ映像中の人物を検出・追跡した後、 高 速 か つ 高 精 度 に 人 物 の 3 次 元 姿 勢 推 定 を 実 現 す る 手 法 を 提 案 す る 。検 出・追跡された人物領域に対して、頭部から肩にかけての外輪郭形状か ら肩の関節位置、身体向き、スケールを求める。次に、身体部位を2本 のほぼ平行なエッジの線であると捉えることで高速に身体部位尤度を求 める。そして事前に用意した 3 次元人体モデルの向き、スケールを合わ せ、自由度を減らして身体部位尤度にフィッティングすることで高速な 3 次 元 の 姿 勢 推 定 を 実 現 し た ( 図 74)。 入力画像 部 位 尤 度 Map 姿 勢 推 定 結 果 図 74 単 眼 カ メ ラ か ら の 3D 姿 勢 推 定 結 果 例 (3) 画 像 情 報 か ら の 人 間 形 状 ・ 動 作 の モ デ リ ン グ (a)概 要 人に最適な製品を設計、選択するためには、人体に関する静的な形状・ 寸法、動きやそれに伴う形状変形情報を定量的なデータとして取得、解 析する必要がある。レーザスキャナや多視点カメラシステムを用いた計 測により、静的、動的な 3 次元形状を高精度に取得することが可能にな っ て い る が 、シ ス テ ム が 高 価 で あ る こ と 、ま た 、得 ら れ た 形 状 デ ー タ は 、 後段の処理により解剖学的解釈、意味抽出を行わないと活用できない、 といった課題がある。 我々は、画像・映像から計測可能な画像特徴量と、事前知識として与 えられた人体モデル、人体寸法データベースを併用することで、特別な 装置をできるだけ用いず、簡便なカメラシステムによって、人体寸法・ 形 状 ・ 動 き を 計 測 可 能 な “Image&Model-based Human Metrics”の 研 究 開発を進めており、今年度の成果を述べる。 (b) 3 次 元 体 型 推 定 シ ス テ ム 人間の外観形状について、主要な要素の一つが体幹部の形状、一般的に は体型であるということが言える。そのため、この体型という人体形状 に お け る 主 要 要 素 を 、簡 易 に 定 量 評 価 し 、モ デ ル 化 す る こ と が で き れ ば 、 仮想的な洋服の試着システムの実現や、仮想空間における人体モデルに 対し、現実の人間に近い印象を持たせることなどが可能になる。これら の実現を目指し、垂直な二方向からのシルエット画像という簡易な入力 を用い、事前に点群データとして蓄積した人体モデルを主成分分析し、 このシルエットを可能な限り再現するようにモデルを変形させることで、 人 体 の 立 体 形 状 を 復 元 す る シ ス テ ム を 構 築 し た ( 図 75)。 図 75 入力した人体シルエットと3D形状推定結果 (c) 手 形 状 計 測 と 姿 勢 推 定 人間は日常的に様々な物体を手で把持し、使用している。こういった想 定に基づいて設計された製品は、使用者の手について、解剖学的に、ま た把持という一つの動作に関しても分析や予測を行った上で、デザイン されていることが望ましい。このため、設計段階において、その製品の デザインを仮想的に評価し、また定量的に設計へフィードバックするシ ステムは、ユニバーサルデザインの実現に対して大きな貢献を果たす。 しかし、こういった仮想評価のためには想定されるユーザのうちできる だけ多くの人間の手のモデルをコンピュータ上に蓄積する必要がある。 また、人がどのようにその製品をつかむかという把持姿勢についても情 報も得る必要がある。我々は、ペーパースキャナと手部寸法データベー スの統計データを活用した簡易な手部寸法計測手法を考案し、様々な人 間の手の寸法データを簡易かつ高精度に計測、データベースへ蓄積可能 な シ ス テ ム を 構 築 し た ( 図 76)。 こ れ に よ り 、 計 算 機 上 で 様 々 な サ イ ズ の手の仮想モデルを生成することができる。また、多視点画像計測によ り、手の物体把持姿勢を推定することにより、製品形状と把持姿勢の関 係を解析することを可能とした。これにより、物体把持動作のシミュレ ーションを通して、製品設計を仮想評価するシステムの開発が期待され る。また、蓄積した多様な手のモデルと把持姿勢情報を用いて、物の形 状と人の行動との因果関係や、アフォーダンスといった問題への新たな 視点を導くべく、研究を行っている。 図 76 手部寸法自動計測システム (4) お わ り に 人間の持つ個人差やあいまいさにも柔軟に対応しながら、個人の特性を 抽 出 し 、 表 現 で き る “Human Sensing”技 術 の 確 立 を 目 指 し 、 様 々 な 研 究 を展開している。画像情報と人体モデルを併用した人間の形状や動作の モデリング。及び、映像からの人間の行動認識に関する研究について今 年度の成果を述べた。今後は、実環境においての実利用を想定した様々 な入力に対して、ロバストな認識結果を得ることを目的として研究を進 めていく。 (10)複合感覚メディアの保存・再生に関する研究開発 人間の感覚情報をディジタル情報として取り扱う電気機器は,これま でに産業基盤として多くのものが開発されてきた。例えばラジオ・テレ ビ・インターネット等による音声・映像コンテンツの通信や放送が行わ れ て い る ば か り で な く 、 音 声 や 映 像 を CD・ DVD な ど に デ ィ ジ タ ル 情 報 と し て 保 存 し「 い つ で も・ど こ で も 」再 生 す る こ と が 可 能 と な っ て い る 。 近年、これらの視聴覚情報メディアに続き、第三のメディアである触 覚 情 報 に 注 目 が 集 ま っ て い る 。こ の 触 覚 情 報 は 他 の 感 覚 情 報 と は 異 な り 、 実世界における「作用・反作用の法則」に基づく双方向性を有する感覚 情報であることが特徴である。このため、これまでの多くの研究はモデ ルベースやバーチャルリアリティに基づくものが主流であり、実世界の 触覚情報を取り扱うことは困難であった。 本研究では、実世界触覚情報の工学的な保存・再生を取り扱う学問で ある「実世界ハプティクス」に関する研究を行い、熱感覚やなぞり感覚 などとの複合感覚統合技術の研究を行った。 (1) 実 世 界 ハ プ テ ィ ク ス に 基 づ く モ ー シ ョ ン デ ー タ ベ ー ス の 構 築 (a) 概 要 現代社会を取り巻く情報には多様な種類が存在する。これらの情報を 整理し統一的に管理するためにはデータベースの作成が必要であり、テ キストによるデータベースだけでなく音声データベースや画像データベ ースについても研究がなされている。これらのテキストや音声、画像デ ータベースと比較して、人間の動作を保存・再現する上で最も重要とな る実世界の触覚・力覚情報のデータベースに関する技術は確立されてい ない。さらには、現存のシステムは単に空間上の軌道を再現するのみで あり、位置と力の双方を考慮し統一的に管理された実用的なデータベー スの構築までは行われていない。視聴覚情報だけでなく触覚・力覚情報 をも人類が利用可能な情報とするためには、テキスト情報、音声情報、 画像情報と同じように触覚・力覚情報に基づいたデータベース作成手法 の確立が求められる。 そこで本研究では、実世界の触覚・力覚情報を一元的に取り扱うモー ションデータベースの開発を行った。モーションデータベースはモーシ ョンデータベース管理システムによって構築、運用され、人間の動作の 登録、参照、削除や検索を可能にする。提案システムにより、産業・医 療分野における熟練者の動作を保存しておき、状況に応じて要求される 動作を自動的に再現するなどの応用が考えられる。 (b) モ ー シ ョ ン デ ー タ ベ ー ス シ ス テ ム 本研究では、実世界ハプティクスに基づくモーションデータベースを 提 案 す る 。 図 77 に モ ー シ ョ ン デ ー タ ベ ー ス シ ス テ ム と 制 御 シ ス テ ム 全 体の概念図を示す。モーションデータベースシステムは、モーションデ ータベース管理システムとモーションデータベースにより構成され、デ ータベース管理システムの上位には、アクチュエータで構成されるハプ ティックデバイスと制御端末が接続される。モーションの保存と再現に 関してはモーションコピーシステムにより実現される。モーションコピ ーシステムは人間の操作者の動作を保存し、任意の場所、任意の時刻に おいて再現できるシステムであり、再現される位置と力は保存された操 作者の位置と力と同一にすることが可能である。このモーションコピー システムの機能を用いて、データベースへのモーションの登録と更新お よびデータベースからの抽出を実現する。 Haptic Device (Slave) Haptic Device (Master) Control Terminal Application System Insertion Updating Retrieval Deletion Responses References Responses References Response Command Control System for Haptic Devices Motion Storage Motion Reproduction Motion Request Motion Deletion Motion Database Management System Insertion/Updating/Retrieval/Deletion Motion Database Motion Name Force and Position Motion Database System 図 77 モーションデータベース (c) 実 験 結 果 図 78 に モ ー シ ョ ン の 抽 出 に つ い て の 実 験 結 果 を 示 す 。 本 実 験 で は 、 あらかじめ4つのモーションを操作者が入力し、データベースへの格納 を 行 っ た 。 4 つ の モ ー シ ョ ン は そ れ ぞ れ 「 モ ー シ ョ ン A」、「 モ ー シ ョ ン B」、「 モ ー シ ョ ン C」、「 モ ー シ ョ ン D」 と 名 称 を 付 し た 。 図 中 (a)は ユ ー ザからのモーション要求信号であり、 「 モ ー シ ョ ン C」、 「 モ ー シ ョ ン A」、 「 モ ー シ ョ ン B」、「 モ ー シ ョ ン D」、「 モ ー シ ョ ン B」 の 順 に 信 号 が 送 出 さ れ て い る 。ま た 、(b)は 仮 想 マ ス タ と ス レ ー ブ の 力 応 答 で あ り 、(c)は 仮 想マスタとスレーブの位置応答を示す。実験結果より、それぞれのモー ション要求信号に従って操作者の動作を再現できていることが確認でき る。 Motion Request D C B A Motion Request 0 Force [N] 5 5 10 Virtual Master 15 Time [s] (a) 20 25 30 Slave 0 -5 Position [mm] Reproduced Actual Motion 5 0 -5 -10 -15 -20 0 Motion C Motion A 5 10 Virtual Master 0 Motion C 図 78 5 Motion B 15 Time [s] (b) 20 Motion D 25 Motion B 30 Slave Motion A 10 Motion B 15 Time [s] (c) 20 Motion D 25 Motion B 30 モーションデータベースシステムの実験結果 (d) ま と め 本研究では、実世界の触覚・力覚情報を取り扱うことができるモーシ ョンデータベースの構築について提案した。モーションデータベースシ ステムはモーションデータベースとモーションデータベース管理システ ムによって構成され、操作者のモーションをデータベースに登録し、管 理することができる。提案するモーションデータベース管理システムに より、データ操作言語による上位層からの指令に従ってモーションの新 規登録や更新、検索、抽出、削除の実行に成功した。 (2) ハ プ ト グ ラ フ を 用 い た 人 間 の な ぞ り 動 作 に お け る 触 覚 情 報 の 解 析 (a) 概 要 近年、熟練技術者の技術の抽出・保存を目的とし、職人の鋭敏な触覚 を解析する研究が盛んに行われている。職人の持つ鋭敏な触覚は、鏡面 加工における表面情報の認識に活かされている。表面情報を知覚する際 には周波数に基づいた評価が重要となるが、これは人間が触覚を感じる 受 容 器 で あ る マ イ ス ナ ー 小 体 や パ チ ニ 小 体 と い っ た 器 官 に よ り 、 DC ~ 400 Hz の 周 波 数 帯 域 の 情 報 を 得 る こ と が 可 能 で あ る た め で あ る 。 本研究では、バイラテラル制御を実装したハプティックデバイスを用 いることにより、なぞり動作における触覚情報を抽出する。またハプト グラフを用いて触覚情報を可視化することで、人間のなぞり動作におけ る触覚情報を定量的に解析することが可能となる。 (b) な ぞ り 動 作 に お け る 触 覚 情 報 の 可 視 化 これまでに音声情報の解析において、可視化を行うことでその直感的 な理解を深める手法が提案されている。これと同様に触覚情報に対して も時間-周波数変換を施し可視化することで、特徴の直感的かつ定量的 な解析を行うことが可能となる。ハプトグラフは抽出した触覚情報に対 してウェーブレット変換を行うことで得られるため、その出力となる振 幅は時間および周波数の関数となる。本研究においてはなぞり動作によ り生じる触覚情報を周波数解析し,ハプトグラフを生成する。 Frequency [Hz] 10 50 100 150 200 250 300 350 400 0 8 6 4 2 2 4 6 8 10 12 14 16 18 20 0 Wavelet coefficient (c) 実 験 環 境 表 面 に 対 し て な ぞ り 動 作 を 行 っ た と き の 応 答 を 図 79 と 図 80 に 示 す。それぞれ、アルミプレートとプラスチックシートと環境表面が異な る物体に対してのハプトグラフである。実験結果の網掛け部分は、操作 者が環境の凹凸を認識した部分を表しており、ハプトグラフにおいても 高周波の応答が強く出ていることが分かる。環境表面の凹凸が異なるた め、周波数応答としてはそれぞれ異なる応答となっているが、人間がよ り環境表面の凹凸を認識した部分ではどちらも共通して高周波帯域の応 答が強く表れている。このことから、人間が環境表面をなぞって認識す る際の触覚情報における周波数応答の違いを確認することに成功した。 Time [s] アルミプレートに対するなぞり動作のハプトグラフ Frequency [Hz] 10 50 100 150 200 250 300 350 4000 8 6 4 2 2 4 6 8 10 12 14 16 18 20 0 Wavelet coefficient 図 79 Time [s] 図 80 プラスチックシートに対するなぞり動作のハプトグラフ (d) ま と め 本研究では、バイラテラル制御に基づくハプティックデバイスを用い てなぞり動作における触覚情報を抽出し、ハプトグラフにより定量的な 解析を行った。実験結果より、人間が環境表面をなぞって認識する際の 周波数応答を確認した。 (3) 熱 感 覚 呈 示 の た め の ペ ル チ ェ 素 子 の ロ バ ス ト 温 度 制 御 (a) 概 要 ペルチェ素子は電流を流した際の熱電効果によって熱移動を生み出す ことが可能な熱デバイスであり、近年ではその応答性の速さに着目して 素子を熱感覚伝送に用いる研究が行われている。素子を熱感覚呈示に用 いるには素子の温度制御が重要となるが、温度制御においては人間の手 や外部物体がシステムに接触した場合に流れ込む熱流、あるいは素子の ジュール熱による発熱等が外乱となってしまう。 本研究では、ペルチェ素子を熱感覚呈示システムに用いることを目的 とし、外乱オブザーバの構造を適用した熱外乱オブザーバを構築し、外 乱に対してロバストな温度制御系を提案する。 (b) ペ ル チ ェ 素 子 の ロ バ ス ト 温 度 制 御 系 ペ ル チ ェ 素 子 を 用 い た 熱 シ ス テ ム の 概 要 を 図 81 に 示 す 。 本 シ ス テ ム では素子の上に熱流束センサと熱電対が一体となった熱センサが乗せら れており、人間の手や外部物体はさらにその上に乗ることになる。温度 制御においてジュール熱は素子内部に、外部から流れ込む熱流は熱セン サ部に影響を与えるため、本研究においては外乱を補償するためにそれ ぞれの部分において外乱オブザーバの構造を用いた熱外乱オブザーバを 構築している。 (c) 実 験 ス テ ッ プ 状 の 温 度 指 令 を 与 え た 場 合 の 実 験 結 果 を 図 82 に 示 す 。 本 研 究 で は 外 乱 に 対 す る ロ バ ス ト 性 を 検 証 す る た め に 、15~ 20 秒 の 部 分 で ア ル ミ ブ ロ ッ ク を 接 触 さ せ て い る 。 実 験 結 果 を 見 る と 一 般 的 な PI 制 御 器 よりも外乱の補償が速く行われており、熱外乱オブザーバによってロバ ストな温度制御が行われていることが確認できる。 26 Contact Separation 25 Object Sensor Temperature [°C] 24 Proposed controller 23 PI 22 21 20 Peltier device Heat sink 19 Command 18 5 10 15 20 25 30 Time [s] 図 81 ペルチェ素子を用いた熱システム 図 82 温度制御の実験結果 (d) ま と め 本研究では熱感覚呈示を目的とし、熱外乱オブザーバに基づくロバス トなペルチェ素子の温度制御系を提案した。また、物体が接触した際に 流れる熱流等を熱外乱オブザーバにより推定できるため、熱流制御へも 適用が可能である。このように、ペルチェ素子が熱感覚呈示デバイスと して良い特性を有していることを確認した。 (4) ダ イ ナ ミ ク ス を 考 慮 し た モ ー ド 変 換 に よ る 車 両 操 作 シ ス テ ム の 実 現 (a) 概 要 実世界の触覚情報を伝送するシステムでは、バイラテラル制御が基本 となっているが、和動-作動モード変換を用いた透明性の高い実現手法 が確立されている。本研究ではこのモード変換を異構造システムに拡張 することを目的とし、ダイナミクスを考慮した新しい手法の開発を行っ た。本研究で取り扱う異構造システムは、マスタシステムとしてジョイ スティック、スレーブシステムとしてモバイルロボットを用いている。 本システムでは、ジョイスティックの角度指令によりモバイルロボット の速度を決定することで、動作範囲を無限大に拡張した力覚フィードバ ックの実現に成功した。 (b) シ ス テ ム の ダ イ ナ ミ ク ス を 考 慮 し た モ ー ド 変 換 本 研 究 で は 異 構 造 マ ス タ - ス レ ー ブ シ ス テ ム と し て 図 83 の よ う な 車 両操作システムを用いる。このシステムはジョイスティックによりモバ イルロボットを操作するシステムである。ここで、ジョイスティックは 2自由度を有しており、モバイルロボットの並進動作と回転動作にそれ ぞれ対応した制御系を構築する。 本システムでは、ジョイスティッ クの角度情報によってモバイルロボ ットの並進速度を決定するため、モ Joystick ード変換には微分操作および積分操 作を含む行列を使用することで、モ ードにおけるダイナミクスを考慮す Haptic Transmission ることが可能になっている。 Mobile Robot 図 83 力覚フィードバックを有する車両操作システム (c) 実 験 結 果 実験では、操作者がジョイスティックを用いてモバイルロボットに指 令を与え、走行実験及び衝突実験を行った。走行する路面環境は平坦な 路面と芝生路面の2パターン用意した。このとき、モバイルロボットh が受ける力覚情報を操作者にフィードバックすることが可能かどうか検 証をしている。 図 84 に ジ ョ イ ス テ ィ ッ ク の 角 度 応 答 お よ び モ バ イ ル ロ ボ ッ ト の 速 度 応 答 を 示 し 、 図 85 に ジ ョ イ ス テ ィ ッ ク の ト ル ク 応 答 と モ バ イ ル ロ ボ ッ ト の 力 応 答 を 示 す 。 図 84 よ り 、 提 案 手 法 に よ り 次 元 の 異 な る 情 報 間 で の 応 答 値 の 一 致 が 達 成 さ れ て い る こ と が 確 認 で き る 。 さ ら に 、 図 85 よ り、ジョイスティックのトルクとモバイルロボットの力が一致すること で作用反作用が人工的に実現されていることが分かる。 このように、異なる構造を持つジョイスティック型マスタとモバイル ロボット型スレーブとの間で、力覚フィードバックを実現することに成 功した。 1 2 Torque [Nm], Force [N] 0.8 Position [m],Velocity [m/s] 3 Joystick Position Mobile-Robot Velocity 0.6 0.4 Impact Point 0.2 0 -0.2 -0.4 1 0 Joystick Torque Mobile-Robot Force -1 -2 Impact Point -3 -4 -5 Frat area Frat area Grass area -0.6 Grass area -6 0 5 10 Time [s] 15 20 図 84 異 構 造 シ ス テ ム の 実 験 結 果 果(角度-速度応答) 0 5 10 Time [s] 15 20 図 85 異 構 造 シ ス テ ム の 実 験 結 (トルク-力応答) (d) ま と め 本研究では、異構造マスタ・スレーブシステムのためのダイナミクス を考慮したモード変換を提案し、力覚フィードバックの動作範囲の拡張 に 成 功 し た 。提 案 手 法 を 車 両 操 作 シ ス テ ム に 適 用 し 、実 験 に よ り 異 構 造・ 異動作範囲のハプティックシステム間での鋭敏な力覚フィードバックが 可能であることを確認した。本手法により、人間の行動を身体の範囲か ら拡張させるための新しいヒューマンインタフェースの提案につながり、 物 理 的 な 移 動 を 伴 う こ と な く 知 覚・行 動 が 可 能 に な る「 テ レ リ ア リ テ ィ 」 の実現が期待される。 (5) テ レ モ ビ リ テ ィ シ ス テ ム の 研 究 開 発 (a) 概 要 近 年 、実 世 界 の 触 覚 情 報 を 扱 う 実 世 界 ハ プ テ ィ ク ス が 注 目 さ れ て お り 、 据え置き型システムだけでなく移動型システムに対しても適用が望まれ ている。このような移動型システムでは、触覚情報に加えて視覚情報を 統合して伝達することにより、操作者に遠隔地の情報をより直観的に把 握させることが可能になる。 本研究ではコクピットに搭乗した操作者が遠隔地で動作するモバイル ロボットからの触覚情報と視覚情報を同時に得ることができる「テレモ ビリティシステム」を開発した。 (b) テ レ モ ビ リ テ ィ シ ス テ ム テ レ モ ビ リ テ ィ シ ス テ ム の 感 覚 フ ィ ー ド バ ッ ク コ ク ピ ッ ト を 図 86、モ バ イ ル ロ ボ ッ ト を 図 87 に 示 す 。 本 シ ス テ ム で は カ メ ラ に よ り 取 得 さ れ た視覚情報がコクピットのモニタに表示され、触覚情報がアクチュエー タを介して操作者にフィードバックされるため、遠隔地からの視覚情報 と触覚情報をリアルタイムで同時に取得することが可能となる。 Visual information captured by camera CCD camera Steering Brake pedal 図 86 Accelerator pedal 感覚フィードバックコクピット Driving wheel 図 87 モ バ イ ル ロ ボ ッ ト (c) ま と め 本研究では、触覚情報と視覚情報をリアルタイムで取得することが可 能 な「 テ レ モ ビ リ テ ィ シ ス テ ム 」の 開 発 に 成 功 し た 。本 シ ス テ ム に よ り 、 触覚情報と視覚情報を統合してフィードバックすることが可能になるた め、遠隔操作における操作性向上ならびに行動拡張が期待される。 (11)実世界空間デザインと人間の感性に関する研究 In 1993, the city of Mostar, has lost its world-famous Stari Most – the Old Bridge. The destruction of the oldest of its bridges was the final blow to the once fine, multicultural city. Not long after the loss of the Bridge the civil war in Bosnia and Hercegovina has ended, but the city of Mostar still struggles to regain its urbanity. In 2005, the reconstructed Old Bridge was opened to the public. Many see it as an important contribution to the process of reconciliation. Once again, Stari Most is at the centre of debates. Its reconstruction is raising a number of questions about the relationship between social processes and physical structures of the city. Fig.88 In his intentCITY talk , which formed basis for this chapter, Darko Radovic used the powerful example of the Old Bridge only to enter some of those debates. His focus was on political aspects of public space, on the Lefebrian concept of Right to the City and its physical expressions. A richly illustrated chapter shows examples from current research of the concept of urbanity of some European, Asian and Australian cities and offers discussion about uses and abuses of public space, about freedom and conflict, about loss and reconstitution of public life. Refereed journal article RADOVIC, DARKO “The roles of gentrification in creation of diverse urbanities of Tokyo”, in Open House International December 2010, vol. 35 no.4, Issue: Culture, Space and Revitalisation: Strategies and Experiences of Urban Renewal and Transformation, pp. 20-29 This essay explored the roles of gentrification in urban regeneration, focusing on Nezu and Yanaka, areas of Tokyo with direct historic connection to Edo period. The key argument is that the quality and strength of urban resistance in those precincts come from quality and resilience of everyday lives of the inhabitants. Only “lived space offers possibilities of resistance” (Ronnenberger, 2008), for “a dogged power of resistance seems to emanate from the everyday lived rhythms and the organization of time” (Meyer, 2008). The everyday life of N.Y. contains Fig.89 living lessons of cultural sustainability. That precinct is a significant node of resistance to the threats of globalisation which pulls the Japanese capital city - and many other cities around the world - into the race without any (reasonable) end, into the race the finish of which can be marked only by catastrophic environmental destruction and cultural devastation (Radović 2009). When speaking about the importance of such resistances, the chapter reiterates the key conclusions from Another Tokyo (2008), that this “invitation to respect traditional environments and its messages is fundamentally different, even diametrically opposed to an “authentic Japan” dreamed by Yanagita Kunio (Vlastos 1998); the ideas of “civilization theorists” of Japanese 1990s who “found in Edo a modernity not only for Japan but for the world” (ibid.); and the latest examples of national-romanticism where, say, Fijuwara Masahiko expresses his hope for the times where (nothing less but) “the samurai spirit will save the world” (Fujiwara).” Refereed Conference Papers RADOVIC, DARKO “They are telling me that the Japanese language does word equivalent to the Western term “public”, Public In-between City (PLiC) International Conference, Architecture and Town Planning Technion, I.I.T., Haifa, June 2010) not have a Life in the Faculty of Israel (6-10 Urban theorists usually speak about Tokyo as a city of profound difference in relation to any city in the West. To stress the argument, they tell how Japanese language does not have an equivalent to the Western term “public”. This paper, which presents parts of a larger investigation of urbanity and urban text(ure)s of Tokyo, starts from there. It offers to discussion several controversial elements of the project, with an emphasis on historic reasons of that intriguing absence. Urbanity of historic Tokyo, Edo was, indeed, urbanity of another kind , in the spirit of Lefebrian definition of the urban which demands celebration of difference among cities. Fig.90 Fig.91 The paper argues in favour of acts of urban resistance, as expressions of cultural sustainability in contemporary Tokyo. Many spaces and spatial practices of cultural resistance are decidedly of the place, and they present formidable opponent to booming large-scale developments which are enforced (universally, not only in Japan or in Tokyo) by neoliberalism reframed as globalism. RADOVIC, DARKO “Teaching and learning from cross-cultural encounter: agendas for XXI century”, in EIC-IKI Symposium 2010 Teaching and Learning with Global South : Environmental, Urban and Architectural Design Education for a Just World , 18 December 2010 (forthcoming) This paper opens with brief discussion of some of current trends in architectural and urban design education, only to stress the need for new agendas, strong enough to stand up to the challenges of the twenty-first century - most notably those of globalisation and associated myths, and imperatives of urbanisation, ecologically and culturally sustainable development. Fig.92 The emphasis is on the need to embrace Radical Realism, meaning that to be a realist today means to embrace the necessary paradigm shift, and to achieve a radical break with an business-as-usual approach to conception and production of space. The discussion will propose the agendas for a new avant-garde, an avant-garde with a cause based on the ideals of polycentric, environmentally and culturally sustainable, just world.