研究成果 - アクセス空間

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 研究成果 - アクセス空間

Transcript

研究成果 - アクセス空間

P-4
知覚・表現メディア工学
プロジェクトリーダ：
斎藤英雄
事業推進担当者:
大西公平
笹瀬巌
鄭南寧
開放環境科学専攻
教授
総合デザイン工学専攻
教授
開放環境科学専攻
教授
西安交通大学
学長
電子物理・デバイス研究所
人工知能とロボティクス研究所
研究推進協力者:
山本喜一
岡田謙一
萩原将文
池原雅章
岡田英史
青木義満
D･ラドヴィッチ
開放環境科学専攻
開放環境科学専攻
開放環境科学専攻
総合デザイン工学専攻
総合デザイン工学専攻
総合デザイン工学専攻
開放環境科学専攻
教授
教授
教授
教授
教授
教授
教授
桂誠一郎
F･ドゥソルビエ
植松裕子
総合デザイン工学専攻
特別研究教員
開放環境科学専攻
専任講師
助教
助教
開放環境科学専攻
総合デザイン工学専攻
総合デザイン工学専攻
開放環境科学専攻
総合デザイン工学専攻
総合デザイン工学専攻
総合デザイン工学専攻
総合デザイン工学専攻
総合デザイン工学専攻
総合デザイン工学専攻
総合デザイン工学専攻
総合デザイン工学専攻
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
RA：
内山英昭
B. Yalcin
U. Tumerdem
小山田雄仁
境野翔
田中裕之
鈴木大三
三柴数
佐藤智矢
矢代大祐
横倉勇希
山之内亘
3
3
3
3
3
3
3
3
2
2
2
2
年
年
年
年
年
年
年
年
年
年
年
年
吉田太一
S. Martedi
S. Callier
P. Sanoamuang
M. Muminovic
I
総合デザイン工学専攻
開放環境科学
開放環境科学
開放環境科学
開放環境科学
後期博士課程
後期博士課程
後期博士課程
後期博士課程
後期博士課程
1
1
1
1
1
年
年
年
年
年
研究の概要
（１）背景
個人の活動に合わせてディジタル支援を行うための新しい人間中心の
科学技術が求められている。このためには個人と環境、個人と社会、個
人と個人等を結び付けるアクセス空間を創成してサービスとセキュリテ
ィの多様な要求を一段高い次元で調整しなければならない。このように
人間の活動を余すところなく支援するための重要な技術として、本研究
では、音声・映像に加えた五感全てを統合したディジタルメディアの解
析処理とインタフェースの技術を追究する。これらの学問創生によりパ
ーソナルなアクセス空間を創出でき、来るべき少子・高齢化社会におけ
る安全・安心で高度なサービスが提供可能になる。
少子・高齢化社会において安全で高度なサービスを提供するには、こ
こに知覚に基づくヒューマンインタラクションや五感に基づく知的処理
を可能にするディジタル支援技術を構築する必要がある。先行する主な
技術として、すでにユビキタスコンピューティングやアドホックネット
ワーク研究が国内外で行われているが、主に映像や音声メディアを利用
する研究が主体であり、ハプティクスを含めた五感をトータルに利用し
ようとする試みは盛んではない。
（２）目的、計画
リアルタイムネットワーク上の双方向、相互接続により五感に基づく
知覚と表現メディア技術の原理を確立し、バイラテラル通信によるモバ
イルハプティクスを世界に先駆けて実用化すると共に、Int.NOE の協力
の下で五感ディジタルの国際実証実験を行う。さらに、五感に基づく知
覚メディアのコミュニケーションをサポートするための要素技術を研究
することにより、これら一連のアクセス空間を高度化し、パラダイムシ
フトを誘発する。
各事業推進担当者・協力者の具体的なテーマは以下のとおりである。
（ A）ハプティクスの知覚と表現に関する技術（大西）
（ B）知覚・表現メディアの高信頼通信技術（笹瀬）
（ C）映像情報の高度処理による多次元映像メディア生成と表示技術
（斎藤、植松、ドゥソルビエ）
（ D）インターネットを用いた配信アプリケーション開発（山本）
（ E）電子メディアと実物体の複合空間における協調作業支援の研究
（岡田謙一）
（ F）言語情報を利用したシーン推定に基づく物体認識技術（萩原）
（ G）高度信号処理技術を用いた映像メディアの解析と生成技術（池原）
（ H）五感メディア協調作業下における脳機能の解析技術（岡田英史）
（ I）モデルベース人間計測・認識システムの研究開発（青木）
（ J）複合感覚メディアの保存・再生に関する研究開発（桂）
（ K）実世界空間デザインと人間の感性に関する研究（ラドビッチ）
（３）意義
信号処理理論・パターン認識理論をベースとして、五感メディアを扱
う研究は非常に盛んに行われている。本プロジェクトでは、この分野に
おける五感メディアの入力・出力・生成・表示・変換・合成、といった
要素技術を専門とする多くの研究者が参加するが、それだけではなく、
それらをコミュニケーションするうえの根幹となる情報通信理論・通信
ネットワーク、さらに実際の五感知覚デバイスそのもの、さらには実世
界空間デザインと人間の感性までの幅広い応用分野までを研究ターゲッ
トとしている研究者が融合した研究プロジェクトとなっている点が特色
である。
（４）研究成果概要
（ A）ハプティクスの知覚と表現に関する技術（大西）
ハプティクスの知覚と表現に関するアプリケーションの研究とし
て、遠隔手術実現のための多自由度マスタ－スレーブシステムの
開発、安全な歯科インプラント治療のための歯科ドリルの掘削力
推定、爪先関節と踵関節を用いた 2 足歩行ロボットの不整地歩行
のための制御法、力覚通信のための非可逆圧縮、モバイルハプト
の実用化に向けたアプリケーションの研究、ネットワーク化制御
システムの研究開発、を中心的なテーマとして研究を行った。
（ B）知覚・表現メディアの高信頼通信技術（笹瀬）
ネットワークセキュリティに関する研究を行った。
（ C）映像情報の高度処理による多次元映像メディア生成と表示技術
（斎藤、植松、ドゥソルビエ）
拡張現実感（ＡＲ）のためのカメラトラッキングとその応用に関
する研究や、物体認識技術を利用したＡＲシステムの研究を行っ
た。さらにメディア検索技術として映像検索のための研究を行っ
た。また、多視点画像を利用した新しい映像生成に関する研究を
行った。
（ D）インターネットを用いた配信アプリケーション開発（山本）
インターネット環境における大規模 RIA アプリケーション開発支
援環境の研究や、ジェスチャインタフェースの研究を行った。
（ E）電子メディアと実物体の複合空間における協調作業支援の研究
（岡田謙一）
テーブルトップインタフェースと仮想空間の連携を、演劇などの
演出プラニングに応用したシステムの構築を行った。
（ F）言語情報を利用したシーン推定に基づく物体認識技術（萩原）
言語情報を利用して画像に撮影された物体認識を行うための手法
の研究を行った。
（ G）高度信号処理技術を用いた映像メディアの解析と生成技術（池原）
映像メディア処理技術の理論とその応用についての研究を進めた。
ブレ画像の修復や、画像の欠落部分を埋めるインペインティング、
さらに画像の内容を壊さないように画像サイズを縮小する技術に
ついて研究を進めた。
（ H）五感メディア協調作業下における脳機能の解析技術（岡田英史）
五感メディア協調作業下における脳機能を解析することを目的と
し、近赤外分光法 (NIRS:Near-InfraRed Spectroscopy)に基づく脳
機能イメージングに関する要素技術を展開することを目的とした
研究を進めた。
（ I）モデルベース人間計測・認識システムの研究開発（青木）
カメラに撮影された映像から、撮影された人間の動作や形状を解
析するための技術についての研究を進めた。
（ J）複合感覚メディアの保存・再生に関する研究開発（桂）
実世界触覚情報の工学的な保存・再生を取り扱う学問である「実
世界ハプティクス」に関する研究を行い、熱感覚やなぞり感覚な
どとの複合感覚統合技術の研究を行った。
（ K）実世界空間デザインと人間の感性に関する研究（ラドビッチ）
実世界の空間として、都市の建築物に注目し、これに対する人間
の感性についての研究を行った。
（５）国際連携実施状況
2010 年 6 月に、慶應義塾大学理工学部において、 Ecole Centrale de
Nantes(ECN)と共同ワークショップを行った。ECN からは、Guillaume
Moreau 博士を招待し、さらにビデオ会議システムを利用して、Myriam
Servieres 博士が参加した。本 GCOE からは、斎藤英雄教授、ドゥソル
ビエフランソワ助教、さらに P-4 のプロジェクトメンバーが参加し、
活発な議論が行われた。
2010 年 10 月に、フランスの INRIA Rennes において、 INRIA Rennes
と共同ワークショップを行った。 INRIA からは、 Eric Marchand 教授、
Luce Morin 教授他が参加し、本 GCOE からは、斎藤英雄教授、植松裕
子助教、ドゥソルビエフランソワ助教、ほか、 P-4 のプロジェクトメ
ンバーが参加した。また、University of Paris Est から、Vincent Nozick
博士、剣持雪子博士を招待し、講演を依頼した。最新の研究成果発表が
行われ、活発な議論があった。
2010 年 10 月から、 MOA 締結済みの University of Paris EST の Dr.
Vincent Nozick との共同研究のために、斎藤英雄教授の指導する修士課
程学生 1 名が短期留学し、3 次元物体の認識に関する研究成果を挙げた。
さらに、本研究に関連する内容の博士論文の審査員として、 2010 年 12
月に、斎藤英雄教授が招聘され、学位審査を行った。
RA の小山田雄仁が、共同研究推進海外派遣制度を利用して、 Microsoft
Research Asia（中国）の Dr. Yasuyuki Matsushita の下に 3 ヶ月間滞
在し、コンピュータビジョンに関する共同研究を行った。
RA の Baris Yalcin が、共同研究推進海外派遣制度を利用して、アリゾ
ナ州立大学（米国）の Prof. Kanav Kahol の下に 1 ヶ月間滞在し、distal
touch に関する共同研究を行った。
RA の鈴木大三が、共同研究推進海外派遣制度を利用して、カリフォル
ニア大学サンディエゴ校（米国）の Prof. Truong Nguyen の下に 4 ヶ月
間滞在し、フィルタバンクを用いた画像の変換符号化に関する共同研究
を行った。
RA の内山英昭が、共同研究推進海外派遣制度を利用して、 Ecole
Polytechnique Federale de Lausanne （スイス）と INRIA
Rennes-Bretagne Atlantique（フランス）に派遣され、画像のマッチン
グに関する共同研究を行った。
II.
研究成果
（１）ハプティクスの知覚と表現に関する技術
(1) 遠隔手術実現のための多自由度マスタ－スレーブシステムの開発
(a) 目的
遠隔手術は、離島や過疎地の患者に対して高度な医療を施すことを目
的のひとつとして研究されている。本研究では、力覚伝達をともなった
遠隔手術を実現するためのシステムの実現を目指す。
(b) 多自由度マスタ－スレーブシステム
図 1 に本研究で開発したプロトタイプシステム (スレーブシステム、患
者側 )を示す。本システムは 8 自由度を有する双椀型システムである。エ
ンドエフェクタは 2 自由度あり、バイラテラル制御器を用いて術者の操
作するマスタシステムとの間で力覚伝達をおこなう。残りの 6 自由度は
エンドエフェクタの位置を制御するために位置制御される。
図 1
実験システム (スレーブシステム )
本実験では、実験システムを図 2 に示すように構成した。慶應義塾大
学信濃町キャンパスのリサーチセンターにて、1 階にマスタシステム、9
階にスレーブシステムを設置し、二つのシステム間を VPN (Vitrual
Private Netwok) で接続した。スレーブ側の映像はライブストリーミン
グシステムを用いて術者側のディスプレイに表示した。
図 2 実験システムの構成
図 3 に実験の様子を示す。本実験は、慶應大学医学部と共同で実施し
た。また、図 4 に術者側で用いたディスプレイシステムを示す。
図 3
実験の様子
図 4
術者側の映像
マスタシステムは、力覚伝達のための 2 自由度のシステムを用いた。
医師がマスタロボットを操作し、スレーブ側で発生する反力による力覚
がマスタシステムを通して操作者に伝達されることを確認した。また、
スレーブシステムの位置情報や力情報を表示させることで、術者の動作
を客観的に観察することが可能であった。また、VPN を用いても力覚情
報と画像情報を同時に通信できることを確認した。
本プロトタイプシステムは、左右それぞれ 2 自由度のみ、力覚伝達が
可能なシステムであった。今後は、システムをより実践的な動作が可能
なシステムの開発をおこなっていく。
(2) 安全な歯科インプラント治療のための歯科ドリルの掘削力推定
(a) 目的
近年、歯科治療の 1 つとして歯科インプラント治療が注目され、広く
用いられている。歯科インプラント治療とは、人の歯がなくなってしま
った場所に人工の歯を取り付ける治療法で、骨にドリルで穴を空けてボ
ルトを埋め込み、人工の歯をしっかりと固定する方法である。しかし、
歯科インプラント治療の問題として、骨にドリルで穴を空けるときに、
ドリルの磨耗等に気が付かず、掘削しすぎてしまうという事故や摩擦熱
により骨が非常に高温になってしまう事態が発生するといった問題があ
る。新品のドリルと磨耗したドリルでは掘削に必要な力が異なるが、医
師がドリルの磨耗や掘削力が認識できていないためにこれらの問題が発
生してしまう。
そこで、安全な歯科インプラント治療を実現するための研究として、
歯科ドリルの掘削力を提示する手法を研究した。歯科ドリルの掘削力を
定量的に知ることができれば、ドリルの磨耗等による掘削力の変化を認
識することができ、掘削しすぎるといった事故や骨が非常に高温になっ
てしまう事態の防止に役立つ。
(b) ドリルロボットシステム
本研究では、図 5 に示すドリルロボットシステムを開発し、掘削力推
定システムを提案した。このドリルロボットシステムは、直動モータの
上に回転モータを配置し、回転モータにドリルの歯を取り付けたロボッ
トシステムである。設定した速度で対象物の掘削を行うことができ、手
法の定量的な評価に用いることができる。また、提案手法は制御用のエ
ンコーダと外乱オブザーバを用い、力センサやトルクセンサなしで掘削
力を推定する手法であり、低コストで安全なシステムを実現できる。提
案手法では、掘削力の推定のために図 6 に示す掘削モデルに基づいた 2
次元掘削のダイナミクスを考慮している。
図 5
ドリルロボットシステム
図 6
掘削モデル
そして、提案手法の検証実験を行った。比較のために新品のドリルと
実際の治療で使用された後の磨耗したドリルを用いた。それぞれのドリ
ルで中密度繊維板を掘削したときの提案手法による掘削力の実験結果を
図 7 に示す。図 7 においては、「 New」が新品のドリルの結果、「 Old」
が磨耗したドリルの結果を表しており、横軸が時間、縦軸が推定した掘
削力である。実験結果から、磨耗したドリルのほうがより多くの掘削力
が必要であったことが定量的に評価できている。したがって、提案手法
を用いた掘削力推定によるドリルの磨耗の違いが確認できた。
図 7
掘削力の実験結果
(3) 爪先関節と踵関節を用いた 2 足歩行ロボットの不整地歩行のための
制御法
2 足歩行機構を持つヒューマノイドロボットは人間への親和性が高く、
実用化が望まれており、研究が進められている。しかし、2 足歩行ロボ
ットの運用上の問題の 1 つとして「不整地（凹凸のある地面）において
安定な歩行が困難である」という問題がある。従来手法では、不整地の
凹凸により、2 足歩行ロボットの転倒する可能性が高い。しかし、ロボ
ットによるアクセス空間支援として人間の活動を余すところなく支援す
るためには、平らな整地だけでなく不整地においても安定な 2 足歩行に
よる空間移動が望まれる。そこで、不整地における 2 足歩行ロボットの
安定な歩行を実現するための手法を研究した。
本研究では、機械構造的に不整地への適応性を向上させるために、爪
先関節と踵関節を用いた足構造を用いている。そして、安定な 2 足歩行
のためには歩行安定化制御（転倒を防ぐように全身でバランスをとる制
御）との兼ね合いを考慮した不整地適応制御（爪先と踵を含む足構造を
不整地に適応させる制御）が必要となるため、その手法を研究している。
前年度の研究では、爪先と踵の回転トルクを用いた不整地適応制御を提
案した。そして本年度の研究にて、さまざまな地形の不整地に適応する
ために、さらに爪先と踵の垂直反力を用いた不整地適応制御を提案した。
爪先と踵の回転トルクと垂直反力の両方を考慮した適応を実現すること
で、さまざまな不整地への適応が可能となる。提案手法では、切り替え
インピーダンス制御器を用いており、不整地への適応のためにインピー
ダンス（足の制御剛性の柔らかさなど）の切り替えを行うことで、前述
した歩行安定化制御と不整地適応制御の兼ね合いを考慮し、干渉なく独
立した制御系設計ができる。図 8 に提案手法におけるインピーダンス切
り替えの概念を示す。インピーダンス制御器を用いることで、地面に対
する適応性を設定することができる。地面に対し柔らかい制御を行った
場合、地面への適応性は高くなるが、バランスを取ること（歩行安定化
制御）は難しくなる。そこで、着地時は柔らかい制御（図 8 の真ん中の
前足）、適応後は硬い制御（図 8 の右の前足）、足上げ期は姿勢を戻す制
御の 3 つを切り替えることで、歩行安定化制御と不整地適応制御を干渉
なく両立させる。提案手法ではこの方式を 1 つの切り替えインピーダン
ス制御器を用いて実現しているために、実装や解析が容易である。また、
制御器の提案と同時に、制御器のための反力指令値の生成法も提案した。
そして、提案手法の有効性を確認するための検証実験を行った。図 9
に足踏み実験における不整地への足の適応の様子を示す。不整地に爪先
関節と踵関節を用いた足が適応した様子が確認できる。図 10 に不整地
における歩行実験の歩行安定性指標 (Zero-Moment Point (ZMP))の結果
を示す。ZMP 応答値（赤線）が安定範囲の境界（青線と緑線）に接して
いる場合、転倒する可能性があり、安定範囲の内側に ZMP 応答値が常
にあれば安定な 2 足歩行である。提案手法を用いなかった場合は安定範
囲の境界に ZMP 応答値が達しているが、提案手法を用いることでその
不安定な箇所は解消されていることがわかる。したがって、提案手法に
よる 2 足歩行ロボットの不整地歩行における安定性向上が確認できた。
図 8
提案手法におけるインピーダンス切り替え
(a) 不整地適応前
(b) 不整地適応後
図 9 足踏み実験における不整地への足の適応の様子
(a) 提案手法なし
(b) 提案手法あり
図 10 不整地における歩行実験の歩行安定性指標 (ZMP)の結果
(4) 力覚通信のための非可逆圧縮
(a) 目的
力覚通信の技術を用いることによって、力覚フィードバックをともなっ
た遠隔操作が実現可能である。遠隔操作を行う場合は、一般に力覚情報
だけではなく、画像や音声の情報も通信することが必要である。画像や
音声情報を伝達する場合、通信路の負荷を低減させるためにこれらの情
報はしばしば圧縮される。ここで、より効率的な圧縮を実現するために
非可逆圧縮が用いられることがある。非可逆圧縮とは、圧縮された情報
を完全に復元することができないタイプの圧縮手法である。画像や音声
情報においては、人間が知覚可能な周波数帯域には限界があるなど、こ
れらの人間には知覚しづらい帯域の情報量を削減することで非可逆圧縮
を実現している。力覚情報においても、人間に知覚可能な周波数帯域に
は限界があるため、非可逆圧縮手法を適用可能であると考えられる。そ
こで本研究では、力覚通信のための、時間－周波数変換の一種である離
散コサイン変換を用いた力覚情報の非可逆圧縮を提案する。
(b) 整数離散コサイン変換を用いた力覚情報の非可逆圧縮
本研究では、制御系のハードリアルタイム性を保証するために、FPGA
(Field Programmable Gate Array) 上にエンコーダ、デコーダおよび制
御系を実装する。効率的な演算を実現するために、エンコーダおよびデ
コーダでは整数離散コサイン変換 (IntDCT) を用いる。図 11 に力覚情
報の圧縮の手順を示す。
図 11
圧縮の手順
本研究では、 ”original data”として、位置、速度および力情報を用いて
いる。取得した ”original data” を量子化し、整数離散コサイン変換をお
こなう。そこで得られた係数を図 12 に示すようなフォーマットに変換
する。このフォーマットされたがデータが非可逆圧縮されたデータとな
る。
図 12
データフォーマット
この非可逆圧縮手法を組み込んで、 FPGA 上に図 13 に示すようにモジ
ュールを設計した。ここでは、ひとつの FPGA 内に二つのマスタおよび
スレーブコントローラを実装し、コントローラ間では非可逆圧縮された
データを、 Giga-bit Ethernet を用いて通信している。
図 13 モジュール設計
図 14 に実験結果の位置応答と力応答を示す。位置応答で背景が着色さ
れている部分は接触環境の位置を示しており、力応答のそれはスレーブ
システムが環境と接触していることを示している。ここでは、接触対象
は硬い金属片とした。
図 14 実験結果
なお、本実験では非可逆圧縮の影響通信遅延および補償器は導入してい
ない。
実験結果より、非可逆圧縮を適用しても良好な応答が得られることが確
認された。
(5) モバイルハプトの実用化に向けたアプリケーションの研究
(a)従来のモバイルハプトの問題点
昨年度の研究において提案した制御系では、安定かつ高精度なモバイ
ルハプトを実現することに成功した。これはすべてのタスクを座標変換
として扱うことが可能な一般的な運動方程式を提案することにより可能
になった。しかし、現実的なモバイルハプトの実用において、未だ移動
ロボットのヨーレートを制御していないという問題があった。よって、
不整地を移動ロボットが通過したときに移動方向を維持することが困難
であった。また、モバイルハプトを実現しつつ、同時に移動ロボットの
ヨーレートを制御しようとすると、その干渉を定量的に評価することが
困難であった。
(b)本研究の内容
本研究では、昨年度提案した運動方程式を用いることにより、モバイ
ルハプトと移動ロボットヨーレートの動的干渉を、昨年度提案した運動
方程式を用いることにより定量的に記述した。提案手法では、タスクを
座標変換として取り扱うことによりコンポーネント化（オブジェクト化）
することが可能であり、複数のタスクの動的干渉を半自動的に補償する
ことが可能である。よって、モバイルハプトとヨーレートといった全く
異なるタスクを非常に簡易に同時に実現可能である。
一般的なタスクの記述と制御法を以下にまとめる。
1．制御目標を座標変換として定義する。
2．提案した運動方程式に代入し、タスクの動特性を導出する。
3． 1 階の運動方程式として導出されるタスクを、P 制御器によって
制御する。
制御系と実験結果を以下の図に示す。
図 15 モバイルハプト制御系
図 16 実験結果 (位置 -速度応答 )
図 17 実験結果 (力応答 )
図 18 実験結果 (ヨーレート応答 )
(6) ネットワーク化制御システムの研究開発
フィードバックループ内の通信制約（遅延・レイテンシ・帯域制限）
は制御系の安定性と制御性能を著しく劣化させるが、これまでこの問題
が包括的に扱われることはほとんどなかった。そこで本研究では、ネッ
トワークを介した位置・力のハイブリッド制御系に含まれる通信制約に
対処するための ① 集中型制御器・② 遅延補償器 /量子化器・③ フロー制御
器の研究を進めている。これらの成果は、車載機器・ファクトリーオー
トメーション・力覚フィードバックを伴う遠隔操作システム、複数台マ
ニピュレータによる協調作業などへの適用が期待される。
(a)集中型制御器の検討
従来のネットワークを介したハイブリッド制御は、分散型制御器を用
いたものが大半だった。例えば、触覚通信の基盤技術であるバイラテラ
ル制御系の設計では、波変換・4 チャネル制御構造が有名である。それ
に対して、集中型制御器に基づく設計法を提案し、より汎用性が高く、
かつ制御性能の高いハイブリッド制御を可能にした（図 19）。本年度は、
集中型制御器をマルチラテラル制御に適用し、分散型制御器よりも汎用
性の高い設計が可能になることを示した。また、集中型制御器のネット
ワーク上の設置位置と透明性の関係を解析した。
Centralized Controller
x
+ _
Compensator
+
+
Compensator
+ _
Local Controllers
+ Plants
Network
Z
f
図 19
集中型制御器を用いた位置 /力のハイブリッド制御
(b)遅延補償器 /量子化器の検討
フィードバックルー内の通信遅延を補償するための Delay-Model-Free Predictor
(DMFP)を提案した（図 20）
。DMFP は遅延のモデルを必要とせず、ジッタにより定常偏差が
発生しないという点で、従来の遅延補償器である Smith 法や通信外乱オブザーバに勝ってい
る。また、帯域制限に伴うデータの量子化を補償するための動的量子化器を提案した。これら
の手法を、位置制御系・バイラテラル制御系・マルチラテラル制御系に適用し、制御性能が向
上することを確認した。
(c)フロー制御器の検討
位置・速度・力のデータに加えて、画像データをリアルタイムに送受信することが
求められる視触覚通信では、視覚情報の送信レートが通信帯域を上回る結果、バッフ
ァオーバフローが発生し、システムが不安定化することがある。そこでマスタ・スレ
ーブ間で双方向に伝送される触覚情報を含むパケットを用いてネットワークのトラ
フィック状況を推定し、視覚情報の送信レートを制御する端末間フロー制御器を提案
した（図 21）。本手法により帯域変動下でおいても低遅延の視触覚通信が可能になる
ことを実験により確認した。
+
x’
+
+
+
_
_
x
f’ f
Compensator
図 20
Compensator
DMFP のブロック線図
Video capture
Encode
Send
Frame rate command
Display
UDP packet
(1～20 packets/s,
Image data,
30000 bytes/packet)
Decode
Receive
Routers
Flow controller
Motion
controller
Slave system
図 21
Motion
controller
UDP packet
500 packets/s,
haptic data and RTT info.,
Master system
100 bytes/packet
視触覚通信のためのフロー制御器
（２）知覚・表現メディアの高信頼通信技術
(1) MANET における属性証明書を用いた通信経路の信頼度評価法
各ノードがパケット中継を行う自立分散型の無線アドホックネットワ
ークにおいては、パケット内容を改ざんしたり、パケットの転送を行わ
ない悪意あるノードが存在する可能性がある。これまで、ノードの信頼
度をもとに通信経路を評価する方式が提案されているが、信頼度の改ざ
んやノードのなりすまし問題、また通知方式によるノードの負担や信頼
度利用の非効率問題がある。そこで本論文では、公開鍵証明書に付随す
る属性証明書を用いた通信経路の信頼度評価法を提案する。本方式では、
属性証明書を用いて信頼度を通知することで、証明書の検証による信頼
度の改ざん検知とノードのなりすまし検知を可能とし、さらに信頼度を
算出した相手ノードに直接通知することで信頼度算出によるノードへの
負担と信頼度利用の非効率問題に対処する。計算機シミュレーションに
より、提案方式によって選択された経路の評価とパケット到達率、また
通信に伴うオーバーヘッドや算出された信頼度の利用効率の評価を行い
本提案方式の有効性を示した。
パケット到達率(%)
信頼度の利用率(%)
提案方式
従来方式
ノードの平均移動速度(m/s)
図 22
信頼度の利用効率
ノード数50
ノード数100
ノード数150
選択した経路
遅延最適経路
全ノード数に占める悪意あるノードの割合(%)
図 23
パケット到達率
(2) 排他的論理和を用いた Single-Pcket IP Traceback
DoS や DDoS 攻撃に対して、その発信元を特定する IP トレースバッ
クは重要な技術である。これまで、マーキング方式やロギング方式が個
別に提案されてきたが、マーキング方式ではトレースバックのために大
量の攻撃パケットの収集が必要であるという欠点があり、またロギング
方式ではトレースバックサーバによる問い合わせ回数が増大する問題が
ある。近年、 2 つの方式の欠点を補う HIT(Hybrid IP Traceback)方式が
提案された。HIT 方式ではマーキングとロギングを交互に行うのである
が、以前トレースバックサーバへの問い合わせ回数が増加したり、悪意
ある情報が記入されたパケットによりトレースバックが失敗したりする
といった問題がある。そこで本論文では、問い合わせ回数の低減と悪意
ある情報の記入によるトレースバック失敗の課題に対して、排他的論理
和を用いたトレースバック方式を提案する。本方式では、排他的論理和
を用いることでロギング回数を抑制しトレースバックサーバへの問い合
わせ回数の低減が可能である。また、乱数とハッシュ値を用いることで
悪意ある情報の記入に対処し、攻撃ホストに繋がるルータの特定を可能
とする。計算機シミュレーションにより問い合わせ回数の評価と、故障
ルータ数におけるトレースバック成功率を評価し、本方式の有効性を示
した。
90
問い合わせの平均回数（回）
80
：ロギングを行うルータ
：マーキングを行うルータ
：排他的論理和を行うルータ
Traceback Server
攻撃者からのパケット送信時
攻撃
ホスト
R1
R1
XOR
R2
R1 R2
R3
R4
R5
提案方式
60
50
40
30
20
10
XOR
R4
従来方式
70
R4 R5
R6
トレースバック処理
R7
0
R7
被害
ホスト
0
5
10
15
20
25
30
トレースパスのルータ数(個)
図 24 提案方式のトレースバック
図 25 ルータへの問い合わせ回数
(3) MANET における匿名通信のための経路設計を必要としない Onion
Routing
MANET の匿名通信において、中継ノードが多重暗号化することで、
経路構築が不必要であり、また送信ノードの暗号化による負荷を分散す
る Onion Routing を提案した。提案方式では、中継ノードが確率的に暗
号化を行うことで経路が自動的に構築され、匿名性を保証しつつ宛先へ
パケットを届けることが可能となる。また、中継ノードの暗号化回数を
規制することによりホップ数の増大及びパケットドロップ率の低減が
可能となる。計算機シミュレーションにより、パケットの到達時間、お
よび宛先ノードがメッセージを入手できる確率を評価した。
（３）映像情報の高度処理による多次元映像メディア生成と表示技術
(1) 紙地図上への GIS データの AR 表示法に関する検討
(a) Introduction
Augmented paper maps have been getting a lot of attention
since the past decade. In general, traditional paper maps can provide
large scale and detailed information such as names of places and map
symbols. However, the data on the traditional maps is usually static
and tends to become out-of-date soon. In contrast, digital
geo-referenced data such as 3D buildings is dynamically growing up.
Recently, the integration between traditional maps and up-to-date
digital geographic data has been discussed to enhance the
functionality of the paper maps toward further novel uses as
augmented paper maps.
The main technical issues in previous works assumed that a
surface is composed of one plane. However, a typical use of a map
includes folding, which was never discussed before. In that case, the
assumption above cannot be applied because a surface is composed of
multiple planes. The user would frequently fold and unfold the map
to watch an appropriate region. In other words, folding is the action
that changes the amount of the visible information according to the
user ’s purposes. Because folding can be regarded as an important
action in paper map manipulation, we develop folding based
visualization and interaction for augmented maps.
In the development of foldable augmented maps, one of the
main problems is how to recognize whether a map is folded or not and
respond the folding automatically. We need to use a single view image
because we employ a typical augmented reality set-up using a video
see-through HMD and consider the constraint of mobile augmented
reality. In this case, the problem becomes the recovery of the surface
shape of a reference plane from a single view image. Recently, the
problem for a non-rigid surface was tackled. The solutions took the
approximation of the surface by a collection of triangles. Compared to
a non-rigid surface, a folded surface can be regarded as a description
of a simple model such that the surface is composed
of multiple rigid planes.
In this research, we present folded surface detection and
tracking for augmenting paper maps. This work is based on our
previous work of single map image retrieval using 2D standard maps
with intersection dots. In folded surface detection, keypoint
correspondences between an input image and a reference map are
first established. From these correspondences, multiple planes are
detected by iterative homography computation because the surface is
composed of non-parallel multiple rigid planes. For a natural
augmentation on the surface, the exact folding line is obtained by
computing the intersection line of the planes. Based on the angle
between the planes, we judge whether the map is folded or not. After
the map is judged as folded, each plane is individually tracked by
frame-by-frame descriptor update. We extend our previous tracking
for a plane to multiple planes. The angle between the planes is
utilized as a trigger to switch the states between the detection and
the tracking.
In our best knowledge, no other works have discussed folding
visualization and interaction for papers that depend on the content of
the paper in augmented reality. Because folding is a natural, usual
and frequently-performed human behavior for papers, the
development of the technique for detecting and tracking a folding
surface is meaningful and important as a contribution to other
researches in augmented reality. Foldable augmented maps is
applicable for developing a novel mobile augmented reality
application. Normally, the users need to match the 2D information on
maps with real 3D scene in their heads when they lose their way
outside. It is sometimes hard to match them from the ground
viewpoint. In this case, the users can watch 3D information of
buildings and their texture on the maps through the mobile device as
seen in Figure 26. Thus, it helps the users know where they are.
Figure 26: The output of mobile foldable augmented maps. The user
freely hold a map and look at the 3d building models and match with
the real landmarks.
(b) Augmentation
We use a set of 3D models of buildings as the virtual content of
augmented maps provided by CAD CENTER CORPORATION in Japan
The coordinate system of each model is the same as that of reference
maps. Because the augmentation of each plane is individually
performed, we divide the virtual content into dierent parts according
to the size of the planes from the result of folded surface detection.
First, we load the whole part of the virtual content that corresponds
to the map we use. While the map is not judged as folded in folding
initialization, we render the virtual content entirely. When the map
is judged as folded, the virtual content is divided into two parts at
the estimated folding line. We then overlay the virtual content on
each plane using each homography as illustrated in Figure 27.
Figure 27: Augmentation on a folded surface. Because we have
virtual contents on the reference plane, we can divide them into two
parts according to the size of each plane, and overlay virtual contents
on each plane independently.
In case the multiple plane detection fails, we keep tracking one
detected plane. Thus, the 3D models are augmented on the
successfully tracked plane as shown in the Figure 28.
Figure 28: Augmentation on full size and half size plane. When two
planes are not detected, the tracking and augmentation are applied
only into the detected one. (a) Full size augmentation is applied if
two planes are detected. (b) Half size augmentation is applied if only
one plane is detected.
(c) Interaction
In the augmented paper maps, it is necessary to study the user
interaction toward a novel use. Hence, we implemented a method that
enables users to select the symbols for accessing the related data. For
finger pointing based interaction, we use a finger tip detection
method.
After two planes are detected and tracked, we start to detect a
finger tip from the image. In order to extract a hand region, we first
use the simplest but accurate enough HSV color space classifier
computed beforehand. By thresholding HSV for each pixel, we obtain
a mask image of the hand region. We assume that the user actually
touches somewhere on the map as illustrated in Figure 29(a). In
order to detect a finger tip, the user hand has to pose a pointing
gesture. Also, the dorsal part of the hand should appear in the image
entirely. We try to detect the upper end of the hand as a finger tip. It
is obtained by computing the center of gravity of the hand region and
finding the farthest point from the center as illustrated in Figure
29(b). Because we have computed the region of the folded maps in the
image by reprojecting the map boundary with the computed
homography, we can restrict our finger tip search area to the map
region only in the image.
Figure 29: Finger tip detection. (a) User ’s pointing. A user points a
map symbol with touching the map. (b) Definition of finger tip
position. The farthest point from the center of the hand region is
defined as a finger tip.
The user can access the related data of each map symbol by
pointing the symbol. Because we assume that the user actually
touches the map while pointing, we search the nearest map symbol at
the finger tip in the image. We define pointing interaction by
observing the position of finger tip. If a user ’s finger tip constantly
stays close to one of map symbols in several consecutive frames, the
map symbol is recognized as pointed. Then, we overlay the data
related to the symbol after the pointing occurs. In our
implementation, we overlay a picture as related data when a map
symbol is pointed as illustrated in Figure 30.
Figure 30: Accessing the data of each symbol. We overlay a picture
and ID of the symbol as example contents when a map symbol is
pointed.
(2) キーポイント追跡を利用した類似ビデオ検索に関する検討
(a) 概要
近年、静止画検索の研究において、特徴点とその記述子をベクトル量
子化しヒストグラムとして画像を表現する Bag of Features モデルが成
功を収めている。BoF モデルを用いた画像表現では、前述の通りベクト
ル量子化する特徴量を入力画像から抽出する必要があり、前述の例では
その特徴量に画像上の特徴点とその記述子を用いている。この手法を動
画へと拡張する場合、用いれる特徴量には様々な物が挙げられるが、静
止画で用いられていた手法の拡張を考慮すると時系列的に特徴点が積み
重なる特徴点軌跡を用いる事が自然だと考えられる為、本研究では特徴
点の描く軌跡とその時系列特徴量を用いている。
BoF モデルで用いられているベクトル量子化において、実際に入力さ
れる特徴量はベクトル量子化される特徴量空間の中でごく一部である為、
図 31 左側に示す様に量子化を行う為に事前学習を用いる手法が一般的
となっている。事前学習はこれから入力されるであろう特長量の分布を
事前に知る為に行う物であり、この事前知識を前提にベクトル量子化は
行われている。しかし、これは学習用のデータがと、これから入力され
るであろうデータとの相関性がある場合を前提としており、学習データ
に相応しくないデータを用いて事前学習を行うと、BoF モデルを用いた
動画表現は上手く働かない。この様に、事前学習を用いるベクトル量子
化は事前学習の結果に大きく影響される事が分かっており、適切なベク
トル量子化が行えない場合動画検索等の結果に悪影響が出てしまう。
図 31：
BoF モデル（左）と周辺ヒストグラム（右）
例えば図 32(a)、 (b) に 2 点の SIFT 特徴点を示す。これらの特徴点
(a) と (b) が画像上類似した部分から算出された場合、ベクトル量子化
を通じ同じ Visual Words に割り当てられる事が理想的な量子化結果と
なる。しかし、ノイズやオマージュによって赤く塗りつぶした矩形領域
の様な特徴量の違いが生じた場合、これら一部のノイズによって (a) と
(b) の特徴量空間上の距離が開き、結果として異なる Visual Words に
量子化されてしまう場合がある。以上の理由により、同じ手法を用いた
としても、事前学習に用いたデータの質や量、事前クラスタリングの結
果によって提示されている性能が発揮されない場合がある。
そこで本研究では、図 31 の右側に示すようなベクトル量子化を用い
ない動画表現を提案する。本手法ではまず、動画像から得た特徴点の軌
跡ゆを次元毎に周辺ヒストグラムを用いて表現する事で動画から得た特
徴量を量子化した。動画間の類似度は各次元で対応した周辺ヒストグラ
ム間で Cos メジャーを用いて類似度を計測し、その平均値を動画間の類
似度とした。周辺ヒストグラムを用いる事で、本手法は事前学習を用い
ず動画を表現している。
図 32：類似した点周辺におけるＳＩＦＴ特徴量の現れ方
(b) 処理の流れ
本手法の流れを図 33 に示す。本手法は大きく分けると、
（ 1 ）特徴点を追跡し、特徴点軌跡を得る。
（ 2 ）各軌跡の持つ特徴量次元を統一する。
（ 3 ）各次元で周辺ヒストグラムを算出する。
以上の 3 ステップに分けられ、先ず入力動画から特徴量を抽出する（図
33(a)）。図 33(b) は、現在多く用いられている BoF モデルでの特徴量
の扱いを示している。入力された特徴量はベクトル量子化を通じて
Visual Words ヒストグラムを構築し、構築されたヒストグラム間の距
離で動画間の類似度を計測する。対して、本手法を図 33(c) に示す。本
手法は入力された特徴量を各次元にてまとめ、周辺ヒストグラムを算出
する。各次元に分割して特長量を表す事で、本手法では抽出した特徴量
を、ベクトル量子化を用いずに固定長のヒストグラムへと量子化し動画
を表現した。ベクトル量子化を用いない事で不定性を排除した。上記の
処理を通じて、入力された動画は 128×Dim 次元の特徴量にて表現され、
動画間の類似度はこれらのヒストグラムの類似度平均値となる。またこ
の際 Dim は SIFT での各次元を何分割するかによって変り、本手法で
調整の必要となる唯一のパラメータとなっている。
図 33：提案する特徴点の軌跡を利用した動画像検索手法の概要
(c) 実験及び評価
本章では、本手法を用いた動画検索の結果及びその性能比較実験の結
果を示す。本論文では検索を行う対象として、実際にインターネット上
にある動画サイトから動画を収集した。動画サイト上では ”タグ ”と呼ば
れる動画の内容を表す文字列をユーザーが動画に付与されている。よっ
て今回の実験ではこのタグを動画の持つカテゴリとして用い、同一のタ
グを持つ動画の中で類似動画だと思われるものを目視で選ぶ事で同カテ
ゴリ動画として扱った。実験に用いた動画像データベース（以下 DB と
記す）では 10 種類のカテゴリを定義し、それぞれのカテゴリに大して
10 種類の動画を準備する事で合計 100 個の動画を準備した。各カテゴ
リに用いたタグと動画の例を図 34 に示す。DB に用いた 10 カテゴリの
持つ特徴を述べる。カテゴリ (1)はある大本の動画と、その動画を高圧縮
したものや、ユーザーによるオマージュ作品となっている。カテゴリ (2)
は、あるキャラクターの 3D モデルを動かした動画となっており、動か
した際の背景や動作の内容に関しては統一されていない。カテゴリ (3)
は、逆に同じ背景・動作をを特徴として持つ動画を同ジャンルとして扱
った。カテゴリ (4) は同一シリーズのアニメーションを主に扱っている
動画を並べた。カテゴリ (5) 及びカテゴリ (6) は、それぞれ同一のビデ
オゲームを行っている画面を撮影したものとなっている。カテゴリ (7)
及びカテゴリ (8) は、同一のキャラクターを特徴として持つ動画を同ジ
ャンルとしている。但しカテゴリ (8) は実写及びアニメーションを含ん
でいる。カテゴリ (9) はカテゴリ (5) 、カテゴリ (6) と同じく同一ビデオ
ゲームを行っている画面をキャプチャーしたものだが、機種の違いによ
る解像度や圧縮率の違いを含んでいる。カテゴリ (10) は同一作者の同シ
リーズであるアニメーションをジャンルとして扱った。
本手法を用いた類似動画検索の結果の一部を図 35 に示す。図 35 の
各行は、左端の動画をクエリとして用いた際の類似度上位 4 位までの動
画をクエリの右側に並べて表示している。図 35(a)では、本手法はクエ
リ動画がユーザーによって加工された動画が検索の上位に挙げられてい
る。図 35(b) では、同一作者による同一シリーズの動画を類似動画とし
て抽出した。図 35(c) では、同一キャラクターのきぐるみを異なる日時、
場所で撮影した動画が検索の上位に挙げられている。しかし上位に挙げ
られた幾つかの結果は異なるカテゴリの動画となっている。図 35(d) は
本手法が上手くカテゴリを認識出来なかった場合の結果を示している。
本手法は特徴点を次元ごとに分解して扱うため、無地の背景といった類
似度が偏る様な動画を誤認識している。
図 34：実験に使った 10 カテゴリの動画像
図 35：本手法による検索結果
(3) 全方位カメラを用いたテーブルトップ型 AR システム
(a) はじめに
本研究では、ユーザに機器を装着させることなく AR を実現するシス
テムを目指し、全方位カメラを用いたテーブルトップ型の AR システム
を提案する。 AR として仮想物体が重畳される液晶ディスプレイには、
全方位カメラで撮影した全方位画像が表示される。テーブルトップに全
方位画像が表示されるため、ユーザが機器を装着することなく AR を実
現できる。全方位画像を表示することにより、液晶ディスプレイに表示
される画像はミラーのような効果をユーザにを与えることができる。ま
た、提示された物体を認識するための手法として、bag-of-words に基づ
く特定物体認識手法を用いる。提案するシステムのアプリケーションと
して、我々は実験的にカードゲームアプリケーションを実装した。
(b) システムの構成
提案システムの構成を、図 36 に示す。提案システムで使用する機材
は、全方位カメラと液晶ディスプレイである。液晶ディスプレイは、テ
ーブル上に水平に配置する。次に、 PC に接続されている全方位カメラ
を、液晶ディスプレイの、全方位画像の中心の位置に設置する。液晶デ
ィスプレイには、全方位カメラで撮影した円形の全方位画像が表示され
るが、このとき、周囲の環境がミラーに反射しているように見えるよう、
全方位カメラの角度を調節して設置する。全方位カメラは、水平方向の
周囲 360 度を一度に撮影可能であるため、認識する物体が周囲の任意の
位置にあったとしても、物体を画像中に収めることが可能となる。また、
テーブル上のディスプレイに画像が表示されることにより、ユーザは
HMD などの機器を装着する必要がない。ユーザが実際にシステムを使
用するときは、あらかじめデータベースに登録されている物体が図 36
のようにカメラに正対して提示されると、その物体は認識される。物体
が認識されると、物体に関連付けられた注釈情報や、ゲームの状態に基
づく情報が全方位画像に表示される。また、提案手法は、複数の物体を
認識することができるため、あらかじめ関連付けられている複数物体が
同時に認識されると、それらの関連情報が AR として全方位画像上に表
示される。
図 36：システムの構成
(c) 複数物体認識
処理の流れを図 37 に示す。本手法では全方位画像を歪みの少ないパノ
ラマ画像に変形して処理を行う。パノラマ画像の投影面は円筒面である
が、その局所的な部分は平面に近似されると考えられ、 SIFT を適用し
た場合にマッチングを行うことが可能になる。登録フェーズでは、手動
でカメラに正対するように物体を提示し、パノラマ画像中の物体の矩形
領域の左上と右下の座標をマウスによって指定する。各物体に対して、
指定された物体領域の画像中の特徴点座標と各特徴点の SIFT 特徴量、
各 SIFT 特徴量を量子化した visual words、物体の名称等が登録される。
また、各 visual words が含まれる物体のリストも用意される。物体認
識フェーズでは、パノラマ画像から抽出された SIFT 特徴量を量子化し
た visual words を用いて、 bag-of-words に基づいて物体を検索する。
次に、検索された候補物体とパノラマ画像間で SIFT 特徴量マッチング
を行い、物体の画像中の位置を検出する。最後に、検出された物体の登
録情報に基づいて、 AR が全方位画像上で実現される。
図 37：処理の流れ
(d) 物体検索
候補物体の検索は、Nister らの複数物体検索手法に基づいて行う。ま
ず、パノラマ画像上で、 SIFT 特徴量を抽出する。 SIFT 特徴量は、拡
大・縮小や、回転、照明変化に不変な特徴量であるが、 SIFT 特徴量は
128 次元の高次元なベクトルで表されるため、大きな処理コストがかか
ってしまう。そこで、検出された 128 次元の各 SIFT 特徴量ベクトルを、
hierarchical k-means tree によって visual word で表現する。一方、
データベースには、 bag-of-words に基づき、登録されている各物体が
visual words の集合として表現されている。そして、各 visual word ご
とに、その visual word が含まれる物体のリストが作成されている。入
力パノラマ画像の visual words ごとにこのリストを参照し、データベ
ースの各物体が入力画像内に存在する尤度を計算する。データベース内
の物体は、尤度の降順にランク付けされ、その上位 6 つの物体が、画像
中に存在する物体の候補とみなされる。
(e) 実験結果
今回の実験では、双曲面ミラーを用いた全方位カメラを用いた。全方
位カメラから得られる全方位画像サイズは、1428×1428 画素である。全
方位画像から変換したパノラマ画像のサイズは、 1024×166 画素である。
ここで、提案システムではパノラマ画像に映る物体の範囲は制限される
ため、全方位画像の縦方向の解像度を制限してパノラマ展開を行った。
この結果、パノラマ画像のサイズが小さくなり、 SIFT 特徴点検出の計
算時間が大幅に縮小される。また、実験においてシステムが対象とする
物体として、市販のカードを用いることとし、あらかじめ 60 枚をデー
タベースに登録した。使用する hierarchical k-means tree は、とし、
木の深さは 8 とする。また、 visual words の数は約 60000 である。
最初の実験として、パノラマ画像上で、複数のカードに対する検索、
位置推定精度を評価した。適当に選択されたカードをカメラに提示した。
図 38 に、物体認識結果を示す。提示されたすべてのカードは、正確な
位置で検出されている。
図 38：物体認識結果の一例
また、処理速度は表 1 のようになった。 SIFT 特徴点検出と特徴量マ
ッチングは GPU 上で行った。全体の処理時間は 364msec となり、カ
ードゲームなどのアプリケーションに対して十分高速な処理速度だと言
える。
表 1：処理速度
提案システムのインターフェースを評価するため、3 人のユーザにテ
ーブルの周囲に座ってもらい、カードゲームを行った。ユーザがカード
を他のユーザに見せるようにテーブルに立てると、周囲の環境が映り、
カードの情報が重畳された全方位画像がスクリーンに表示された。また、
複数のカードが提示されると、登録されているカードの強弱を比較し、
強いカードから弱いカードに向けて火の玉が発射された (図 39)。このよ
うに、インタラクティブ性のあるカードゲームアプリケーションを実現
できた。
図 39：カードゲームアプリケーションの一例
(4) AR を用いたヴァイオリン演奏支援システム
(a) はじめに
ヴァイオリンは非常によく知られた楽器であるが、同じ弦楽器である
ギターと比較すると習得が困難であるとされている。その理由として、
ヴァイオリンにはギターにおけるフレットのような押さえる場所の目印
がなく、初心者は自分が弾いた音程の正確性を判断出来ないことが挙げ
られる。
そこで、演奏者にヴァイオリン演奏の為に必要な指の位置や弓の使い
方を直感的に提示することで初心者のヴァイオリン演奏を支援するよう
なシステムが求められる。楽器の演奏支援を行う為の一つの手法として、
近年、拡張現実感 (AR)の技術を利用したシステムが開発されている。例
として、元川らの開発した AR を用いたギター演奏支援システムでは、
コードを演奏する際に押さえるべき手の形を PC のディスプレイを通じ
て実際のギター上に表示させることで演奏者の支援を行う。 AR を楽器
の演奏支援に用いるメリットは非常に大きく、楽器を改造することなく、
また多くの情報を表示することが出来る。
こうした背景から、本研究では、ヴァイオリン演奏習得を簡単に出来
ることを目的として、 AR を用いたヴァイオリン演奏支援システムを開
発した。本システムは、本物のヴァイオリンの上に仮想モデルを重畳表
示することにより、ヴァイオリン初心者に弦の押さえる場所と弓の使い
方を提示する。また同時に、演奏者の演奏した音階名と音程の正しさの
リアルタイム表示を行う。これにより、演奏者はヴァイオリンの正しい
演奏法を簡単に理解することが出来る。本システムの実現には、楽器の
大きさや調弦によって異なる、正しい音を出す為に押さえるべき位置 (以
下、音階位置 )を正確に表示することが求められる。そこで本研究では、
AR 表示された位置を押さえて楽器を弾いた際の演奏音を元にキャリブ
レーションを行う方法を提案し、音階位置の表示の正確性の向上度合に
ついて検証を行った。
(b) 提案システム
提案システムの構成図を図 40 に示す。ユーザはヴァイオリンを持ち、
ディスプレイの前に設置されたカメラの前に座る。ディスプレイ上に自
分の姿と演奏支援情報が映し出されるため、ユーザはそれらを元に演奏
を行うことが出来る。
図 40：提案するヴァイオリイン演奏支援システムの構成
ヴァイオリンにはギターにおけるフレットのような押さえる目印が存
在しない為、初心者はどこを押さえたら正しい音が出るのかを判断でき
ない。そこで、本システムでは図 41 に示すように CG で作成した仮想
のフレットによって音階位置をヴァイオリンの指板上に表示することに
より、音階を正しく演奏する為の支援を行う。
図 41： CG により生成した仮想フレットの AR 表示による支援
また、ヴァイオリン演奏においては、押さえる位置を変更する事によ
って音程を自分自身で調整することが求められる為、多くの初心者は自
分の演奏した音程が正しいのかを判断することが出来ない。そこで、図
42 に示すようにヴァイオリンの演奏音を周波数解析した結果を基に音
階の正確性を表示することによって、ユーザが演奏している音程が正し
いかどうかを判断し、修正する為の支援を行う。
図 42：ヴァイオリンの演奏音の周波数解析結果のＡＲ表示
さらに、ヴァイオリンを演奏する為には、弓とヴァイオリン間の角度
を正確に保たなければならない。そこで、本システムにおいては図 40
の左に示すようにヴァイオリン上に正しい角度を表示することにより、
ユーザが正しい角度で弓を演奏する為の支援を行う。
(c) 評価実験
今回の実験では、両端である G 線と E 線について、初期状態で表示
されている番号の場所を押さえて演奏した際の周波数を各 10 回ずつ測
定し、 A=440Hz とした場合の各音階の基本周波数との平均誤差を算出
した。図 43 の右にはその平均誤差を基にキャリブレーションを行った
後の表示結果を示し、今回の結果では音階位置はマーカ側に移動したこ
とがわかる。また、キャリブレーション後に表示された仮想フレットを
押さえ、処理前と同条件で測定した結果を表２に示す。結果より、処理
後には全番号の平均で 0.89%誤差が減少しており、より正確な音階位置
の表示が出来たことがわかる。
図 43：演奏音を利用した AR 表示の補正処理。左が処理前、右が処理後
表 2：補正処理の効果
(5) Depth
Displays
Camera
to
Generate
Content
for
Auto-Stereoscopic
(a) Background
Stereoscopy is a major issue for spatial perception and understanding.
Its goal is to reproduce the human perception of an environment by
using two images captured from two slightly different viewpoints.
The distance between these two viewpoints generally corresponds to
the normal distance between two eyes, i.e. ~6.5cm. The stereoscopic
process means that spectators have to use a special device that
separate the image observed by left eye from the image observed by
right eye. Most of the time, such devices are glasses that are
categorized into passive or active stereo.
However, glasses are not convenient. They are heavy, reduce
luminosity, are intrusive and, depending on their quality, induce a
ghosting effect. For these reasons, a new generation of displays is
appearing. These screens are named auto-stereoscopic displays and
make possible to watch 3-D content without need of any kind of
glasses. Auto-stereoscopy is a technology recently applied to LCD
displays that introduces the ability for one or several users to watch
stereoscopic images without wearing any glasses. Depending on their
characteristics, auto-stereoscopic displays require from 5 to 64
images to display a single 3D frame. A filter, made of small lenses or
strips, is overlaid on the surface of the screen and ensures to emit
each image in a specific direction. So, if the user is well located in
front of the display, each eye can see a single specific image. Some
examples of use of that kind of display are or will be available on
consumer hardware like cameras or gaming consoles.
So, the number of views required by an auto-stereoscopic display is
an important constraint, especially in case of live input stream. So in
our research, we focus on reducing the number of video cameras
required to create a live video content for auto-stereoscopic.
(b) Our approach
Our idea was to take advantage of a special camera, named Time Of
Flight camera or TOF . It is made of an illumination unit (LEDs) and
a capture unit (CCD/CMOS sensor). A light pulse (IR) is emitted,
reflected by the objects located in the scene and come back toward the
sensor of the camera. The time corresponding to the travel of the
light is precisely computed and used to evaluate the depth value of
each pixel. The Swiss Ranger SR4000 depth camera can generate a
depth map in real-time, but can also provide a gray-scale amplitude
image, a confidence map and the spatial coordinate associated with a
depth value for each pixel of the sensor. However, most of the depth
camera systems based on the TOF technology are unable to generate
the color information. The color information is then obtained by
adding a color camera besides the TOF camera. So, our system is only
made of a color camera and a TOF camera.
Considering we can get the depth information in real time, we had
two objectives. The first one was to match the color information with
the depth information since viewpoints are different. The second
objective was to create the different views required by an
auto-stereoscopic display. Mainly, existing approaches are using an
image based rendering applying a transformation on each pixel which
can be a slow process. For that reason, we preferred a method that
could mix Computer Vision and Computer Graphics and that could
take advantage of the graphic card capabilities (GPU).
Referring to a study about the perception of a 3-D image, the color is
the most important component. So we decided to preserve the quality
of the color image and to transform the depth image. Our solution is
to convert the depth map into a mesh (set of triangles defined in 3-D
space) and to render that mesh from the viewpoint of the color
camera. This approach has the advantage of resolving the problem of
the small resolution of the depth image and to reduce automatically
occlusions. To obtain the different input images required by an
auto-stereoscopic display (from 5 to 9), we just need to render the
mesh from a slightly different viewpoint.
Figure 44: Overview of our approach
(c) Implementation
The implementation of our depth ca mera based capture system takes
advantage of a 3-D mesh. As we explained in the previous section, we
are using two separate cameras: a color camera and a depth camera.
A mapping of the depth image onto the color image is then required.
This transformation is computed thanks to a calibration stage that
estimates the pose of the color camera according to the position of the
depth camera. This can be easily achieved by defining manually or
automatically a set of 2D/3D correspondences between both images
and using a specific library like OpenCV to evaluate the result.
For each pixel of the depth image, the depth camera provides the
corresponding 3D coordinate. If such information is not directly
available, it can be computed by using the depth image and the
intrinsic parameters of the depth camera. By using this set of 3D
coordinates, we are able to generate the mesh representing the
captured scene and made of about 50000 triangles (resolution of
176x144). To get the depth map mapped on the color camera's
viewpoint, we render that mesh from the viewpoint corresponding to
the color camera as depicted in Fig. 44. This rendering process
operated by OpenGL will generate the depth map in real
Figure 45: Examples of new depth maps obtained with our approach
However, since viewpoints of color and depth cameras are different,
some areas can be missing on the border of the mesh. Our solution to
resolve that problem of missing information was to extrude the
borders of the mesh. Examples are presented in the Fig. 45.
Extrusions are visible in the left part of the results (flat areas).
Content for auto-stereoscopic displays can be divided into two
categories. The first one is the 2D plus Depth format that requires a
color image with its corresponding depth map which can be easily
provided by our approach. The second one purpose is to generate the
multiple views and display it. In our approach, a 3D mesh reduces
significantly the complexity of the multi-view rendering because we
can use the same stereoscopic rendering algorithm than in computer
graphics. It consists of translating the viewpoint along a specific axis
according to the eye separation distance and the view direction.
(d) Results and conclusions
In the previous section, we have presented our new approach that is
using a depth camera based capture system to convert a live input
video stream into a multiple views thanks to mesh based approach.
We also presented a novel method to duplicate 3-D geometry on the
graphic card that significantly speeds-up the multi-view rendering
process. With this research, we were able to propose a complete real
time algorithm that can generate content in real-time for
auto-stereoscopic displays. We were also able to propose an
augmented reality application which consists of adding virtual
objects into a real environment. For example, it became possible to
basically manipulate (push, hit,...) a virtual ball, to add virtual
shadows, or a virtual blur based on the depth of the scene (depth of
field). Some results are presented in Fig. 46 wherein frame-rate is
upper than 40 frames per second.
Figure 46: Augmented reality results obtained by using our approach:
Depth of field, shadows and interactions.
In future works, we want to improve the 3-D mesh structure to
transform it from a single one into multiple layers. Benefits are that
this new representation will reduce the effect of the occlusions and
also will allow virtual objects to move behind objects of the scene.
Another work will be to focus on the improvement of the detection of
the collisions between the virtual objects and the animated mesh.
(6) 多視点カメラ撮影による野球のシースルー映像生成に関する検討
(a) はじめに
近年、テレビの視聴率低下が著しく、特に野球中継においてはその傾
向が顕著である。そのため放送局側では、視聴者が簡単に認識でき、か
つ大きなインパクトを与えられるような映像の提供を目指しており、従
来の野球中継にはなかった新たな視点での映像を作り出すことを望んで
いる。そこで我々は、複数のカメラ映像から任意の視点の映像を合成す
る自由視点映像生成の技術を野球放送に応用し、新たな視点での野球放
送用映像の生成を行う。
我々は、視聴者にとってピッチャーの投げたボールが最も見えやすい
視点は “ キャッチャーの視点 ”であると考える。これは、実際にボールの
軌道を認識する上で自分に向かってくる正面からの視点が一番確認しや
すい場所となるからであり、また昨今の野球ゲームにおいても、主にキ
ャッチャー付近の視点によって作られていることからも確認できる。し
かし実際の試合環境では、キャッチャー自身にカメラを付けることは難
しく、またキャッチャーの後方から撮影すると、ピッチャーやボールは
審判とキャッチャーに隠れてしまい、視聴者が見ることはできない。
そこで本研究では、キャッチャー後方（左、中央、右）と三塁側サイ
ドに設置した 4 台のカメラ映像からキャッチャーと審判を除去し、隠さ
れていたピッチャーとボールを透視したシースルー映像を生成する。
(b)手法
本手法では、野球の試合において、キャッチャーの左後方、真後ろ、
右後方、および三塁脇サイドの 4 視点から撮影した映像を入力として、
キャッチャーと審判に隠されたピッチャーを透視したキャッチャー視点
の映像の作成を行う。
全体の処理は、(1)ピッチャー領域の視点変換、(2)遮蔽物体領域の抽出、
(3)ピッチャー領域の合成、の 3 つに分かれる。
ピッチャー領域生成においては、野球の試合では、キャッチャーの後
ろにあるカメラに対してピッチャーが十分に遠くに存在するので、ピッ
チャーを平面領域であると仮定することができると考える。そこで、カ
メラ間の平面領域に対して成立する平面射影変換 Homography を利用
して、左右カメラに写ったピッチャーの領域を、中央カメラ視点へと変
換する。
遮蔽物体領域とは、キャッチャーや審判の写っている領域を指す。野
球では、キャッチャーや審判が常に動いているため、その領域を動画像
中で常に抽出しておく必要がある。そこで本手法では、領域抽出アルゴ
リズムの一つである Graph Cut を用いる。初期フレームにおいて、遮蔽
物体領域を手動で指定し、それ以降のフレームにおいては自動的にそれ
らの領域が抽出される。キャッチャーが補給の際に大きく動き、 Graph
Cut で対応しきれなかった場合には、手動で設定した領域を別途組み合
わせて用いる。
サイドカメラ
左カメラ
右カメラ
Homography 変換
Homography 変換
合成
図 47:左右カメラからのピッチャー領域の合成
図 48:遮蔽物体領域
抽出された遮蔽物体領域に対して、視点変換したピッチャー領域を合
成する。合成する際には α ブレンディングを行う。ピッチャーの投球モ
ーション中は、仮定する平面の位置が前後するため、合成時の重なり具
合を変化させることで対応する。さらに、左右のカメラからボールの位
置も視点変換しておくことで、通常は隠されて見えないボールの様子も
可視化される。
(c) 実験と結果
本手法による実験結果を図 49 に示す。カメラの前に存在した審判と
キャッチャーがけされ、それらを透視してピッチャーの投球を見ること
ができている。また、ボールを付加することによって、よりキャッチャ
ー視点の映像に近付いていると言える。今後は、遮蔽されていたピッチ
ャーの足の部分を CG などで復元し、より自然な映像生成を目指す。
図 49：キャッチャー及び審判領域を除去し，ピッチャーを透視した結果
（４）インターネットを用いた配信アプリケーション開発
(1) 大規模 RIA アプリケーション開発支援環境の研究
RIA(Rich Internet Applications)とは、動的な Web ページを用いた高
機能かつインターネットを経由してサービスを行うアプリケーションで
あり、大規模なサービスを行うためには Web ページの外形的なデザイン
と内部処理とを分離することが極めて困難である。そのため、アプリケ
ーションの設計者、開発者は Web デザイナと何度もやり取りをしながら
開発を進めざるを得ない。更に、現実のアプリケーションでは運用に入
ってからの変更・修正が頻繁に生じることが普通であり、このような状
況では Web デザイナと内部ロジックの開発者との協調は極めて難しく
なる。
本研究は、2008 年度から継続して行っているものであり、このような
状況を避けるためにオブジェクトの機能を別のオブジェクトに委譲して
処理を行わせるデレゲーションとよぶ技術を用いて、大規模な RIA アプ
リケーションを Web デザイナとは独立に設計・実現するための枠組みを
開発した。
Web デザイナは内部ロジックとは独立に、ユーザの利便性が高くなり、
かつデザインも優れた Web ページを作り上げるが、アプリケーション開
発者はこのページから例えばボタンをクリックして起動される処理を内
部ロジックとして開発し、それらを相互に結びつける必要がある。この
とき静的な Web ページであれば問題はないが、例えばボタンが回転しな
がら移動し、その間に内部ロジックを実行するというような動的なペー
ジを作ると、ページのデザイン部分とロジックの部分を完全に分離する
ことが難しくなる。本研究で実現したフレームワークは、このような状
況であってもページのデザインと内部ロジックを完全に分離して開発で
き、それらを相互に結合するための簡単な宣言を追加するだけで済むよ
うにして、大規模な RIA アプリケーションの開発及び保守を効率よく行
えるようにしている。実際の RIA アプリケーションをこのフレームワー
クを利用して開発したとき、デレゲーションのためのコードを自動的に
追加することから、処理のオーバヘッドが心配されたが、評価結果は無
視できる程度の処理量増加に留まり、十分実用になることが確認できた。
ここまでの成果によって、モジュールの独立性を保ちながら RIA アプ
リケーションを開発する手段を提供できたが、それでもなおソースコー
ドの記述量が多く、コーディング規約として守らなければならない制約
が多いことから、開発者の労力をさらに軽減するためアスペクト指向の
概念を利用した枠組みを新たに開発する研究を行った。アスペクト指向
は、オブジェクト指向設計ではカバーしきれないオブジェクト横断的な
処理を、オブジェクトの記述とは別のモジュールで宣言的に記述し、そ
の結果必要になる処理をオブジェクト記述に自動的に組み込む
(weaving とよぶ )ことによって、複雑なプログラムの設計、開発、保守
の効率を改善しようとするもので、本研究では AspectFX と名付けた枠
組みを開発した。
(2) ジェスチャインタフェースの研究
iPhone を初めとするスマートフォンやタッチパネル端末の急速な普
及によって、ジェスチャインタフェースが再び脚光を浴びている。従来
のタッチペンを用いたインタフェースに比べ、指しかも複数の指を同時
に使ったマルチタッチインタフェースや装置そのものを振る動作による
インタフェースなど、はるかに広範な可能性が広がり、タッチパネルデ
ィスプレイの性能向上もあって今後更に広く使われる可能性が大きい。
ゲーム機ではすでに体全体を使ったジェスチャインタフェースが実用化
されている。
一方、これらの機器に対するシステム開発者側を見ると従来と同じく
インタフェース部分をそれぞれがコーディングしている。ジェスチャの
定義とその検出、対応する操作や機能を動的に結合する中間層を実現す
ることによって、機器側（ハードウェア）とアプリケーションソフトウ
ェアをゆるく結合することができ、ユーザが機器を使うときに自分の好
みでインタフェースを変更できるようになる。例えば、スマートフォン
でアプリケーションの起動がアプリケーションアイコンのダブルタップ
に割り当てられているとき、ユーザカスタマイズ機能としてこの操作を
2 本指のシングルタップに変更するというようなことが、簡単に実現で
きる。
本研究では、 iPhone の iOS の下でこれを実現する中間層を開発し、
実機を用いた実験によって効率には全く問題がないことを実証した。全
く同様のアプローチによって Android などの他の OS についても対応す
ることを計画している。
（５）電子メディアと実物体の複合空間における協調作業支援の研究
(1) テーブルトップインターフェースと仮想空間の連携による演出プラ
ンニング支援
(a) 背景
近年、情報技術の発達により、コンピュータとのインタラクションの
方法のひとつとして、操作を直感的に知覚できるインタフェースが注目
されてきている。例えば、指でテーブル型のディスプレイに触れるなど
して操作を行うテーブルトップインタフェースや実物のデバイスに直接
触れることでデジタル情報を操作するタンジブルユーザインタフェース
が例として挙げられる。同様に、表現方法として、3次元情報の利用が盛
んになっている。テーブルトップインタフェースはテーブルを囲むこと
で、複数ユーザによる対面での操作環境を提供することができ、協調作
業や協調学習を支援する環境を構築するのに適しており、３次元情報は、
実空間にできない事を補助するほかに、臨場感の向上や理解の手助けを
施すため様々なデバイスに取り入れられている。
一方で、本研究では演劇創作における演出のプランニングに着目した。
演出のプランニングでは経験のない者にとっては舞台演出を総合的にイ
メージすることは容易ではない。また、そういった芸術的な創作活動を
支援する情報システムの現状としては、PCを用いたパーソナルなシステ
ムか、ストーリーテリングの支援を行うシステムがほとんどで、演出の
プランニングにおける協調作業には着目していない。
(b) 研究コンセプト
演出のプランニングの際には、異なる役割を持った様々な人が協調的
に議論を重ねて舞台演出を決定していく。そのため本研究では、システ
ムを操作したユーザが自身の作業だけでなく、他者の作業を意識しなが
らタスクを進められるようなイメージ共有支援を行うために仮想空間を
利用し、仮想空間にて演出の進捗を確認する際に共通のイメージを持て
るように設計する。テーブルトップインタフェースの実空間で演劇の舞
台再現を行い、仮想空間を用いて作業内容を表示する。仮想空間は自分
以外の作業も反映されるために、自分の操作時に他者の行動を視認可能
である。また、仮想空間は共通のディスプレイに表示するため、ユーザ
が舞台を見る視点に左右されない共通のイメージが作成される。これら
によって演出アイデアをユーザ間で共有しながら協調的に議論を重ねて
いくことが出来る。さらに、テーブルトップインタフェースはテーブル
トップを各ユーザが囲むことで、複数ユーザが関わる協調作業を支援す
る場合に役立つことが指摘されている。本研究においても、演出のプラ
ンニングのために複数ユーザが演出を議論する場として、テーブルトッ
プインタフェースが適していると考える。
(c) システム構成
コンセプトに基づいて、本システムは図 50に示すようにテーブルトップ
インタフェースとして DiamondTouchを用いる。ユーザは微弱な電流の
流れるシートに座った状態で操作を行う。 DiamondTouchのテーブル表
面に指で触れると身体に微弱な電流が流れ、その電流から接触検知とユ
ーザ識別が可能なインタフェースである。テーブルトップ上の画像は大
型ラックの上部に設置されたプロジェクタから投影される。テーブルト
ップ上では実物体の操作も可能とする。またシステム制御用の PC、仮想
空間を表示するためのディスプレイをそれぞれ一台用意した。
図 50：
システム構成
(d) システム概要
提案システムの特徴は、 1.実空間と仮想空間における舞台演出の再現
によるイメージ・イメージ共有支援 2.実物体による直感的な仮想物操作
である。以下ではその特徴について具体的に述べる。
・実空間と仮想空間における舞台演出の再現によるイメージ支援
本システムを用いてユーザは、舞台上の演出効果として、役者の立ち
位置、舞台、音響の３種類の再現と作業者が演出付け中にカメラワーク
を利用できる。舞台演出の中には、照明効果と背景や舞台といった大道
具による演出も含まれる。また、背景設定とカメラワークは仮想空間内
でのみ利用可能である。本システムでは、テーブル上の操作パネルを利
用して演出付けが可能である（図 51）。
図 51：テーブルトップ上操作画面
テーブルトップ上で舞台担当は、床板の選択、全体照明、環境光の色
設定、スポットライト、背景の選択（仮想空間内のみ反映）が可能とな
る。またカメラ担当は、左側・正面・右側・真上の４つの定点カメラの
切り替え、ズームイン /アウト、カメラ角の微調整が可能となる。音響担
当は、再生、巻き戻し、一時停止、音量の制御、音響種類を ME（ Music
Effect:音楽）と SE（ Sound Effect:効果音）から選択、効果音の始まりと
終わりのエフェクト選択が可能となる。音響を除く演出付けは、実空間
だけでなく、仮想空間へもリアルタイムで反映される（図 52）。そのた
め、仮想空間と実空間において照明の状態を再現したり、背景の確認を
しながら舞台を構成していくことが可能となった。また、従来舞台演出
の再現中の作業が個人作業になりがちであったが、仮想空間によってユ
ーザの配置に左右されない同一視点を得ることができ、他者の操作を意
識しながらの演出付けが可能となった。カメラワークの利用をすること
で、客席を意識した演出付けが可能となる。
図 52：仮想空間とテーブルトップ上の実物体
・実物体による直感的な仮想物操作
仮想空間とテーブルトップインタフェースの連携を実現することで、
操作はテーブルトップ表面を指で触る、実物の人形を動かすといった直
感的で理解が容易な操作のみで仮想物を操作可能となった。これにより、
仮想空間内の特定の仮想物を操作可能になり、さらに方向を反映するこ
とができる（図 53）。この特徴は、仮想空間内で、実空間での人形の移
動や照明の変更などの作業を確認可能とした。
図 53
実物体の操作方法
これらの機能を利用することにより、照明や音響、大道具などの演出を
実空間と仮想空間で総合的に再現できるため、舞台上のイメージを具体
的に把握しながら演出を考えることが出来るだけでなく、ユーザ同士で
お互いのアイデアを共有しながら演出に関する議論を行うことができる。
結果として、システムによる演出イメージ支援により演劇に精通してい
ないユーザでも、演劇創作における作業過程のうち演出のプランニング
について、支援を受けながら操作する事が可能となった。
（６）言語情報を利用したシーン推定に基づく物体認識技術
(1) 背景
近年、デジタルカメラやカメラ付携帯電話等の普及、 PC の低コスト
化に伴い、 PC やインターネット上にデジタル画像が大量に蓄積される
ようになっている。しかし、画像が膨大になるにつれ全ての画像を人手
で処理する事が困難になっている。そこで画像の自動分類やアノテーシ
ョンに対するニーズが高まっている。
これらを背景として画像中の物体の属するクラスを一般的な名称で識
別する一般物体認識と呼ばれる研究分野が盛んになっている。一般物体
認識を困難にしている理由として、一般的な名称が表す同一クラスの範
囲が広い事、同一クラスに属する対象のアピアランスの変化が極めて大
きい事等が挙げられる。例えば車というクラスを認識する場合には、自
転車やトラック、定義によっては飛行機等も車というクラスに含まれて
しまうこともある。このような問題に対応するために物体やカテゴリー
の表現の研究が行われてきた。また、アピアランスの変化に対応するた
めに、物体の写り方の変化に頑健な特徴量検出・記述や得られた特徴量
を元に分類を行う識別器等の研究が行われてきた。
しかし、一般物体認識に属する多くの先行研究では、一枚の画像中で
他の物体の存在を考えていない。このような各クラスを独立に扱ってい
る手法では、一般的な画像すなわち一枚の画像に対して複数の物体が写
っているような状況に適していない。
そこでコンテクストの一種である同時に写る物体同士の共起情報を用
いた研究がある。これらは物体が画像中に同時に出現する頻度を利用す
る事で、アピアランス特徴量のみからでは認識が困難な物体の認識が可
能である。しかし、物体同士の共起情報を用いる事には以下の２つの問
題点が挙げられる。第一に、学習サンプル中であまり共起していない物
体同士の共起も考慮するため、識別精度に悪影響を与える可能性がある
事である。第二に、物体を新たに学習しようとする時、その物体と他の
物体との全ての共起回数を算出しなければならず負担が大きい事である。
他のコンテクストを利用した研究として、画像中の三次元的な特徴で
ある Geometric Context を用いた研究がある。これらは画像中の領域の
三次元特徴を考慮する事で認識を良くする事が可能であるが、三次元特
徴もアピアランス特徴であるため、認識結果は画像から得られる特徴量
のみに依存してしまう。
そこで本研究ではコンテクストとして画像のシーンを用いる事で物体
認識の精度を向上させる手法の提案を行う。具体的には物体とシーンと
の共起を考慮する事で、学習画像中で共起していない場合でも物体同士
の共起関係を利用する新しい物体認識手法である。提案手法では物体と
シーンの共起を Google N -gram と呼ばれる言語資源における共起頻度
によって表現する。物体認識に、認識対象物体とシーンとの言語上の共
起頻度を利用することにより、その精度の向上を図っている。
提案方式を、屋内、都会、田舎の 3 シーンに適用した。物体としては、
ディスプレイ、ドア、ビル、車、道路、空、田畑、木、フローリングの
9 物体を認識対象とした。
(2) シーン推定に基づく物体認識手法
提案物体認識手法では、まず一般画像を入力し、入力された画像に対
して物体認識を行う。そして、認識された物体からシーンを推定する。
その後、物体とシーンの間でニューラルネットワークが構成され、各シ
ーンを尤もらしくするように物体とシーンの共起度を物体認識結果にフ
ィードバックを行い、再度シーンを算出する。フィードバックが指定の
回数終了した後、結果から適切な認識結果を求め最終出力とする。以降 ,
各ステップについて詳しく説明する。
(a) 一般画像入力
システムに一般画像が入力される。この際、全ての画像の長辺の長さ
が同じになるように、正規化が行われる。
(b) 物体認識
まず初回の物体認識が行われる。物体認識は、物体検出、確定処理、
領域の検出の 3 段階で行われる。以降、段階毎に説明していく。
第１段階の物体検出は Torralba らのブースティングを用いた物体検
出手法を用いる。検出する物体候補は長方形枠で検出可能な車、ビル、
ドア、ディスプレイ、木としている。第２段階では検出された枠の確定
処理を行う。確定処理は１段階で検出された枠それぞれの物体としての
尤度を算出する。ここで一般的に人工物は形がその物体を表し、自然物
は色がその物体を表す傾向がある事に着目する。そこで今回、確定処理
は検出枠が人工物であるか自然物であるかで処理を分岐させる。検出枠
が人工物の場合の確定処理は bag-of-features と pLSA(probabilistic
Latent Semantice Analysis) を用いて行う。まず検出された枠それぞれ
から SIFT 特徴量を取得する。そして取得した特徴量を bag-of-features
によってクラスタリングする。その得られた特徴量それぞれを Visual
Word として pLSA に適用し、その検出枠の尤度を算出する。このよう
にして、検出枠から SIFT 特徴量を取得し、その特徴量を用いて領域が
物体である尤度を求める事が出来る。
図 54 に実際の画像による例を示す。(a) が人工物の物体検出を行った
画像で、 (b) が人工物の確定処理を行った後の画像である。検出枠は線
の種類がそれぞれの物体に対応しており、実線が車で破線がドア、点線
（角）がビル、長鎖線がディスプレイ、長二点鎖線が木を表している。
図 54
物体検出と確定処理
この図の例では車として検出された枠から SIFT 特徴量を取得する。
その特徴量を元に、検出枠が車を表す尤度 P(車 ) を pLSA によって算出
する。この操作をそれぞれの検出枠に対して行い、 P(z)が閾値以上であ
ればその物体領域として採用する。検出枠が自然物の場合の確定処理は、
検出枠中の色相を用いて行う。図 55 の (c) が自然物の物体検出を行った
画像で、 (d) が自然物の確定処理を行った後の画像である。自然物の確
定処理では検出枠中で、条件に適合する画素が検索枠内の画素に占める
割合を尤度 P(z) とする。例えば木であれば色相が緑を表すような画素
となる。人工物と同様に尤度が閾値以上であれば、その物体領域として
採用する。第３段階では領域的に認識する物体を検出する。検出する領
域は、空、道路、田畑、フローリングとする。
(c) シーン推定
物体認識の結果を元にシーン推定を行う。本研究ではシーンとして屋
内、都会、田舎の 3 種類を扱っている。
図 55 に物体とシーン間のニューラルネットワークモデルを示す。こ
のモデルはニューラルネットワークにおける IAC(Interactive
Activation and Competition) モデルを基本とした構造になっている。
物体とスコアの共起度は Google N-gram 検索システムから特定の物
体名とシーン名の共起頻度を利用する。 Google N -gram は Web 上の膨
大な文章をデータベース化してある言語資源である。ここから特定の物
体名とシーン名の単語が Google N-gram の中で何回共起しているかを
取得する。
図 55
物体とシーン間のニューラルネットワークモデル
(d) フィードバック
得られた物体認識の結果に対して、シーンを尤もらしくするようにフ
ィードバックを行う。フィードバックはそれぞれの検出枠が持つ尤度に
物体とシーンの共起度を掛ける事で行う。
(e) 判定
前工程で求めたシーン確信度を用いて最終出力を決定する。最終出力
は物体の種類によって処理を分岐する。物体が人工物の場合には１番高
い確信度を持つシーンとして一定回数フィードバックした後、低い閾値
以上の物体を採用する。その後、２番目に高い確信度を持つシーンとし
て一定回数フィードバックした後、高い閾値以上の物体を採用する事で
人工物の最終出力とする。
(3)
実験
フィードバックの有効性の評価を行った。評価は検出枠が物体を捉え
られている（ TP:True Positive ）、検出枠が物体を捉えられていない
（ FP:False Positive）の 2 つの指標の数によって行った。検出枠が物体
を捉えられている場合は、枠が物体を重心で捉えている、あるいは枠内
に全体像が捉えられている場合のいずれかであれば捉えられているとし
た。領域的に表現される物体では、正解（ Ground Truth）全体を捉えら
れていた場合とした。使用画像は MSRC,PASCAL, LabelMe, Web から
取得した画像 200 枚とした。物体認識精度の結果を表 3 に示す。同表
より、フィードバックを行う事により TP の値を維持しつつ、 FP の値
を抑える事が確認できる。
表 3
物体認識精度
TP:True Positive FP:False Positive
物体検出のみ
580
2,673
物体検出+確定処理
461
602
物体検出+確定処理+フィードバック
462
405
（７）高度信号処理技術を用いた映像メディアの解析と生成技術
(1) 一枚の手ぶれ画像からの画像復元
近年のデジタルカメラの爆発的普及により、一般の人でも手軽に写真
を撮ることが可能となった。しかし撮影の際、露光時間中にカメラと被
写体の相対的な位置関係が変化することにより写真がぶれてしまい画像
の質が低下してしまう問題がある。このぶれを除去するために、光学式
の手ぶれ補正と呼ばれる、ハードの側面でぶれを補正する手法がしばし
ば使われている。これは、カメラのぶれの方向と反対方向（ぶれを軽減
する方向）に撮像素子を動かす機構によりぶれを軽減するものである。
しかし、この方法はぶれ幅が大きすぎると効果が無く、またコストがか
かるという問題がある。
そこで、一枚のぶれが含まれる画像から、ソフトウェアを用いてぶれ
を除去する研究が近年盛んに行われている。特に一次元的（直線状）に
ぶれた画像に対してぶれを除去する手法は数多く提案されている。しか
し、現実に発生するぶれは図 56 に示されるような二次元のぶれである
ため、このようなぶれを適切に除去できる手法の確立が望まれている。
PLUMB は、直線的なぶれをいくつか組み合わせた二次元ぶれが含まれ
る画像のぶれ除去に有効な手法である。この手法は、二次元ぶれを幾つ
かの直線に分け、それぞれの成分のぶれの方向、長さを求め、最後に最
適な組み合わせを求めるというものである。しかし、この手法にも問題
点が二つある。一つは計算コストがかかりすぎること、二つ目は直線の
組み合わせのぶれにしか対応していないことである。
本研究ではこの二つの問題を解消するべく、研究を行っている。これ
までの調査から、計算コストの高さが、方向を推定する際に 0°～ 179°
の全方向に対して処理を行っていることに起因することを明らかにした。
そのため、代表的な四つの角度 (0°,45°,90°,135°)のみで精度の高い復元
を実現する方法を模索している。この考えに基づき計算コストの問題を
解決した後に、より多様なぶれに対応できるように拡張した手法を考案
することが、今後の計画である。
図 56 原画像（左）に対し、図中央に示される軌跡を持つ二次元ぶれが
加わることにより、右図のようなぶれ画像が生成される。
(2) ブロックリフティング分解を用いた整数高速フーリエ変換の設計
ディジタル信号処理技術は近年急速に進歩し、現在では通信や音声、
画像処理などの化学、工学の幅広い分野で広く用いられ、今日の高度情
報社会では必須の技術となっている。このディジタル信号処理における
基本的な理論の１つに離散フーリエ変換（ DFT）があり、標準画像符号
化の JPEG や MPEG などにおける符号化のベースである離散コサイン
変換（ DCT）の原理は DFT を基に考えられている。
ディジタル信号処理の基本理論である DFT は、過去にも多くの研究
がなされており、計算コストを大きく削減した高速フーリエ変換（ FFT）
や整数のまま変換する整数高速フーリエ変換（ Int-FFT）などが提案さ
れている。 Int-FFT は、リフティング構造と呼ばれる手法で可逆性を維
持するが、高速構造の維持とフィルタ性能の低下防止のために正規化の
工程を省いている。このとき、正規化することでダイナミックレンジが
小さくなり、メモリの消費量を抑えることができる。しかし可逆性を維
持するためには、リフティング構造における乗算直後にラウンディング
処理をして整数に変換する必要があり、そのラウンディング誤差が問題
となる。特に分割数が増加するとリフティング数が増加し、つまりはラ
ウンディング誤差が増加し、 Int-FFT のフィルタ性能が下がる。
そこで本研究では、ブロックリフティング分解と呼ばれる構造を適用
させることで、正規化された Int-FFT のラウンディング誤差を低減させ
る手法を考案した。ブロックリフティング分解とは、従来のリフティン
グ係数がスカラ係数であったのに対し、行列係数を使用する（演算をま
とめる）ことで、ラウンディング処理の回数を削減し、その誤差を低減
する手法である。また、この構造は正規化を考慮していることから、従
来の手法よりも演算メモリの削減を実現した。
ブロックリフティング分解を適用した Int-FFT の性能評価をするため
に、従来の Int-FFT とのラウンディング誤差の比較及びリフティング係
数を有限語長に近似した際の量子化誤差の比較を行った。図 57、図 58
に示したように、結果として提案法の方が誤差を削減できている。
14000
18
提案法
10000
12
10
8
6
4
8000
6000
4000
2
2000
64
12
8
25
6
51
2
10
24
16
32
4
8
2
0
0
従来法
12000
従来法
提案法
14
変換誤差
ラウンディング誤差
16
分割数N
図 57. ラウンディング誤差の比較
0
6
7
8
9
10
11
12
13
14
15
量子化ビット数n
図 58. 量子化誤差の比較
(3) 色領域分割によるエッジ復元に基づく画像のインペインティング
インペインティングはデジタル画像の一部を修復する技術として考案
され、近年では画像内の特定の物体を除去する技術としても盛んに研究
が行われている。代表的な手法としてパッチインペインティングがある。
それは 9×9 ピクセル程度の小さい領域をパッチと呼び、復元対象の領域
において領域の境界線をまたぐようにパッチを想定し、存在する領域よ
り確からしい別パッチを抜き出してそのパッチを復元する。この処理を
境界から内側に徐々に繰り返し画像復元を実現する。この従来法は模様
などテクスチャの復元に非常に効果的であると知られている。しかし、
この手法では復元対象の内部に本来曲線が含まれている場合にそれを修
復することが困難であるという問題点が存在している。
本研究は、まず修復領域内に存在する曲線を復元し、次にこの曲線に
沿ってパッチインペインティングを適用する手法を提案した。また、ベ
ジェ曲線の曲線描画アルゴリズムを用ることで単純な弧を描く曲線だけ
ではなく、波を描くような曲線の復元も同時に可能としたため、様々な
画像の復元が可能となった。さらに本提案法では、原画像を幾つかの類
似する色ごとのグループに分類した色領域分割画像を用いることにより、
Ω 周辺に復元候補の曲線が多数存在する場合も、分類された色情報を用
いて候補を絞り込むことで曲線をより確からしく復元できた。同様に、
色領域分割画像を用いて、類似パッチの候補を絞り込むことで本提案法
はより高速に、より自然な修復を行うことができた。
(a)従来法
(b) エッジ復元画
(c) 提案
図 59: 実験結果
本提案法と従来法の復元結果の比較を図 59 に示す。本提案法は従来
法に比べ、より確からしく境界をつなぎ、より自然に復元されているこ
とがわかる。従来法では事前に曲線の復元を行っていないため、境界線
の一つが滑らかな曲線を描かず、段々になっている。また、もう一つの
境界は互いに繋がることなく自然な復元が出来ていない。本提案法を用
いた結果ではインペインティングを行う前に曲線を復元しており、さら
にその曲線に沿ったインペインティングを行っているため、従来法では
困難だった曲線を含む修復領域の復元を可能にした。また色領域分割を
用いることで処理時間の大幅な減少と修復領域の自然な修復を実現した。
(4) 音響フィルタバンクと平均調波構造を用いた音高推定
複数の楽器音が混合された音響信号から各音高・音色等を解析する技
術は自動採譜・音楽検索等の応用が可能であり広く研究されている。そ
の 1 つに平均調波構造を利用した手法がある。各楽器が独自に持つ調波
構造を楽曲から算出し、それに基づき楽曲全体の成分を楽器ごとの成分
に分類、音高を推定する手法である。この手法は単に鳴っている音がど
の音階なのかを特定するだけでなく、それがどの楽器の音なのかまで判
断できる点で優れているが、各楽器の調波構造を算出する段階での精度
が手法全体の精度を大きく左右してしまうという問題点がある。はじめ
の段階で音の重なりなどによって埋もれている音があった場合、正確な
調波構造を算出できず、分類結果が劣化してしまう。したがって、入力
信号をいかに音高を推定しやすい形状にするかが求められている。
本提案法は前処理に音響フィルタを適用して、入力信号を音高が推定し
やすい形状に変換、従来法の精度を向上させた。音響フィルタは音の特
徴である調波構造に沿って入力信号を強調できるフィルタであり、入力
信号を音高推定しやすい形状に変換できる。それにより従来法の問題点
を克服し、より高い精度で調波構造を算出することができる。
入力信号を音高推定しやすい形状に変換しない従来法では、周波数域に
おいて埋もれてしまって抽出できない音が多く、調波構造が正確に抽出
できず、音を正しく分離できなかった。一方、音響フィルタを用いた提
案法は抽出できない音が減少したことによって、高精度な調波構造を算
出でき、音高推定の精度向上を実現した。以下にグランドピアノとベー
スの２楽器で構成される Beatles の「 Lucy in the sky with Diamonds」
という曲について音高推定を行った結果を示す。上部の楽譜が提案法の
結果、下部が楽曲の正しい楽譜を示している。赤い丸が正しく推定でき
なかった場所を示している。図 60、 61 から見て取れるように 2 つの楽
器の音が混合する音源において、提案法では 10~20%の誤差でそれぞれ
の楽器の音を抽出し区別することができた。
図 60. グランドピアノ
図 61. ベース
(5) 構造的レギュラリティを課したロスレスウォルシュ・アダマール変
換に基づく整数 DCT の改善
近年、ブロードバンドの普及やインターネットコンテンツの発展によ
り、より高圧縮で高品質なデータが必要とされている。そこで、画像符
号化における JPEG2000 のようなロッシー・ロスレス統合符号化が注目
されている。離散コサイン変換（ DCT）は、世界標準である JPEG や
MPEG といった変換符号化の変換部に広く採用されている手法である
が、DCT をそのまま用いた場合、復元データに損失を生じるロッシー符
号化しか実現できない。そこで、リフティング構造という構造を用いて、
損失のないロスレス符号化を実現できる整数 DCT（ IntDCT）がいくつ
か提案されている。また一方で、そのような変換はハードウェア化する
際、フィルタ係数に低ビットの有限語長を割り当てる必要がある。しか
し従来の整数 DCT の係数に低ビット語長を割り当てると、画像符号化
のための変換で重要となるレギュラリティを損ない、低ビットレート時
にチェス盤歪みというエラーが発生するという問題がある。
本研究では、昨年度に考案した構造的レギュラリティを課した整数
DCT の改善を行った。従来、水平方向と垂直方向の処理は別々に行われ
るが、各リフティングステップにおいて水平・垂直両方向を同時処理す
る構造を提案した。その結果、従来の手法よりも圧縮効率の良い整数
DCT を実現した。
設計した整数 DCT の性能評価をするため、低ビット語長をフィルタ
係数に割り当て、ロッシー・ロスレス統合画像符号化に適用した。表 4
は 4 ビット語長を割り当てた時の
ロスレス画像符号化のシミュレー
ション結果である。またロッシー
画像符号化時の実際の再構成画像
を図 62 に示す。いずれにおいて
表 4. ロスレス画像符号化比較
も本提案法が同等以上の結果を示
（ bit rate [bpp]）
していることが分かる。
図 62. ロスレス画像符号化比較（ bit rate [bpp]）
(6) 直接リフティングを用いた M 分割パラユニタリフィルタバンク
(5) では変換符号化で最も実用的な DCT の統合符号化への応用につ
いて述べたが、DCT より高圧縮率を実現できるパラユニタリフィルタバ
ンク（ PUFB）というものがあり、その統合符号化への応用もいくつか
提案されている。しかし、それらの構造の複雑さから、ラウンディング
数の増加によるフィルタ特性の劣化や、対称性などの制約のための符号
化特性の劣化など、どれも実用的であるとは言い難い。
図 63. Direct-lifting based paraunitary filter bank (DLPUFB)
本研究では、 PUFB のより実用的なリフティング構造を提案する。昨
年度に整数 DCT の研究において提案した直接リフティング構造を用い
る。すると PUFB を構成する直交行列をそのままリフティング係数とし
て利用でき、ラウンディング数を大幅に削減し、 PUFB のそのものが持
つフィルタ特性を従来法よりも維持することができる。図 63 にその構
造を示す。
設計した DLPUFB の性能評価をするため、ロッシー・ロスレス統合
画像符号化に適用する。表 5、 6 はそれぞれロスレス画像符号化、ロッ
シー画像符号化のシミュレーション結果である。いずれにおいても本提
案法が従来法と同等もしくはそれ以上の結果を示した。
表 5. ロスレス画像符号化比較
（ bit rate [bpp]）
表 6. ロッシー画像符号化比較
（ PSNR [dB]）
(7) Edge-Directed Smoothness Filter フィルタを用いた観測モデルに基
づく画像拡大法
ハイビジョン機器の普及により、小さな画像をより大きな画像へと拡
大する画像拡大技術が重要性を増している。 Bicubic 法などの古くから
行われている画像拡大手法は、しばしば拡大画像にぼけが発生したり、
物体の輪郭などのエッジがジグザグ状に拡大されたりするアーチファク
トの発生に悩まされていた。これらの問題を解決するために、画像中の
エッジに着目し、その構造を利用することでより好ましい画像拡大を行
う手法が、近年数多く提案されている。しかしこれらの手法は、計算コ
ストが高く、またエッジ付近において不自然な拡大が行われる場合があ
り、より高速に安定した拡大画像を得るための手法が必要とされている。
本研究では、エッジ方向の滑らかさを持ち、エッジ付近の不自然さを
抑えた拡大画像を高速に生成する画像拡大法を提案した。提案法は、未
知の拡大画像と原画像との関係を観察モデルと呼ばれるモデルを用いて
定式化し、原画像から最も確からしい拡大画像を推定することで拡大画
像を得る。この推定の過程で、拡大画像に対してエッジが滑らかに構成
されるような制約を加えた。本研究ではこの制約を実現するために、
Edge-Directed Smoothness Filter と呼ばれるエッジ方向の滑らかさを
測るためのフィルタを新たに導入した。
提案法を用いることで、従
来法に比べアーチファクトの
発生が少なく、エッジ方向に
滑らかな画像をより高速に得
ることができた。図 64 に示
されるように、 Bicubic 法で
はジグザグ状に構成されてい
る縞模様が、提案手法では滑
図 64. 拡大画像の比較
らかに構成されていることが
（左） Bicubic 法（右）提案法
分かる。また表 7 から、近年
提案されている新たな画
像拡大法である NEDI 法
や SAI 法と比較しても、
提案法はより性能の高い
拡大を行えることが分か
る。
表 7. 画像拡大性能比較（ PSNR[dB]）
(8) 画素の接続関係を考慮した非線形リサイズ
表示デバイスの多様化に伴い、個々に異なる表示サイズに対して画像
を適切にリサイズする技術が重要さを増している。単純な拡大縮小や画
像の一部を切り取るクロッピング処理を用いた画像のリサイズでは、人
間の顔や前景の物体などの重要な領域がひずんだり欠落したりする問題
がある。近年新たに提案されたシームカービング（ SC）は、重要な領域
を保持しながら画像のリサイズを可能にする技術として注目を集めてい
る。
SC は、シームと呼ばれる 1 画素の幅を持つパスを削除することで、
画像幅を縮小する技術である。各画素には重要度がエネルギーとして定
められており、シームに含まれる全画素のエネルギーが最小となるシー
ムが削除される。この処理を繰り返し行うことで、画像中の不要な部位
のみを削除したリサイズ画像を得ることができる。しかし、 SC を用い
たリサイズでは、画像中の直線や曲線などの視覚的に重要な構造が維持
されず、リサイズ画像にひずみが生じる問題がある。
本研究では、画素の接続関係を考慮することで直線などの構造の維持
が可能な非線形リサイズ手法を提案した。提案法は、従来のシームカー
ビングと同様に定められたエネルギー総和が最小となるシームを選択し
て処理するが、画像幅の縮小は、画素を削除するのではなく隣り合う画
素の統合により行われる。また、画素の持つ構造を隣接画素間の輝度差
で定義し、接続関係を用いてエネルギーを計算する。このエネルギーは、
原画像の接続関係とリサイズ画像の接続関係の変化に応じて大きくなる
ため、原画像が持つ構造をなるべく維持するようなシームが選択される。
このように提案法は、リサイズ処理において常に原画像の持つ情報を参
照することで、ひずみの蓄積を抑えたリサイズを可能にした。
図 65 に示されるように、従来の SC では画像中の直線がひずんでしま
い、視覚的な違和感の大きな画像が生成された。一方で提案法を用いて
得られたリサイズ画像では、画像中の直線構造が維持されており、より
自然なリサイズ画像を得ることができている。
図 65. リサイズ結果の比較。（左）原画像（中央）従来法（右）提案法
(9) 離散ウェーブレット変換の非可分型 2 次元リフティング構造を用い
た方向適応型画像符号化
近年の PC や通信網の高性能化、高機能な
携帯端末の普及に伴い、マルチメディア（音
声・画像・動画像など）の情報量は急速に増
加し続けている。そのため、それぞれのマル
チメディアに対してより高度な情報圧縮技術
が求められている。
離散ウェーブレット変換（ DWT）は画像圧
縮に有効であることが知られており、標準画
像符号化 JPEG2000 のアルゴリズムに採用
図 66. DWT による
されている。JPEG2000 は JPEG に比べ、よ
画像符号化
り高圧縮・高画質を実現できるが、 DWT の
弱点である “方向分解能の欠乏 ”と呼ばれる問題により、テクスチャが豊
富に含まれているような画像に対しては、十分に圧縮することができな
いという問題がある。 1 次元変換である DWT を２次元信号である画像
に対して施す場合、 DWT を水平方向・鉛直方向に逐次的に行う。この
場合、変換された画像は水平・鉛直方向のみに方向性を有している為、
水平・鉛直方向以外の方向性を持つテクスチャ・コーナーなどは効率的
に表現できず、圧縮後の復元画像は図 66 の様に視覚的に劣化してしま
う。
（原画像では斜めの縞模様であるテクスチャが碁盤の目状に変化して
しまっている）これが “方向分解能の欠乏 ”による視覚的劣化である。
この問題を改善するために、 DWT を用いた 1 次元方向適応型リフテ
ィング (1D ADL)が提案されている。この変換は水平・鉛直方向以外に
も図 67 の様に、+45 度、-45 度など、様々な角度に変換方向を切り替え
ることができ、画像の特徴に合わせて適応的に方向性を持つウェーブレ
ット変換ができるため、 DWT よりも高い符号化性能が実現でき、かつ
視覚的に良好な画像符号化が実現できる。しかし、最適な変換方向を決
定する処理のために、多大な計算コストが必要であり、また 2 次元信号
である画像に対しては DWT と同様に水平・鉛直方向に逐次的に変換を
施し、水平・鉛直方向時に個別に変換方向を選択した場合、2 重に変換
方向を選択するという冗長性や、2 種類の異なる変換方向の選択により、
2 次元変換全体では所望の変換方向とは
異なってしまうという変換方向の歪みが
発生する。よって近年ではこれらの問題
点を解決する、計算・実装コストの少な
い方向適応型ウェーブレット変換の実現
図 67. 1D ADL による
方向適応型変換
について、盛んに研究されている。
本研究では、非可分型 2 次元変換を実現する DWT を基にした非可分
型 2 次元リフティング構造を提案した。従来の DWT 及び 1D ADL では、
各画素が 2 度処理されていたが、提案する非可分型 2 次元変換では、各
画素の処理は 1 度でよい。従って、最適な変換方向を決定する処理や、
画像全体を変換する処理のために要する計算コストを削減することがで
きる。更にサンプリング格子を、標準格子から斜め格子に取り替えるこ
とによって方向変換を実現した。これは変換処理における最初の段階で
変換対象画素の配置を変更する事に相当し、画像の各領域内特徴に応じ
て適応的に画素配置を変更する事で同一の変換処理システムを共有しつ
つ適応的に様々な方向変換を実現できる。また１次元の時と異なり逐次
的変換処理を行わない為、変換方向の歪みを発生させない。
提案する DWT を基にした非可分型 2 次元リフティング構造を用いた
適応的方向変換の性能評価を行う為、ロスレス・ロッシー画像符号化に
適用した。表 8 はロスレス画像符号化結果を表 9 はロッシー画像符号化
結果を示しており、図 68 にロッシー圧縮後の復元画像を示す。従来の
DWT に比べ優れた符号化性能が実現できており、また、1D ADL と比較
するとロッシー画像符号化性能は
ほぼ同等であったが、提案構造は
1D ADL よりシンプルな構造であ
り、計算・実装コストにおいて有
意性があることを示した。
表 8. ロスレス画像符号化比較
（ bit rate [bpp]）
表 9. ロッシー画像符号化比較
（ PSNR [dB]）
図 68. ロッシー画像圧縮後の復元画像
(左 )原画像 (中 )DWT (右 )提案法
（８）五感メディア協調作業下における脳機能の解析技術
(1)光による脳機能イメージングに関する検討
五感メディア協調作業のような、仮想環境とヒトとのインタラクショ
ンが介在するディジタル支援技術の開発においては、実環境と仮想環境
における脳機能の差異を踏まえたシステム構築が重要になってくるもの
と考えられる。本研究では、五感メディア協調作業下における脳機能を
解析することを目的とし、近赤外分光法 (NIRS:Near-InfraRed
Spectroscopy) に基づく脳機能イメージングに関する要素技術を展開す
ることを目的としている。 NIRS 脳機能イメージングは、使用環境や同
時に使用する機器に対する制約が少なく、被験者が自由に動ける状態で
測定が行えるため、五感メディア協調作業時の脳機能計測に適している。
しかし、光を照射、検出するプローブを頭皮上に装着しているため、脳
機能画像は生体組織の散乱の影響によって空間分解能やコントラストが
低下するという問題が指摘されている。医療画像の分野においては、生
体組織と物理的特性が類似した物質からなる生体モデル（ファントム）
を用いて装置の性能の評価が行われている。 NIRS 脳機能イメージング
装置の性能評価に用いるファントムには標準的なものがまだ無いため、
今年度の研究では、ファントムを作製して NIRS 脳機能イメージングの
空間分解能とコントラストの評価を行った。
NIRS 脳機能イメージング装置を評価するために作製したファントム
を図 69 に示す。ファントムは、表層組織（皮膚と頭蓋骨）、脳周囲に存
在する脳脊髄液、脳組織の 3 層で構成されている。各層は、生体組織と
光学特性値（散乱係数、吸収係数）が近い、ポリアセタール樹脂、エポ
キシ樹脂、イントラリピッド溶液を用いている。脳組織を模擬したイン
トラリピッド溶液中の任意位置に、エポキシ樹脂にインクを混入して吸
収係数を調整した吸収体を設置した。このことで、脳機能賦活部位で血
液量が増加することによる組織吸収の変化を模擬することができる。
図 69 NIRS 脳機能イメージング評価のためのファントム
(a) 全体写真、 (b) ファントム本体の構造、 (c) 脳機能賦活部位
ファントム実験では、ファントムの底部に NIRS 脳機能イメージング
装置の照射プローブと検出プローブを装着し、吸収体を設置していない
ときと吸収体を設置したときの各照射－検出プローブ対での検出光量を
測定した。複数の吸収体のイメージングを行うことで、プローブの配置
法による空間分解能とコントラストの差異を検討した。図 70(a)は一般
に用いられているプローブ配置（標準プローブ配置）、図 70(b)はプロー
ブの密度を高くした配置（倍密度配置）における測定点（照射プローブ
と検出プローブの中点）の分布と吸収体の位置を示している。標準プロ
ーブ配置における測定点の間隔は 21.2 mm、倍密度配置における測定点
の間隔は 15 mm である。吸収体の 1 つは高感度点（測定点直下）に配
置し、他方の吸収体は (A)高感度点か (B)低感度点のいずれか一方に配
置した。トポグラフィー画像の作成は、一般の装置で用いられているマ
ッピング法を用いた。この方法は、各照射－検出プローブ対で測定した
吸収体の有無による検出光の変化量を、対応する測定点にマッピングし、
空間的に補間を行うことで画像を作成するものである。
図 70 空間分解能評価のためのプローブと吸収体の配置
(a) 標準プローブ配置、 (b) 倍密度プローブ配置
直径が 10 mm の吸収体 2 つを高感度点の直下に配置し、 (a)標準プロー
ブ配置と (b)倍密度プローブ配置によってファントムのトポグラフィー
画像を作成した結果を図 3 に示す。画像中の実線は吸収体の位置、破線
は得られたトポグラフィー画像のピークに対する半値領域を示している。
また、2 つの吸収体の中央を通る線上（画像中鎖線）における断面図を
各画像の右側に示している。得られたトポグラフィー画像を見ると、ど
ちらのプローブ配置の場合でも、画像のピーク位置は吸収体を配置した
位置と一致している。ただし、吸収体のコントラストに関しては、倍密
度配置の方が、より良好な画像が得られていることが分かる。
図 71
脳機能賦活部位が高感度点にある場合のトポグラフィー画像
(a) 標準プローブ配置
(b) 倍密度プローブ配置
直径が 10 mm と 20 mm の吸収体を高感度点と低感度点の直下にそれぞ
れ配置して、標準プローブ配置と倍密度プローブ配置で測定した結果か
ら作成したトポグラフィー画像を図 72 に示す。2 つの吸収体が高感度点
と低感度点にある組み合わせは、低感度点にある吸収体のコントラスト
が最も低くなってしまう条件と考えられている。図 72(a-1)、 72(a-2)か
ら分かるように、標準プローブ配置で測定をおこなった場合、直径 10
mm、 20 mm のいずれの吸収体の場合でも、トポグラフィー画像中に低
感度点にある吸収体に対応したピークが見られないことが分かる。吸収
体が 1 つだけの場合には、吸収体が低感度点にあっても吸収体に対応す
るピークがトポグラフィー画像中に観察されていた。低感度点の吸収体
のコントラストは高感度点の吸収体に比べて低いため、相対的に低感度
点の吸収体のピークが見えにくくなっているものと解釈することができ
る。一方、倍密度配置で測定を行った結果である図 72(b-1)、図 72(b-2)
を見ると、吸収体の直径が 10 mm、20 mm のいずれの場合でも、2 つの
吸収体が高感度点にある場合（図 71）と比較するとコントラストは低い
ものの、吸収体の位置に対応した 2 つのピークがトポグラフィー画像中
に存在していることが分かる。
図 72
脳機能賦活部位が高感度点と低感度点にある場合の
トポグラフィー画像
(a) 標準プローブ配置、 (b) 倍密度プローブ配置
(1) 吸収体直径 10 mm、 (2) 吸収体直径 20 mm
脳機能の測定においては、脳活動によって血液量が変化する部位をあ
らかじめ設定しておくことはできない。したがって、2 つ以上の部位が
同時に賦活するような場合には、図 71 に示したような高感度点に 2 つ
の活動部位が一致するという結果が得られることはまず無いと考える必
要がある。したがって、吸収体が高感度点と低感度点に存在する場合に
低感度点にある吸収体が画像中に明確に現れないような標準プローブ配
置は、複数の脳機能賦活部位が同時に発生するような測定には不向きで
あると考えることができる。一方、倍密度配置の場合には、最も条件が
厳しい高感度点と低感度点に吸収体が存在したときにも、2 つの吸収体
に対応するピークが画像中に存在している。現在、光脳機能イメージン
グ装置で一般的に使用されているのは標準密度配置であるが、この配置
はファントム実験の結果からも分かるように、吸収体の位置に依存する
感度むらの影響を大きく受けてしまうという問題点がある。一方、倍密
度配置にした場合、感度むらを考慮した逆問題を解くというような方法
を用いずに、一般的なマッピング法によってトポグラフィー画像を測定
しても、感度むらの影響が低減されていることが分かる。このような結
果から、将来的な光脳機能イメージング装置においては、倍密度配置が
一般的に用いられるようになることが期待される。
（９）モデルベース人間計測・認識システムの研究開発
(1) はじめに
人間とシステムの円滑なインタラクションを実現するためには、シス
テムが人間の機能、特性、状態を十分に把握した上で、適切なサービス
を提供する必要がある。我々はより高度な Human System Interatcion
の実現のため、人間を観測対象とした画像センシング技術により、人間
に関わる定性的・定量的情報を獲得することを目指している。人間を観
測対象としたセンシングにおいては、画像情報から得られる特徴と、人
に関する事前知識モデルを活用しながら、如何にロバストに必要とされ
る情報を獲得するかが重要である。人間の持つ個人差やあいまいさにも
柔軟に対応しながら、個人の特性を抽出し、表現できる “Human
Sensing”技術の確立を目指し、様々な研究を展開している。画像情報と
人体モデルを併用した人間の形状や動作のモデリング。及び、映像から
の人間の行動認識に関する研究について今年度の成果を述べる。
(2) 実環境下におけるロバストな人物行動認識システム
(a)概要
人間の状態を推測しながら、適切なサービスを提供するような “察しの良
い ”情報環境を実現するためには、実環境中において活動する人物を検出、
追跡しながら、その行動を理解する必要がある。カメラを用いたシステ
ムは、非接触かつ広範囲なセンシングが可能であるため、人物の検出、
追跡、行動理解に関する様々な研究が行われている。しかし、照明変動
に代表される環境変動要因、人物の体型や服装の違いなどに対して、ロ
バストに動作するシステムを構築することは困難である。
我々は、事前に獲得した人間や空間に関する様々な情報を事前知識とし
てモデル化した上で、実環境中でロバストに人間を検出、追跡しながら、
行動を認識・理解するシステムを構築している。
(b)人物の検出と追跡
映像中の人物の検出と追跡は、様々な産業応用が期待される Computer
Vision における基本的な課題となっている。我々は、単眼カメラ映像を
用い、人物どうし、もしくは物体と人物の重なりによる遮蔽に対してロ
バストな人物の検出と追跡を実現した。人物の検出には、人体共通の特
徴として、頭部から肩にかけての輪郭形状を機械学習により獲得して検
出に用いた。また、人物の追跡には、得られた肩 -頭部領域を参照して、
その下部に複数の観測領域を設け、領域間に位置関係の制約条件を持た
せた Particle Filter を適用した。その結果、体の一部しか見えていない
オクルージョンが発生した場合や、複数人物が複雑に交差するような状
況においても、高精度な人物検出と追跡を可能とした（図 73）。
図 73
人物の姿勢変動を考慮した PF による人物追跡結果
(c)人物行動認識
現在、画像情報からの人物の姿勢推定技術は、セキュリティシステムに
おける行動認識、スポーツ映像のフォーム解析など、様々な応用が期待
されている。本稿では、単眼カメラ映像中の人物を検出・追跡した後、
高速かつ高精度に人物の 3 次元姿勢推定を実現する手法を提案する。検
出・追跡された人物領域に対して、頭部から肩にかけての外輪郭形状か
ら肩の関節位置、身体向き、スケールを求める。次に、身体部位を２本
のほぼ平行なエッジの線であると捉えることで高速に身体部位尤度を求
める。そして事前に用意した 3 次元人体モデルの向き、スケールを合わ
せ、自由度を減らして身体部位尤度にフィッティングすることで高速な
3 次元の姿勢推定を実現した（図 74）。
入力画像
部位尤度 Map 姿勢推定結果
図 74 単眼カメラからの 3D 姿勢推定結果例
(3) 画像情報からの人間形状・動作のモデリング
(a)概要
人に最適な製品を設計、選択するためには、人体に関する静的な形状・
寸法、動きやそれに伴う形状変形情報を定量的なデータとして取得、解
析する必要がある。レーザスキャナや多視点カメラシステムを用いた計
測により、静的、動的な 3 次元形状を高精度に取得することが可能にな
っているが、システムが高価であること、また、得られた形状データは、
後段の処理により解剖学的解釈、意味抽出を行わないと活用できない、
といった課題がある。
我々は、画像・映像から計測可能な画像特徴量と、事前知識として与
えられた人体モデル、人体寸法データベースを併用することで、特別な
装置をできるだけ用いず、簡便なカメラシステムによって、人体寸法・
形状・動きを計測可能な “Image&Model-based Human Metrics”の研究
開発を進めており、今年度の成果を述べる。
(b) 3 次元体型推定システム
人間の外観形状について、主要な要素の一つが体幹部の形状、一般的に
は体型であるということが言える。そのため、この体型という人体形状
における主要要素を、簡易に定量評価し、モデル化することができれば、
仮想的な洋服の試着システムの実現や、仮想空間における人体モデルに
対し、現実の人間に近い印象を持たせることなどが可能になる。これら
の実現を目指し、垂直な二方向からのシルエット画像という簡易な入力
を用い、事前に点群データとして蓄積した人体モデルを主成分分析し、
このシルエットを可能な限り再現するようにモデルを変形させることで、
人体の立体形状を復元するシステムを構築した（図 75）。
図 75
入力した人体シルエットと３Ｄ形状推定結果
(c) 手形状計測と姿勢推定
人間は日常的に様々な物体を手で把持し、使用している。こういった想
定に基づいて設計された製品は、使用者の手について、解剖学的に、ま
た把持という一つの動作に関しても分析や予測を行った上で、デザイン
されていることが望ましい。このため、設計段階において、その製品の
デザインを仮想的に評価し、また定量的に設計へフィードバックするシ
ステムは、ユニバーサルデザインの実現に対して大きな貢献を果たす。
しかし、こういった仮想評価のためには想定されるユーザのうちできる
だけ多くの人間の手のモデルをコンピュータ上に蓄積する必要がある。
また、人がどのようにその製品をつかむかという把持姿勢についても情
報も得る必要がある。我々は、ペーパースキャナと手部寸法データベー
スの統計データを活用した簡易な手部寸法計測手法を考案し、様々な人
間の手の寸法データを簡易かつ高精度に計測、データベースへ蓄積可能
なシステムを構築した（図 76）。これにより、計算機上で様々なサイズ
の手の仮想モデルを生成することができる。また、多視点画像計測によ
り、手の物体把持姿勢を推定することにより、製品形状と把持姿勢の関
係を解析することを可能とした。これにより、物体把持動作のシミュレ
ーションを通して、製品設計を仮想評価するシステムの開発が期待され
る。また、蓄積した多様な手のモデルと把持姿勢情報を用いて、物の形
状と人の行動との因果関係や、アフォーダンスといった問題への新たな
視点を導くべく、研究を行っている。
図 76
手部寸法自動計測システム
(4) おわりに
人間の持つ個人差やあいまいさにも柔軟に対応しながら、個人の特性を
抽出し、表現できる “Human Sensing”技術の確立を目指し、様々な研究
を展開している。画像情報と人体モデルを併用した人間の形状や動作の
モデリング。及び、映像からの人間の行動認識に関する研究について今
年度の成果を述べた。今後は、実環境においての実利用を想定した様々
な入力に対して、ロバストな認識結果を得ることを目的として研究を進
めていく。
（１０）複合感覚メディアの保存・再生に関する研究開発
人間の感覚情報をディジタル情報として取り扱う電気機器は，これま
でに産業基盤として多くのものが開発されてきた。例えばラジオ・テレ
ビ・インターネット等による音声・映像コンテンツの通信や放送が行わ
れているばかりでなく、音声や映像を CD・ DVD などにディジタル情報
として保存し「いつでも・どこでも」再生することが可能となっている。
近年、これらの視聴覚情報メディアに続き、第三のメディアである触
覚情報に注目が集まっている。この触覚情報は他の感覚情報とは異なり、
実世界における「作用・反作用の法則」に基づく双方向性を有する感覚
情報であることが特徴である。このため、これまでの多くの研究はモデ
ルベースやバーチャルリアリティに基づくものが主流であり、実世界の
触覚情報を取り扱うことは困難であった。
本研究では、実世界触覚情報の工学的な保存・再生を取り扱う学問で
ある「実世界ハプティクス」に関する研究を行い、熱感覚やなぞり感覚
などとの複合感覚統合技術の研究を行った。
(1) 実世界ハプティクスに基づくモーションデータベースの構築
(a) 概要
現代社会を取り巻く情報には多様な種類が存在する。これらの情報を
整理し統一的に管理するためにはデータベースの作成が必要であり、テ
キストによるデータベースだけでなく音声データベースや画像データベ
ースについても研究がなされている。これらのテキストや音声、画像デ
ータベースと比較して、人間の動作を保存・再現する上で最も重要とな
る実世界の触覚・力覚情報のデータベースに関する技術は確立されてい
ない。さらには、現存のシステムは単に空間上の軌道を再現するのみで
あり、位置と力の双方を考慮し統一的に管理された実用的なデータベー
スの構築までは行われていない。視聴覚情報だけでなく触覚・力覚情報
をも人類が利用可能な情報とするためには、テキスト情報、音声情報、
画像情報と同じように触覚・力覚情報に基づいたデータベース作成手法
の確立が求められる。
そこで本研究では、実世界の触覚・力覚情報を一元的に取り扱うモー
ションデータベースの開発を行った。モーションデータベースはモーシ
ョンデータベース管理システムによって構築、運用され、人間の動作の
登録、参照、削除や検索を可能にする。提案システムにより、産業・医
療分野における熟練者の動作を保存しておき、状況に応じて要求される
動作を自動的に再現するなどの応用が考えられる。
(b) モーションデータベースシステム
本研究では、実世界ハプティクスに基づくモーションデータベースを
提案する。図 77 にモーションデータベースシステムと制御システム全
体の概念図を示す。モーションデータベースシステムは、モーションデ
ータベース管理システムとモーションデータベースにより構成され、デ
ータベース管理システムの上位には、アクチュエータで構成されるハプ
ティックデバイスと制御端末が接続される。モーションの保存と再現に
関してはモーションコピーシステムにより実現される。モーションコピ
ーシステムは人間の操作者の動作を保存し、任意の場所、任意の時刻に
おいて再現できるシステムであり、再現される位置と力は保存された操
作者の位置と力と同一にすることが可能である。このモーションコピー
システムの機能を用いて、データベースへのモーションの登録と更新お
よびデータベースからの抽出を実現する。
Haptic Device (Slave)
Haptic Device (Master)
Control Terminal
Application System
Insertion
Updating
Retrieval
Deletion
Responses
References Responses
References
Response
Command
Control System for Haptic Devices
Motion Storage
Motion
Reproduction
Motion
Request
Motion
Deletion
Motion Database Management System
Insertion/Updating/Retrieval/Deletion
Motion Database
Motion Name
Force and Position
Motion Database System
図 77
モーションデータベース
(c) 実験結果
図 78 にモーションの抽出についての実験結果を示す。本実験では、
あらかじめ４つのモーションを操作者が入力し、データベースへの格納
を行った。４つのモーションはそれぞれ「モーション A」、「モーション
B」、「モーション C」、「モーション D」と名称を付した。図中 (a)はユー
ザからのモーション要求信号であり、
「モーション C」、
「モーション A」、
「モーション B」、「モーション D」、「モーション B」の順に信号が送出
されている。また、(b)は仮想マスタとスレーブの力応答であり、(c)は仮
想マスタとスレーブの位置応答を示す。実験結果より、それぞれのモー
ション要求信号に従って操作者の動作を再現できていることが確認でき
る。
Motion Request
D
C
B
A
Motion Request
0
Force [N]
5
5
10
Virtual Master
15
Time [s]
(a)
20
25
30
Slave
0
-5
Position [mm]
Reproduced Actual Motion
5
0
-5
-10
-15
-20
0
Motion C
Motion A
5
10
Virtual Master
0
Motion C
図 78
5
Motion B
15
Time [s]
(b)
20
Motion D
25
Motion B
30
Slave
Motion A
10
Motion B
15
Time [s]
(c)
20
Motion D
25
Motion B
30
モーションデータベースシステムの実験結果
(d) まとめ
本研究では、実世界の触覚・力覚情報を取り扱うことができるモーシ
ョンデータベースの構築について提案した。モーションデータベースシ
ステムはモーションデータベースとモーションデータベース管理システ
ムによって構成され、操作者のモーションをデータベースに登録し、管
理することができる。提案するモーションデータベース管理システムに
より、データ操作言語による上位層からの指令に従ってモーションの新
規登録や更新、検索、抽出、削除の実行に成功した。
(2) ハプトグラフを用いた人間のなぞり動作における触覚情報の解析
(a) 概要
近年、熟練技術者の技術の抽出・保存を目的とし、職人の鋭敏な触覚
を解析する研究が盛んに行われている。職人の持つ鋭敏な触覚は、鏡面
加工における表面情報の認識に活かされている。表面情報を知覚する際
には周波数に基づいた評価が重要となるが、これは人間が触覚を感じる
受容器であるマイスナー小体やパチニ小体といった器官により、 DC ～
400 Hz の周波数帯域の情報を得ることが可能であるためである。
本研究では、バイラテラル制御を実装したハプティックデバイスを用
いることにより、なぞり動作における触覚情報を抽出する。またハプト
グラフを用いて触覚情報を可視化することで、人間のなぞり動作におけ
る触覚情報を定量的に解析することが可能となる。
(b) なぞり動作における触覚情報の可視化
これまでに音声情報の解析において、可視化を行うことでその直感的
な理解を深める手法が提案されている。これと同様に触覚情報に対して
も時間－周波数変換を施し可視化することで、特徴の直感的かつ定量的
な解析を行うことが可能となる。ハプトグラフは抽出した触覚情報に対
してウェーブレット変換を行うことで得られるため、その出力となる振
幅は時間および周波数の関数となる。本研究においてはなぞり動作によ
り生じる触覚情報を周波数解析し，ハプトグラフを生成する。
Frequency [Hz]
10
50
100
150
200
250
300
350
400
0
8
6
4
2
2
4
6
8
10
12
14
16
18
20
0
Wavelet coefficient
(c) 実験
環境表面に対してなぞり動作を行ったときの応答を図 79 と図 80 に示
す。それぞれ、アルミプレートとプラスチックシートと環境表面が異な
る物体に対してのハプトグラフである。実験結果の網掛け部分は、操作
者が環境の凹凸を認識した部分を表しており、ハプトグラフにおいても
高周波の応答が強く出ていることが分かる。環境表面の凹凸が異なるた
め、周波数応答としてはそれぞれ異なる応答となっているが、人間がよ
り環境表面の凹凸を認識した部分ではどちらも共通して高周波帯域の応
答が強く表れている。このことから、人間が環境表面をなぞって認識す
る際の触覚情報における周波数応答の違いを確認することに成功した。
Time [s]
アルミプレートに対するなぞり動作のハプトグラフ
Frequency [Hz]
10
50
100
150
200
250
300
350
4000
8
6
4
2
2
4
6
8
10
12
14
16
18
20
0
Wavelet coefficient
図 79
Time [s]
図 80
プラスチックシートに対するなぞり動作のハプトグラフ
(d) まとめ
本研究では、バイラテラル制御に基づくハプティックデバイスを用い
てなぞり動作における触覚情報を抽出し、ハプトグラフにより定量的な
解析を行った。実験結果より、人間が環境表面をなぞって認識する際の
周波数応答を確認した。
(3) 熱感覚呈示のためのペルチェ素子のロバスト温度制御
(a) 概要
ペルチェ素子は電流を流した際の熱電効果によって熱移動を生み出す
ことが可能な熱デバイスであり、近年ではその応答性の速さに着目して
素子を熱感覚伝送に用いる研究が行われている。素子を熱感覚呈示に用
いるには素子の温度制御が重要となるが、温度制御においては人間の手
や外部物体がシステムに接触した場合に流れ込む熱流、あるいは素子の
ジュール熱による発熱等が外乱となってしまう。
本研究では、ペルチェ素子を熱感覚呈示システムに用いることを目的
とし、外乱オブザーバの構造を適用した熱外乱オブザーバを構築し、外
乱に対してロバストな温度制御系を提案する。
(b) ペルチェ素子のロバスト温度制御系
ペルチェ素子を用いた熱システムの概要を図 81 に示す。本システム
では素子の上に熱流束センサと熱電対が一体となった熱センサが乗せら
れており、人間の手や外部物体はさらにその上に乗ることになる。温度
制御においてジュール熱は素子内部に、外部から流れ込む熱流は熱セン
サ部に影響を与えるため、本研究においては外乱を補償するためにそれ
ぞれの部分において外乱オブザーバの構造を用いた熱外乱オブザーバを
構築している。
(c) 実験
ステップ状の温度指令を与えた場合の実験結果を図 82 に示す。本研
究では外乱に対するロバスト性を検証するために、15～ 20 秒の部分でア
ルミブロックを接触させている。実験結果を見ると一般的な PI 制御器
よりも外乱の補償が速く行われており、熱外乱オブザーバによってロバ
ストな温度制御が行われていることが確認できる。
26
Contact
Separation
25
Object
Sensor
Temperature [°C]
24
Proposed controller
23
PI
22
21
20
Peltier device
Heat sink
19
Command
18
5
10
15
20
25
30
Time [s]
図 81
ペルチェ素子を用いた熱システム
図 82
温度制御の実験結果
(d) まとめ
本研究では熱感覚呈示を目的とし、熱外乱オブザーバに基づくロバス
トなペルチェ素子の温度制御系を提案した。また、物体が接触した際に
流れる熱流等を熱外乱オブザーバにより推定できるため、熱流制御へも
適用が可能である。このように、ペルチェ素子が熱感覚呈示デバイスと
して良い特性を有していることを確認した。
(4) ダイナミクスを考慮したモード変換による車両操作システムの実現
(a) 概要
実世界の触覚情報を伝送するシステムでは、バイラテラル制御が基本
となっているが、和動－作動モード変換を用いた透明性の高い実現手法
が確立されている。本研究ではこのモード変換を異構造システムに拡張
することを目的とし、ダイナミクスを考慮した新しい手法の開発を行っ
た。本研究で取り扱う異構造システムは、マスタシステムとしてジョイ
スティック、スレーブシステムとしてモバイルロボットを用いている。
本システムでは、ジョイスティックの角度指令によりモバイルロボット
の速度を決定することで、動作範囲を無限大に拡張した力覚フィードバ
ックの実現に成功した。
(b) システムのダイナミクスを考慮したモード変換
本研究では異構造マスタ－スレーブシステムとして図 83 のような車
両操作システムを用いる。このシステムはジョイスティックによりモバ
イルロボットを操作するシステムである。ここで、ジョイスティックは
２自由度を有しており、モバイルロボットの並進動作と回転動作にそれ
ぞれ対応した制御系を構築する。
本システムでは、ジョイスティッ
クの角度情報によってモバイルロボ
ットの並進速度を決定するため、モ
Joystick
ード変換には微分操作および積分操
作を含む行列を使用することで、モ
ードにおけるダイナミクスを考慮す
Haptic
Transmission
ることが可能になっている。
Mobile Robot
図 83
力覚フィードバックを有する車両操作システム
(c) 実験結果
実験では、操作者がジョイスティックを用いてモバイルロボットに指
令を与え、走行実験及び衝突実験を行った。走行する路面環境は平坦な
路面と芝生路面の２パターン用意した。このとき、モバイルロボットｈ
が受ける力覚情報を操作者にフィードバックすることが可能かどうか検
証をしている。
図 84 にジョイスティックの角度応答およびモバイルロボットの速度
応答を示し、図 85 にジョイスティックのトルク応答とモバイルロボッ
トの力応答を示す。図 84 より、提案手法により次元の異なる情報間で
の応答値の一致が達成されていることが確認できる。さらに、図 85 よ
り、ジョイスティックのトルクとモバイルロボットの力が一致すること
で作用反作用が人工的に実現されていることが分かる。
このように、異なる構造を持つジョイスティック型マスタとモバイル
ロボット型スレーブとの間で、力覚フィードバックを実現することに成
功した。
1
2
Torque [Nm], Force [N]
0.8
Position [m],Velocity [m/s]
3
Joystick Position
Mobile-Robot Velocity
0.6
0.4
Impact Point
0.2
0
-0.2
-0.4
1
0
Joystick Torque
Mobile-Robot Force
-1
-2
Impact Point
-3
-4
-5
Frat area
Frat area
Grass area
-0.6
Grass area
-6
0
5
10
Time [s]
15
20
図 84 異構造システムの実験結果
果（角度－速度応答）
0
5
10
Time [s]
15
20
図 85 異構造システムの実験結
（トルク－力応答）
(d) まとめ
本研究では、異構造マスタ・スレーブシステムのためのダイナミクス
を考慮したモード変換を提案し、力覚フィードバックの動作範囲の拡張
に成功した。提案手法を車両操作システムに適用し、実験により異構造・
異動作範囲のハプティックシステム間での鋭敏な力覚フィードバックが
可能であることを確認した。本手法により、人間の行動を身体の範囲か
ら拡張させるための新しいヒューマンインタフェースの提案につながり、
物理的な移動を伴うことなく知覚・行動が可能になる「テレリアリティ」
の実現が期待される。
(5) テレモビリティシステムの研究開発
(a) 概要
近年、実世界の触覚情報を扱う実世界ハプティクスが注目されており、
据え置き型システムだけでなく移動型システムに対しても適用が望まれ
ている。このような移動型システムでは、触覚情報に加えて視覚情報を
統合して伝達することにより、操作者に遠隔地の情報をより直観的に把
握させることが可能になる。
本研究ではコクピットに搭乗した操作者が遠隔地で動作するモバイル
ロボットからの触覚情報と視覚情報を同時に得ることができる「テレモ
ビリティシステム」を開発した。
(b) テレモビリティシステム
テレモビリティシステムの感覚フィードバックコクピットを図 86、モ
バイルロボットを図 87 に示す。本システムではカメラにより取得され
た視覚情報がコクピットのモニタに表示され、触覚情報がアクチュエー
タを介して操作者にフィードバックされるため、遠隔地からの視覚情報
と触覚情報をリアルタイムで同時に取得することが可能となる。
Visual information
captured by camera
CCD camera
Steering
Brake
pedal
図 86
Accelerator
pedal
感覚フィードバックコクピット
Driving
wheel
図 87 モバイルロボット
(c) まとめ
本研究では、触覚情報と視覚情報をリアルタイムで取得することが可
能な「テレモビリティシステム」の開発に成功した。本システムにより、
触覚情報と視覚情報を統合してフィードバックすることが可能になるた
め、遠隔操作における操作性向上ならびに行動拡張が期待される。
（１１）実世界空間デザインと人間の感性に関する研究
In 1993, the city of Mostar, has lost its world-famous Stari Most – the
Old Bridge. The destruction of the oldest of its bridges was the final
blow to the once fine, multicultural city. Not long after the loss of the
Bridge the civil war in Bosnia and Hercegovina has ended, but the
city of Mostar still struggles to regain its urbanity.
In 2005, the reconstructed Old Bridge was opened to the public. Many
see it as an important contribution to the process of reconciliation.
Once again, Stari Most is at the centre of debates. Its reconstruction
is raising a number of questions about the relationship between
social processes and physical structures of the city.
Fig.88
In his intentCITY talk , which formed basis for this chapter, Darko
Radovic used the powerful example of the Old Bridge only to enter
some of those debates. His focus was on political aspects of public
space, on the Lefebrian concept of Right to the City and its physical
expressions. A richly illustrated chapter shows examples from
current research of the concept of urbanity of some European, Asian
and Australian cities and offers discussion about uses and abuses of
public space, about freedom and conflict, about loss and
reconstitution of public life.
Refereed journal article
RADOVIC, DARKO
“The roles of gentrification in creation of diverse urbanities of Tokyo”,
in Open House International December 2010, vol. 35 no.4, Issue:
Culture, Space and Revitalisation: Strategies and Experiences of
Urban Renewal and Transformation, pp. 20-29
This essay explored the roles of gentrification in urban regeneration,
focusing on Nezu and Yanaka, areas of Tokyo with direct historic
connection to Edo period. The key argument is that the quality and
strength of urban resistance in those precincts come from quality and
resilience of everyday lives of the inhabitants. Only “lived space
offers possibilities of resistance” (Ronnenberger, 2008), for “a dogged
power of resistance seems to emanate from the everyday lived
rhythms and the organization of time” (Meyer, 2008). The everyday
life of N.Y. contains
Fig.89
living lessons of cultural sustainability. That precinct is a significant
node of resistance to the threats of globalisation which pulls the
Japanese capital city - and many other cities around the world - into
the race without any (reasonable) end, into the race the finish of
which can be marked only by catastrophic environmental destruction
and cultural devastation (Radović 2009).
When speaking about the importance of such resistances, the chapter
reiterates the key conclusions from Another Tokyo (2008), that this
“invitation to respect traditional environments and its messages is
fundamentally different, even diametrically opposed to an “authentic
Japan” dreamed by Yanagita Kunio (Vlastos 1998); the ideas of
“civilization theorists” of Japanese 1990s who “found in Edo a
modernity not only for Japan but for the world” (ibid.); and the latest
examples of national-romanticism where, say, Fijuwara Masahiko
expresses his hope for the times where (nothing less but) “the
samurai spirit will save the world” (Fujiwara).”
Refereed Conference Papers
RADOVIC, DARKO
“They are telling me that the Japanese language does
word equivalent to the Western term “public”, Public
In-between City (PLiC) International Conference,
Architecture and Town Planning Technion, I.I.T., Haifa,
June 2010)
not have a
Life in the
Faculty of
Israel (6-10
Urban theorists usually speak about Tokyo as a city of profound
difference in relation to any city in the West. To stress the argument,
they tell how Japanese language does not have an equivalent to the
Western term “public”. This paper, which presents parts of a larger
investigation of urbanity and urban text(ure)s of Tokyo, starts from
there. It offers to discussion several controversial elements of the
project, with an emphasis on historic reasons of that intriguing
absence. Urbanity of historic Tokyo, Edo was, indeed, urbanity of
another kind , in the spirit of Lefebrian definition of the urban which
demands celebration of difference among cities.
Fig.90
Fig.91
The paper argues in favour of acts of urban resistance, as expressions
of cultural sustainability in contemporary Tokyo. Many spaces and
spatial practices of cultural resistance are decidedly of the place, and
they
present
formidable
opponent
to
booming
large-scale
developments which are enforced (universally, not only in Japan or in
Tokyo) by neoliberalism reframed as globalism.
RADOVIC, DARKO
“Teaching and learning from cross-cultural encounter: agendas for
XXI century”, in EIC-IKI Symposium 2010 Teaching and Learning
with Global South : Environmental, Urban and Architectural Design
Education for a Just World , 18 December 2010 (forthcoming)
This paper opens with brief discussion of some of current trends in
architectural and urban design education, only to stress the need for
new agendas, strong enough to stand up to the challenges of the
twenty-first century - most notably those of globalisation and
associated myths, and imperatives of urbanisation, ecologically and
culturally sustainable development.
Fig.92
The emphasis is on the need to embrace Radical Realism, meaning
that to be a realist today means to embrace the necessary paradigm
shift, and to achieve a radical break with an business-as-usual
approach to conception and production of space. The discussion will
propose the agendas for a new avant-garde, an avant-garde with a
cause based on the ideals of polycentric, environmentally and
culturally sustainable, just world.