...

リアリティ音声音響通信技術

by user

on
Category: Documents
17

views

Report

Comments

Transcript

リアリティ音声音響通信技術
モバイルコミュニケーションスタイルを変革する新インタフェース技術
立体音場
モバイル
バーチャルリアリティ
特
集
リアリティ音声音響通信技術
モバイルブロードバンドの実現により,移動通信環境下でも高臨場な通信
が可能となります.伝送する音声音響の品質を究極まで高め,立体音場を再
や す だ
や す よ
お お や と も ゆ き
安田 泰代 /大矢 智之
現することにより,移動通信における新しいコミュニケーションスタイルを
実現する技術について,そのサービスの実現に向けた取り組みを紹介します.
NTTドコモ
ディア化に向かって進化してきました.
新たなアプリケーションや,ひいては
このマルチ次元化を極限まで高めた形
新たなモバイルコミュニケーションスタ
態がリアリティ音声音響通信です.立
イルを創造し,モバイルブロードバン
その高速性を生かしたアプリケーショ
体(3D)音場そのものを伝送するこ
ド通信の可能性を生み出すことを目指
ンの浸透により,今日のインターネッ
とにより,あたかもその場所にいるよ
して研究を進めています.
トアプリケーションは爆発的に発展し
うな感覚を再現した仮想音空間を構
ここでは,特に音メディアの伝送品
てきました.移動通信においても,第
築することが可能となります.これが
質を極限まで高めるモバイル3D音響
3 世 代 移 動 通 信 (IMT-2000:
さらに発展し,視覚情報を含めたマル
通信技術に焦点を当て,その具体的
International Mobile Telecommuni-
チメディア環境に究極までリアリティ
なサービスイメージおよびプロトタイプ
cations-2000)や無線LANをはじめと
を持たせたものがバーチャルリアリティ
システムを紹介します.
する高速データ通信のインフラが急速
通信です.
音声音響サービスの進化
高速データ通信インフラの発達と,
に整いつつありますが,モバイルブロー
NTTドコモ マルチメディア研究所で
ドバンドの利点を十分に活用するアプ
は,これら究極のリアリティの実現が
リケーションの登場は,今一歩,出遅
れているのが現状です.
高速/高品質 通信
音声を伝送するのが携帯電話の出発
点でしたが,インフラの進歩によって
ブロードバンド環境が安価に提供でき
る時代になると,より豊かな基本音声
三次元
3D音声音響通信
バーチャルリアリティ
通信
機能を誰もが簡単な操作で利用でき
るようになると期待できます.図1に
示すように,移動通信においては,旧
二次元
ステレオ音楽
動画像通信
来,音声通信のみのモノラル・モノ
メディアでしたが,M-stage Music
(1)
一次元
音声通信
のステレオ音 楽 伝 送 やF O M A
( Freedom Of Mobile multimedia
Access)のビデオホンに代表されるよ
モノメディア
マルチメディア
図1 マルチ次元・マルチメディア通信
うに,徐々にマルチ次元化/マルチメ
NTT技術ジャーナル 2003.9
71
モバイルコミュニケーションスタイルを変革する新インタフェース技術
モバイル3D音響通信
もしもし
■サービスイメージ
もしもし
バーチャル音響を利用したアプリケー
B
ションとしては,現実の空間と全く同
A
じように音源を定位させ,究極のリア
リティ実現手段として利用するものや,
現実とは異なる仮想空間を人工的に
つくり出すものがあります.
図2 3D音響三者 通話イメージ
図3 3D音響遠隔 会議イメージ
ため,会場と一体感が味わえるスポー
ませんが,シューティングゲームやRPG
ツやコンサートの放映などが考えられ
やアクションゲームに3D音響を組み
スにリアリティ音声音響通信技術を応
ます.
合わせることで,よりリアルに没入で
用することで,相手の声が耳元から聞
(2)
こえるのではなく,あたかも相手と向
視覚情報に加えて音の到来方向感
次に述べるのは,この技術を応用し
たサービスの一 例です.
(1)
高臨場感サービス
基本音声サービスやTV 電話サービ
3D音場ナビゲーション
きる世界を提供することができると期
待されます.
き合っているような感覚を与えたり,
から目的位置を認識させる3D音場で
携帯電話で近くの敵と撃ち合いをす
TV 電話の画面から声が聞こえたりと
のナビゲーションも考えられます.例
るゲームがすでに欧州で登場していま
(2)
いうように,現実に近いかたちで会話
えば,図4に示すように全地球測位シ
す が,このような位置情報をベース
を行うことが可能となり,長時間の使
ステム( GPS: Global Positioning
にしたゲームやテーマパークのアトラク
用でも疲労度が少なくなると期待でき
System)などによって得られる位置
ションなどに3D音響技術を取り入れ
ます.
情報を利用し,人ごみの中で相手の姿
ることで,従来の映像を中心とした構
は見えなくても声が実際にその人がい
成に「音を手がかりにする」という要
うに話者を仮想的に分離して配置する
る方向から聞こえてくるように感じる,
素を加えることができます.ユーザの
ことにより,誰が発言しているかとい
というような待ち合わせナビゲーショ
ロケーション,モビリティを考慮する
う話者分離が容易になります.さらに,
ンが可能となります.また,美術館や
点はモバイルならではのものであると
これに頭の動きをフィードバックする
博物館において,あるエリアに入ると
いえます.
ことで,遠隔地から会議に参加する場
そのエリアの展示物の説明が各展示物
■技術課題
合などにおいても,実際にその場(会
の位置から聞こえてくるようにするこ
DVDの普及に伴い,5.1チャネルに
議室)にいるかのように自然な音場の
とで,どこに何が展示されているかが
対応した民生用サラウンドスピーカシ
また,三者通話では,図2に示すよ
中で通話することが可能になります
音によりわかる,というようなバーチャ
ステムも数多く生産されていますが,
(図3).参加者数が多くなると,話
ルガイドや,繁華街において広告の音
モバイル環境下では,このような多数
者分離の効果がより顕著になり,遠隔
情報がその店や商品の方向から聞こえ
のスピーカを持ち歩くことは現実的で
会議での複雑な議論のやり取りをより
てくるタウンガイドのような用途も広
はなく,移動通信への直接的な適用は
自然なかたちで知覚できるようになり
がります.
困難です.
(3)
ます.
3D音場ゲーム
この問題を解決するのに有効なもの
さらに,マルチメディア配信や放送
PCやTVゲームにオンラインゲーム
として,仮想的に3D音場を創出する
型サービスにおいても,本技術を適用
が登場したり,NTTドコモの携帯電
バーチャル音響技術であるバイノーラ
して高臨場化することが可能です.い
話サービスのiアプリでゲームができ
ル(b i n a u r a l )再生技術やトランス
つでもどこでも映画館のようなサラウ
るなど,通信と娯楽が融合しつつあり
オーラル(transaural)再生技術
ンド音が楽しめるモバイルシアターや,
ます.現在は,それらのゲームにおい
の移動通信への適用が考えられます.
その場の雰囲気までもが伝わってくる
て「音」は背景音楽(BGM)に過ぎ
これらバーチャル音響を再現するた
72
NTT技術ジャーナル 2003.9
(3)
特
集
GPS
位置B
位置A
バーチャル音響A’
(ステレオ)
サーバ
方向B
音声A(モノラル)
方向A
B
A
こっちよ
どこ?
!
図4 待ち合わせナビゲーションイメージ
間の知覚特性を積極的に利用した最
適化が必要であり,知覚機構の解析
既存技術
研究課題
およびモデリングに基づいた知覚重み
生体情報解析技術
HR TF測定技術
音声音響
信号処理技術
高速HR TF畳み込み技術
次世代音声音響聴覚モデル
簡易HR TF補間技術
知覚重み付けHR TF
レンダリング技術
測位技術
ウェアラブル
インタフェース
技術
慣性・地磁気
ハイブリッドセンサ技術
3D音声音響符号化伝送
技術
GPS位置情報利用技術
次世代測位技術
バイノーラル再生技術
能動音場制御技術
付けバーチャル音響再現技術が鍵とな
次
世
代
バ
ー
チ
ャ
ル
音
声
音
響
制
御
技
術
ります.また,これらの情報をどのよ
うに移動通信路で伝送するか,トラン
スポート面の検討や携帯環境に適した
測位技術,ヒューマンインタフェース
の高度化も,移動通信ならではの技術
課題といえます.
プロトタイプシステム
モバイル3D音声音響通信の実現性
を検討する第1ステップとして,先に
図5 次世代バーチャル音響制御の技術課題
述べたサービスイメージを可視化した
プロトタイプシステム(図6)を構築
しました.
めの基礎技術は,すでにさまざまな分
は 頭 部 伝 達 関 数 ( HRTF: Head
野で発達しつつあります.しかしなが
Related Transfer Function)
ら,図5に示すように,これらを移動
中心とした信号処理技術です.移動
本システムは,位置センサ,方向セ
通信の分野に応用するためには,まだ
通信に適するように,簡易で低演算量
ンサ,携帯情報端末(PDA: Personal
まだ解決すべき課題があります.1つ
のフィルタリングを行うためには,人
Digital Assistant),ヘッドフォン,
(4)
を
■システム構成
NTT技術ジャーナル 2003.9
73
モバイルコミュニケーションスタイルを変革する新インタフェース技術
デモルーム2
デモルーム1
位置センサ
位置センサ
仮想音源
無
線
L
A
N
ダミースピーカ
仮想音源制御サーバ
無線LAN
内部音源
クライアント側装置
バーチャル
音響出力
音声入力
室内音響伝達特性フィルタ
モーションフィードバック
図6 3D音響通信プロトタイプシステム
■技術概要
位置センサはX-Y-Zの各軸について
Z
位置を検出できますが,本システムで
は水平面であるX-Y軸の情報のみを利
回転角
用しています.人間の方向知覚は水平
方位角
面よりも垂直面に対しては鈍いとされ
仰角
ていることから,Z軸(高さ情報)は
Y
位置(X,Y,Z)
方向(方位角,仰角,回転角)
X
図7 位置方向情報
用いないことで処理量を削減していま
す.これと同じ理由から,方向センサ
に関しても水平面である方位角の情報
のみを利用しています.
仮想音源制御サーバでは,レイク・
テクノロジー社(5) が持つ,仮想的に長
仮想音源制御サーバおよび無線LAN
成し,無線LANでクライアント側へ送
いフィルタを低遅延で実時間畳み込み
から構成されています.位置センサは
信します.クライアント側はPDAと無
処理を行うという技術を利用し,PC
天井に取り付けられ,受聴者の位置を
線LANによりモバイル感覚を実現して
ベースでのバーチャル音響作成が可能
検出します.方向センサはヘッドフォ
います.複数のユーザはPDAに備えら
となっています.畳み込みフィルタは
ンに取り付けられ,受聴者の頭の動き
れたマイクロフォンによって,互いに会
頭部伝達特性と室内音響伝達特性を併
(方向)を検出します.得られた位置
話することができ,バーチャル音響環
せた約7 000タップの有限長インパルス
境による通信を再現しています.
応 答 ( FIR : Finite Impulse Response)
および方向情報(図7)を基に仮想
音源制御サーバでバーチャル音場を生
74
NTT技術ジャーナル 2003.9
フィルタです.このフィルタ長は,典
特
集
型的な低残響のリスニングルームの室
ても声の到来方向感から相手のいる位
内音響特性と同等です.本システムで
置がわかる3D音場ナビゲーションの
は8つの方位角のHRTFだけを持ち,
サービスイメージを具現化したものです.
その他の方位角については補間を行う
いずれも,これまで述べてきたバー
ことによりメモリ量を削減しています.
チャル音響を応用したサービスイメー
さらに,距離感は音の強弱で表現す
ジの基本的な機能を可視化するもの
ることにより,距離に応じたHRTFを
で,次世代の音声音響サービスの高度
用意する必要がなく,メモリ量を削減
化のイメージを具体的に体験すること
しています.
このような処理量およびメモリ量の
削減を行うことで,同時に3ユーザま
でのモーションフィードバックやHRTF
■参考文献
(1) http://www.nttdocomo.co.jp/p_s/mstage/
music/index.html
(2) http://www.hotwired.co.jp/news/news/
20030106204.html
(3) 北脇・菅村・小泉:“音のコミュニケーショ
ン工学初版,”pp.172-178,コロナ社,1996.
(4) C. I. Cheng and G. H. Wakefield:“Introduction
to Head-Related Transfer Functions
(HRTFs): Representations of HRTFs in Time,
Frequency,and Space,”J.Audio Eng. Soc.,
Vol.49,No.4,2001.
(5) http://www.laketechnology.com/
が可能となりました.
今後の展開
今後は実網への適用を視野に入れ,
畳み込み演算の実時間処理を,標準
このプロトタイプシステムを用いて定位
的なIntel Pentium 4のPC上で実現
精度向上と処理量削減のトレードオフ
しています.
問題,ネットワーク遅延や音声音響符
■機能
号化の影響の検証など,技術課題に
本システムでは,次に記述する2つ
取り組みます.さらに,モバイルなら
の機能を実現しました.1つ目は,3
ではのロケーション,モビリティを考
D仮想音響空間の再現です.受聴者
慮した音場制御および接続技術の研
の動きを実時間処理によりフィードバッ
究開発を進めていきます.
クすることで,デモルーム内の任意の
携帯電話端末を片耳に当ててモノラ
位置に仮想音源を定位させることがで
ルの音声会話をする現在のコミュニ
きます.例えば,デモルーム1にダミー
ケーションスタイルが,この技術によっ
のスピーカボックスを置き,その位置
てヘッドフォンやイヤフォンをつけて3
に音源を定位させるとします.実際に
D音場で会話をするようになり,さら
はそのダミースピーカは音を発してい
には携帯電話の小さなスピーカでも3
ないのですが,ヘッドフォンを介して
D音場制御が可能になってヘッドフォ
創出された仮想音響空間ではスピーカ
ンすら不要になっていくかもしれませ
から音が鳴っているように聞こえ,受
ん.携帯電話は音や情報を伝えるデバ
聴者がデモルーム内を自由に動き回っ
イスからバーチャルリアリティ,つまり
ても,その音は変わることなくダミー
その場の雰囲気や感覚までをも伝える
スピーカの位置に定位し続けるように
デバイスへと進化していくでしょう.
(左から)大矢 智之/ 安田 泰代
なっています.より自然で違和感のな
い音場での通信イメージを具現化した
ものです.
2つ目は,ユーザ間の位置関係を仮
想的に再現することによる3D音声音
響通信機能です.デモルーム1と2に
いるそれぞれのユーザには,ヘッドフォ
ンを介して聞こえる相手の声が実際の
位置関係どおり,壁の向こうに定位す
るようになっています.姿は見えなく
モバイル3D音響通信技術は,ワイヤレス
ブロードバンドにふさわしい魅力あるサー
ビスを実現する最も有力な候補技術の1つ
だと考えています.
◆問い合わせ先
NTTドコモ
マルチメディア研究所
マルチメディア信号処理研究室
TEL 046-840-3515
FAX 046-840-3788
E-mail [email protected]
NTT技術ジャーナル 2003.9
75
Fly UP