Comments
Description
Transcript
論文本文 - 音声言語研究室
社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE. 分散マイクロホンシステムを用いた音源位置同定 奥村 元† 趙 國†† 西浦 敬信†† 山下 洋一†† † 立命館大学大学院 理工学研究科 †† 立命館大学 情報理工学部 〒 525-8577 滋賀県草津市野路東 1-1-1 E-mail: †{okumura,cho}@slp.is.ritsumei.ac.jp, ††[email protected], †††[email protected] あらまし 高精度の音源分離を実現するには音源位置の同定が必要である.本報告では,天井に設置した分散マイク ロホンシステムを用いて実環境下における音源位置同定を実現するために,音源からの到達時間差を考慮したチャネ ル間相関に基づいた手法を提案する.多数のマイクロホン対に対する相関を CSP 法を用いて算出し,音源候補位置に 対してチャネル間相関を加算し,最大の相関を与える位置を音源位置として同定する.評価実験によって,実環境に おいて高い音源位置同定精度が得られたことを示す.また,実時間処理の可能性についても検討する. キーワード 音源位置同定,分散マイクロホンシステム,CSP,実環境,到達時間差 Sound Source Localization Using a Distributed Microphones System Hajime OKUMURA† , Kook CHO†† , Takanobu NISHIURA†† , and Yoichi YAMASHITA†† † Graduate School of Science and Engineering Studies, Ritsumeikan University, †† College of Information Science and Engineering, Ritsumeikan University 1–1–1 Noji-higashi, Kusatsu-shi, Shiga, 525–8577 Japan E-mail: †{okumura,cho}@slp.is.ritsumei.ac.jp, ††[email protected], †††[email protected] Abstract Accurate localization of sound sources is indispensable for high-quality sound capture. The paper propose a new method of the sound localization using a distributed microphone system that is placed under the ceiling of a room. The sound source is localized based on correlation of two channel signals that are delayed with the time delay of arrival for a hypothetical sound source. The correlation coefficients for many microphone pairs are calculated by the cross-power spectrum phase analysis (CSP) method. The proposed method searches the position that maximizes the correlation coefficient accumulated over the microphone pairs. Experiment results show that the proposed method gives a high accuracy of the sound localization in a real environment. The possibility of real time processing is also studied. Key words Sound Source Localization, Distributed Microphones System,CSP,Real Environment,Time Difference of Arrival 1. は じ め に よって目的音は歪み,音声信号が劣化してしまい,音声認識シ ステムの認識率が著しく低下してしまう.このため,ハンズフ 近年,情報機器が広く普及してきており,情報機器を使い慣 リー音声認識では,複数の話者,複数の雑音源,部屋の残響が れた人だけでなく,初心者,高齢者を初め「だれでも」 「どこで 存在する環境下で,対象とする話者を同定し,その音だけを取 も」「簡単に」使える情報機器のインタフェイスが期待される り出す技術が不可欠となる.近年,この問題を解決するために, ようになってきている.ユーザが自然な形で機器を使用するた マイクロホンアレーなどの収音システムによる研究が盛んに行 めの入出力技術として音声を用いるインタフェイス技術がこれ われている.これらの研究は発話者のいる方向に収音装置の指 までにも広く研究されている.ユーザにとって自然で使い勝手 向性を形成して目的音声と雑音を分離することによって高 S/N の良い音声インタフェイスを実現するためには,ユーザがマイ 比での音声受音を実現している.指向性の形成によって観測雑 クロホンの位置を意識することなく,任意の位置で発話できる 音の影響を除去するには,話者や雑音源といった音源の 3 次元 ようにする必要がある.しかし実環境において,マイクロホン 位置推定が重要となる.また,推定された音源位置情報は,位 から離れて発話された音声を収音する場合,背景雑音や残響に 置センサを用いるサービスに用いることができ,ロボットなど —1— のヒューマン・マシン・インタラクション,ビデオカメラが話 者位置を自動追従する講義自動撮影やテレビ会議などといった 多岐にわたるシステムに応用できる. 2. 2 CSP 法による到達時間差推定 音源位置の同定では,近距離音場であれば図 2 のように球 面波として扱い,それ以外は平面波として扱う.この図からも 本研究の目的は,背景雑音や残響が存在する一般的な室内に おいて,複数のマイクロホンを用いて,音源の位置を同定する So urc e ことである.本研究では音源からの到達時間差を考慮したチャ ∆d= d2-d d1 ンネル間相関に基づく音源位置同定法を提案し [1],一般的な室 d2 1 θ1 内の実環境下における音源位置推定について検討する. θ2 Receiver 2 Receiver 1 2. 音源位置同定手法 2. 1 複数のマイクロホンを用いた音源位置同定手法 音源探索において,空間的に配置された複数のマイクロホン を用いて音響信号を受音すると,各受音信号の間には時間差や 振幅差などが生じる.複数マイクロホンを用いる収音装置では こうした差を利用して音源位置や音源方向の同定などの音源探 索が可能となる.受音点間における到達時間差 (Time Difference of Arrival:TDOA) を利用することで音の伝達経路差を求め,受 音点の位置が既知であることを利用して音源の位置(あるいは 方向)を推定することができる. 音源位置の推定法は 1. 信号のエネルギーに基づく手法 2. 信号の直交性性に基づく手法 d 図 2 受音点対の測定に基づいた音源位置と入射角 わかるように,1対の受音対から音源位置が限定される.原理 上,受音対の和が2対あれば2次元平面上で,3対あれば3次 元空間上で音源位置が一意に決定される.伝達経路差を求める には到達時間差の推定が重要である.音の到達時間差を求める 手法に,CSP 法 (Cross-power Spectrum Phase analysis) [3] [4] [5] がある.CSP 法を用いることによって受音点対における音の到 達時間差が算出できる.CSP 法とは 2 信号間の時間相関を用い ることで2信号間の位相差を求める手法であり,位相差から遅 延時間を求めることができる.受音点対の受音信号 xi (t) , x j (t) のスペクトルをそれぞれ Si (ω ) , S j (ω ) とおくとき,時間白色化 相関関数 (=CSP 相関値) は 3. 信号の相関性に基づく手法 の3つに分類される.1. の信号のエネルギーに基づく手法とし CSPi j (t) = IFFT ては DSB 法が挙げられる [2].図 1 で示されるような指向性の Si (ω )S∗j (ω ) ¯ ¯ |Si (ω )| ¯S j (ω )¯ (1) 鋭い遅延和アレーのビームをスキャンして,出力パワーが最大 で示される.IFFT は逆フーリエ変換を表す.CSP 相関値が最 となる方向を音源方向と推定する.この手法は,時間の DFT に 大となる時間が到達時間差となるので到達時間差を τi j とする 対応した手法で,到来する音のパワーの全体分布を調べるのに と探索範囲を τ として, 適しており,演算量も少ないという特徴があるが,方向に対し てのピークは他の手法に比べて緩やかであり方向推定の頑健性 もそれほど高くはない. τi j = argmax[CSPi j (t)] t∈τ (2) となる. 式 (1) のように,クロススペクトルを受音信号のパワーで正 規化する白色化処理を行うことにより,信号の振幅スペクトル に依存しない高精度の時間推定が可能になる. シミュレーションによって 0.1 秒の到達時間差のある 1 対の 受音信号を作成し,CSP 相関値を求めた結果を図 3 に示す.SN 比が-10dB より大きく (上記シミュレーションでは SNR 24dB), 反射や残響の影響の少ない理想的な環境下では,CSP 法によっ て到達時間差が推定できる [6].しかし,3. 1 で述べる部屋の天 上に設置した複数のマイクロホンを用いて,実環境で集音され 図 1 ビームフォーミングによる音源方位探索 た音声を用いて到達時間差を求めたところ,図 4 に示すように, 室内残響や直接音の入射程度など,音声伝達経路間の伝達特性 2. の信号の直交性に基づく手法では MV 法や MUSIC 法があ の差による影響によって CSP 相関値は 0.2∼3 程度の小さな値 る [2].MV 法は信号の相関行列と注目方位の方向ベクトルの直 となることも多く (図 4(a)),また反射波の影響によると思われ 交性を利用して信号の方位を推定する手法である.MUSIC 法 るピークの誤検出も多数見受けられた (図 4(b)).CSP のピーク は信号の方向ベクトルと雑音部分固有空間の直交性を利用した が出にくい原因として実験環境の影響も挙げられる.天井に設 手法である. 置した分散マイクロホンを使用しているため,直接音が入射し 本報告で提案する手法は 3. の信号の相関に基づく手法であ にくい環境にあり,実験環境の制約によってマイクロホン間隔 り,到達時間差を考慮した受音点間の信号相関が最大になる音 を広く取らざるを得なかったこともピークが低くなる原因であ 源候補位置を探索する手法である.詳細は 2. 3 で述べる. ると考えられる. —2— File: test_hai1.snd ロス項の影響の軽減が可能である [5].しかし近距離音場では音 15204 25 20 波の入射を平面波とみなすと経路差の誤差が大きくなってしま 15 10 5 うため,単純にこの方法を適応することはできない.ゆえに室 0 -5 -10 -15 内の実環境における受音信号に対して,CSP 相関値のピークか -20 -25 -30 -32130 time 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 (a) 目的音に定常白色雑音を付加した信号波形 A ら決定される到達時間差だけを利用して音源位置を推定するこ とは非常に困難である. File: test_hai2.snd 15475 2. 3 提案する音源位置同定法 25 20 15 10 先に述べた通り,雑音や残響の大きい実環境において受音信 5 0 -5 号対から CSP 法を用いて決定した到達時間差だけを利用して -10 -15 -20 -25 音源位置を決定することは困難である.しかし実際の到達時間 -30 -32382 time 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 (b) 目的音を 0.1 秒遅延させ定常白色雑音を付加した 差における CSP 相関値は他の時間の係数値に比べて大きくなっ 信号波形 B ており,CSP 相関値は時間遅れを変化させたときの受音信号間 の相関を示していると考えることができる.そこで,複数の受 1 0.9 音信号対の CSP 相関値を加算することにより「音源位置らし CSP correlation 0.8 0.7 さ」を算出し,音源位置を同定することを試みる. 0.6 まず音源探索範囲を N 点に限定する.受音点対の位置座標をそ 0.5 れぞれ mi (xi , yi , zi ), m j (x j , y j , z j ),候補位置の座標を sk (xk , yk , zk ) 0.4 (k = 1, 2, 3, ..., N − 1, N) とした場合,候補位置に音源があると仮 0.3 0.2 0.1 0 -0.1 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 定した場合の受音点対の到達時間差 τi j は音速を c として ¯ ¯ |mi − sk | − ¯m j − sk ¯ τi jk = (3) c time [s] で示される.ここで使用マイクロホン数を M とした場合,k 番 (c) CSP 相関値 図 3 CSP を用いたシミュレーションによる TDOA 推定結果 目の候補位置 sk における加算 CSP 値を次式 (4) で定義する. M−1 CSPsummed (k) = 0.4 CSP correlation 0.3 CSPi j (τi jk ) (4) i=1 j=i+1 peak value is low 0.2 ここで CSPi j (τi jk ) は mi と m j で受音した信号対において時間 0.1 差 τi jk に対する CSP 相関値である.式 (4) において,k が音源 0 位置となる場合には CSP 相関値の高い値が加算され,それ以 -0.1 外の場合には CSP 相関値の高くない値が加算されることとな -0.2 る.したがって,加算 CSP 値の最大となる位置が音源位置と同 -0.3 定され,音源推定位置 p は -0.4 -0.015 -0.01 -0.005 0 time [s] 0.005 0.01 0.015 p = argmax[CSPsummed (k)] (5) k (a) CSP 相関値が低い場合 として求まる.この処理手順を図 5 に模式的に示す. 0.4 また,機器の設置に伴う微小な座標誤差を吸収することを目 0.3 Actual CSP peak Imaginal CSP peak 0.2 CSP correlation M ∑ ∑ 的として CSP の時間軸における探索窓を設けた.以下ではこの 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.015 -0.01 -0.005 0 0.005 0.01 0.015 time [s] (b) 反射波による到達時間差の誤検出 図4 実環境収録音声の時間相互相関 (CSP 相関値) 遠距離音場,すなわち音波が平面波で入射するとみなせる場 合には,異なる受音点対から算出される CSP 相関値を到来方 向に対する領域上で加算することで残響などによって生じるク 図 5 処理手順モデルのモデル図 —3— 窓のことを CSP 窓と呼ぶこととする.この窓長を w(= 2r + 1), SR をサンプリング周波数として,|n − τi jk /SR| < = r, r ∈ N を満た す離散 CSP 関数上の時間点 n 上で,候補位置 sk において加算 される CSP 相関値を CSP′ i j (τi jk , w) = max[CSPi j (n)] (6) とする.すなわち,加算 CSP 値は最終的に次式 (7) で定義する. M−1 M ∑ ∑ CSPsummed (k) = CSP′ i j (τi jk , w) (7) 図6 i=1 j=i+1 3. 実 部屋の形状とマイクロホンの位置 験 3. 1 実 験 条 件 位置推定に対する精度と CPU の処理時間についての実験を 行った.図 9 に示すように室内の天井に 4x4 の格子状に据え付 けられた 16 本のマイクロホンで構成される分散マイクロホンシ ステムを使用し,スピーカから発した音声と室内の環境雑音を 集音する.マイクロホンレイアウトは図 6 に示すように 135cm 間隔の格子状である.音源の位置として図 7 に示す 8 点を使用 し,いずれか 1 点でスピーカを用いて音声を流す.音声ソース 表1 実験条件 室内残響 図 7 実験での音源設置箇所 Door Server TV Desk Server Door TV Desk 0.36sec.(TSP 信号による計測) サンプリング周波数 16KHz 13x13 Fredge マイク間距離 135cm(格子状:図 6 参照) 音源位置 分散マイク下の 8 点 (図 7 参照) 候補位置間隔 33.75cm / 16.88cm(格子状:図 8(a),(b) 参照) 使用音声 ATR503 文中 2 文 向き 4 方位 (図 7 参照) 仰角 0 度,25 度の 2 通り Rack 25x25 Fredge Rack Rack Sink Sink 405 cm Rack 16bit 405 cm 量子化数 405 cm 405 cm 33.75 cm 16.88 cm 877cm (a) 音源候補位置 (位置間隔:33.75cm) 図8 877cm (b) 音源候補位置 (位置間隔:16.88cm) 音源候補位置 として ATR503 文中の 2 文を使用し,各音源位置で東西南北の 4 方位,仰角(0 度と 25 度)の計 128 の発話を収録し,音源位 置同定を行う.また,部屋の形状と分散マイクロホンの位置を 図 6 に,実際の写真を図 9 に示す.床からマイクまでの距離は 233cm である.床からスピーカまでの距離は 110cm である. 音源候補位置は床からの高さ 110cm の平面上に,図 8(a),(b) に示す通り格子状の分散マイクロホンの間を縫うように間 の値を用いて位置推定の精度を評価する.また,正解とはなっ ていなくとも加算 CSP 値の大きさが大きくなっているのかを 確認するため,正解位置に対する加算 CSP 値の大きさの順位 を正解順位とし,評価に用いる.なお,今回はフレームに対し て窓掛けは行わず,発話開始部の 1 フレームのみを分析対象と した. 今回は正解率について距離差が 0cm,つまり誤差を許 隔 33.75cm,13 × 13 の計 169 点,およびその半分の間隔の 16.88cm,25 × 25 の計 625 点の 2 通りを設定した.CSP 窓長 を 1 から 13 まで,使用音声フレーム長を 64ms から 1024ms ま で変えて CSP 窓長・使用音声フレーム長の変更による位置推定 精度の変化,処理時間についての調査実験と検討を行った.な お,本実験では話者の移動はないものとし,スピーカはそれぞ れの位置に固定しておく.収録に用いた機材を表 2 に示す. 3. 2 位置推定精度の評価 位置推定の精度は正解率と正解順位の 2 通りの尺度で評価 する.正解率は,上記手法によって推定された発話位置と実際 の発話位置の距離差が一定以下となる場合を正解とみなし, 正解率 = 正解発話数 全対象発話数 (8) 図 9 天井に設置された分散マイクロホン —4— 表2 使用機材 機器の位置や音速に関してある程度の許容量ができたためであ 機材 メーカ 名称 ると考えられる.また,フレーム長は長い方が精度が高くなる. スピーカ BOSE 101VM フレーム長が長いほど信号間の相関が出やすいためであると考 スピーカ・アンプ YAMAHA DSP-R992 マイクロホン Audio-Technica ATM-31a マイクロホン・アンプ Audio-Technica AT-MCA20 A/D 変換機 Thinknet DF-3B8-133 えられる.特に候補位置間隔を 33.75cm とした場合,フレーム 長 512ms 以上とすることでほぼ 100%と非常に高い精度で音源 位置推定が実現できている.また,候補位置間隔が 16.88cm の 場合,正解率は高くて 60%台であるが,フレーム長 1024ms で の正解位置の加算 CSP 値の平均順位 (図 11) を見ると,1.5 位程 容しないの場合の結果を図 10 に示す. 度と高い順位には出てきていることがわかる.また,正解とな らなかった場合でも,隣接する候補位置が正解となっている場 1024 256 128 1 3 5 7 9 11 Frame Length (ms) 合がほとんどであり,スピーカ自体の大きさ (横幅 23cm, 奥行 512 64 13 Correct Rate(%) 90.0 -100.0 80.0 -90.0 70.0 -80.0 60.0 -70.0 50.0 -60.0 40.0 -50.0 30.0 -40.0 20.0 -30.0 10.0 -20.0 0.0 -10.0 き 13cm) を考慮すると,ほぼ正確な音源位置推定が実現できて いるといえる.ただ,室内の壁の近くでの発話に対しては正し く推定できない場合もあった.これは壁面反射によって音像の 焦点がずれてしまうことが原因であると考えられる.したがっ て壁面反射も考慮に入れた音源位置同定を考える必要がある. 3. 3 処理速度の評価 実時間処理の可能性を検討するために処理時間の計測を行っ CSP Window た.本研究は一般 PC を用いた信号処理による音源位置同定の (a) 候補位置間隔 33.75cm 実時間処理を目指している.しかし本実験では 16 本のマイク 1024 256 128 1 3 5 7 9 11 Frame Length (ms) ロホンに対して,全マイクロホンペアについて式 (4) で示した 512 64 13 Correct Rate(%) 計算により加算 CSP 相関値を求めている.したがって 120 対 90.0 -100.0 80.0 -90.0 70.0 -80.0 60.0 -70.0 50.0 -60.0 40.0 -50.0 30.0 -40.0 20.0 -30.0 10.0 -20.0 0.0 -10.0 に及ぶ信号対に対して CSP 関数を計算しており,フーリエ変換 に費やされる時間が非常に長い.そこで,CSP 窓長を 1,音源 候補位置を 33.75cm 間隔で配置した場合の各フレーム長での処 理時間について表 3 に示した条件で計測した.なお,本研究は C 言語を用いたプログラミングによって行っている.WS2,WS3 の比較によって GCC の最適化に伴う処理速度の向上について CSP Window も同時に調査した.また,WS4,WS5 の比較によって 32bitOS (b) 候補位置間隔 16.88cm と 64bitOS での処理速度の違いについても調査した. 図 10 各候補位置間隔における正解率 表 3 処理速度の測定条件 また,フレーム長 1024ms の場合の正解位置の加算 CSP 値順 条件 位を図 11 に示す. 16.88cm Avarage Rank of Correct Position 1 2 3 4 5 33.75cm CPU OS GCC による最適化 WS1 UltraSPARC-II 450MHz Solaris 8 なし WS2 Pentium4 2.66GHz Red Hat Linux 9 なし WS3 Pentium4 2.66GHz Red Hat Linux 9 CPU への最適化 WS4 Core2Duo E6600 FC6(i686 版) CPU への最適化 WS5 Core2Duo E6600 RHEL4(x86 64 版) CPU への最適化 調査結果を図に示す.なお,WS1 については他のマシンに比 べて結果に差が大きいため,図 12(a),(b) に分けて表示すること とした. 0 結果から,ひと昔前の Pentium4 程度の性能があれば,使用 音声フレーム長の 2∼3 倍程度の時間で処理が可能であり,実 1 3 5 7 9 11 CSP Window 図 11 正解位置の加算 CSP 値平均順位 時間処理可能な速度で動作することがわかる.また,WS2 と WS3 の比較から CPU に対するチューニングを行えば速度の向 上が見込めることもわかる.SSE3 のような拡張命令の使用に より,FFT のパフォーマンス向上が図れることが一番の要因で 上記結果から,CSP 窓長を適当な長さに設定してやれば精度 が高くなることがわかる.これは CSP 窓設定の当初の目的通り, あると考えられる.したがって FFT をより高速に動かせる環 境が作られるならば,より高速な音源位置推定が可能となる. —5— た立命館大学大学院理工学研究科中山雅人氏と傳田遊亀氏に深 Processing Time (sec.) 25.00 く感謝いたします. 20.00 The kind of WorkStation WS1 15.00 10.00 5.00 0.00 1024 512 256 128 Frame Length (ms) 64 (a) WS1 における処理時間 Processing Time (sec.) 4.00 3.50 3.00 Frame Length (ms) 2.50 1024 512 256 128 64 2.00 1.50 1.00 文 献 “実環境における分散マイクロホンシステムを用いた CSP 法 [1] 趙他: に基づく音源位置同定, ”2006 年春季音講論, pp.629-630, (2006). [2] 大賀寿郎・山崎芳男・金田豊 共著: “ 音響システムとディジタル 信号処理”コロナ社 (1995). [3] C.H. Knapp and G.C. Carter : “ The generalized correlation method for estimation of time delay, ”IEEE Trans. Acoust., Speech & Signal Process., ASSP-24, 4, pp. 320?327,(1976). [4] M.Omologo and P.Svaizer:“Use of the Cross-power-Spectrum Phase in Acoustic Event Location,” IEEE Transaction Speech and Audio Processing, vol.5, no.3, pp288-292,(1997). [5] 西浦 敬信, 西岡 良典, 山田 武志, 中村 哲, 鹿野 清宏:“ CSP 法によ る音源位置同定を備えたマルチビームフォーミング,” 電子情報通 信学会論文誌 (D-II), Vol. J83-D-II, No.7, pp. 1610-1619,(2000). [6] 水町光徳:“ マイクロホン対を用いた雑音除去法に関する研究”, 北陸先端科学技術大学院大学情報科学研究科平成 10 年度博士論 文 (1999). 0.50 0.00 WS2 WS3 WS4 the kind of WorkStation WS5 (b)WS2∼WS5 における処理時間 図 12 WS1∼WS5 における処理時間 32bitOS と 64bitOS での処理速度の違いについては大きな差は なかった.これはコンパイル時に両者とも 32bit コードで出力 したため,64bit 環境の恩恵がなかったためであると考えられ る.なお,本実験ではシングルスレッドプログラミングによる コードを用いているが,各受音点対の CSP 関数を求める処理 は並列処理化が可能である.近年の CPU はマルチコアが主流 となってきており,そのような環境下では演算処理のマルチス レッド化させることでさらなる高速化が可能となる.WS1 のよ うな低速なマシンを使う場合は,使用するマイクペアを限定す るなどして処理量を軽減させることにより,実時間処理が可能 となると考えられる. 4. む す び 本論文では,分散マイクロホンを用いた CSP 法に基づく多 チャンネル信号処理による音源位置同定手法を提案し,その精 度を正解率と正解順位の 2 通りの尺度で評価した.適当な値の CSP 窓長を用いることで正解率の向上が図れることが確認され た.また,フレーム長を長めに取ると正解率が向上することも 確認され,高い音源位置同定精度が得られた.また,処理速度 の評価から,実時間処理可能な速度で音源位置同定が可能であ ることが確認された.今後の課題として,音源候補位置を 2 次 元平面から 3 次元空間へ増やした場合の音源位置推定の精度 について調査する必要がある.また,音源数を増やし,クロス トークが生じる場合の音源位置精度の精度について調査する. また,壁面反射を考慮に入れた音源位置推定についても検討を 行う予定である. 謝辞 本研究を進めるにあたって,様々な面で援助して下さっ —6—