スマートフォンによる環境音センシングを利用した近接判定

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download スマートフォンによる環境音センシングを利用した近接判定

Transcript

スマートフォンによる環境音センシングを利用した近接判定

社団法人電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
スマートフォンによる環境音センシングを利用した近接判定手法
佐藤弘之†
鈴木
誠†
田代
諭拡†
森川博之†
† 東京大学先端科学技術研究センター〒 153–8904 東京都目黒区駒場４丁目６番地１号
E-mail: †{hsatoh,makoto,tashiro,mori}@mlab.t.u-tokyo.ac.jp
あらまし人と人及び人と物の近接情報は，コミュニケーション分析や位置情報サービス等のアプリケーションにとっ
て有用なものである．筆者らは，高精度な近判定手法の実現に向けて，時空間特有の情報を多く含む環境音に着目し
実験評価を進めている．スマートフォンのアプリケーションにおいて課題である省電力性を実現することで，広範囲
かつ設備の導入・維持コストの少ない近接判定システムが構築可能である．スマートフォンでの実現に向けて，本稿
では，環境音の時変性と省電力の観点から，各端末が同期して短時間録音する近接判定システムを示す．短時間の録
音による少ない情報量で高精度な近接判定を実現するために，機種ごとに異なるマイクのオフセットを除去し，環境
音の高周波数成分を強調する処理を施している．同一機種スマートフォン 10 台を用いて 5 部屋で行なった同室デバイ
ス判定実験において，適合率 95.7% ，再現率 95.6%，F 値 95.6 の近接判定が可能であることを示す．
キーワード
環境音，近接判定，スマートフォン
Ambient Sound-based Proximity Detection with Smartphones
Hiroyuki SATOH† , Makoto SUZUKI† , Yukou TASHIRO† , and Hiroyuki MORIKAWA†
† Research Center for Advanced Science and Technology, The University of Tokyo
4–6–1, Komaba, Meguro-ku, Tokyo, 153–8904 Japan
E-mail: †{hsatoh,makoto,tashiro,mori}@mlab.t.u-tokyo.ac.jp
Abstract The proximity information is valuable for various applications such as analysis of human communication, indoor localization. To realize high accuracy proximity detection, We focus on ambient sound which involves
abundant information based on time and space. By improving energy eﬃciency of smartphones, the system which
covers a wide range can be built without infrastructure. This paper presents a system design and experimental
evaluations for ambient sound-based proximity detection with smartphones. Regarding energy eﬃciency and time–
varying characteristic of ambient sound, we adopt synchronized and short-time recording. To detect proximity at
high accuracy with short-time record, we execute rejection of microphone’s oﬀset and emphasize high frequency
region. The results of experiments show that our system discriminates 5 rooms with the accuracy of precision
95.7%, recall 95.6%, and F-measure 95.6.
Key words Ambient Sound, Proximity, Smartphone
1. はじめに
屋内位置情報サービス，コミュニケーション分析といったア
が提案されている．実用化されている手法としては，IMES 送
信機の位置情報を基に端末の位置を計測する手法や，LED 電
灯などを点滅させて位置情報を発信し計測する手法などがある．
プリケーションの実現には，人と物及び人と人の近接情報が有
しかしながら，これらの手法は大量のセンサを広範囲に敷設す
用である．また，Social networking services (SNS) の機能の
る必要があり，設置や維持コストが高くなるという問題を持つ．
うち，ある時点で同じ場所にいるユーザをグルーピングするよ
そこで，既設のインフラを利用した，Wi-Fi の RSSI を観測す
うなサービス [1] においても，近接情報が求められる．
る手法 [2] が多く研究されているが，無線電波は壁を透過しや
近接情報の取得には，屋外であった場合 GPS による携帯端
すいため隣接した部屋間で誤判定が生じるという問題を持つ．
末の座標情報を利用した手法があるが，屋内や地下などでは
コミュニケーション分析の分野では，赤外線を用いて対面状
GPS による測位が難しく、屋内測位の分野では様々な代替技術
況を判定する手法 [3] があるが，専用のデバイスを必要とする
—1—
35
ため，広範囲なシステムの実現は難しい．SNS のユーザグルー
Voice
Power Spectrum(dB)
30
ピングサービスでは，加速度センサを起動させ同時に一定時間
振動させたり，同時に同じボタンを押すことで近接情報を取得
する手法 [1] があるが，ユーザの動作が必要という短所がある．
25
20
15
HUB
10
5
そこで，本稿では時空間の情報を豊富に含む環境音を用いた
Air Conditioner
Projector
Projector
Voice
Air Conditioner
0
1000
近接判定手法に着目する．音波は壁を透過しづらいため [4]，部
屋単位での高い弁別性が期待できる．スマートフォンのマイク
2000
Frquency(Hz)
3000
4000
図 1 環境音のパワースペクトルの例
を利用して周囲の環境音を取得し，端末間の類似度を算出する
ことで近接判定を実現する．広く普及の進んだスマートフォン
を利用することで，設備の導入・維持コストのかからない近接
判定システムが構築可能である．
本稿の構成は以下の通りである．2. では，環境音について述
べるとともに，環境音の周波数特性，時変性について述べる．
3. では，近接判定システムについて述べる．4. では，3 つの実
音を利用したこれまでの近接判定システムは，あらかじめ録
音して構築したデータベースを利用するもの [5] [6] と，同時に
録音を行なうもの [7] [8] [9] に大別される．2. で示すように環境
験と実験から得られたデータをもとにした近接判定システムに
ついて評価する．最後に 5. でまとめと今後の課題について述
べる．
音には時変性があり，データベースを用いた近接判定は精度が
2. 環境音
落ちる．同時に録音するシステムでは，1 データセットを得る
録音時間が [7] では 60 秒間，[9] では 15 秒間と長いが，スマー
トフォンのアプリケーションにおける課題である消費電力を考
えると，録音時間は短いことが求められる．
本節では，環境音について説明するとともに，環境音の統計
的な周波数特性，時変性も述べる．また，環境音を用いた近接
判定手法の関連研究についても合わせて述べる．環境音とは，
これらの既存研究に対して，本稿では，省電力のため 1 秒程
度という短時間の録音で，かつ高精度な近接判定を実現するこ
とを目的とする．3 秒間という比較的短時間の録音を行なう既
存研究も存在するものの [8]，突発的に生じるイベント音に重み
づけした類似度を扱っており，3 秒間周囲の音場が定常的であ
受信端末の周囲にある複数の音源からの音波が重なりあったも
のである．図 1 に，オフィスでの環境音のパワースペクトルの
例を示す．図 1 の環境音の中で相対的にパワーの大きいスペク
トルは，音声とエアコンや OA 機器のファンから出る風切り音
である．
るような状況には適さない．
環境音は壁の音響透過損失により部屋ごとに大きく異なる
短時間に含まれる環境音の情報は少ないため，本稿では，マ
イクのオフセットを除去して録音を行なうことで近接判定にお
ける有効な情報の割合を多くしている．加えて，2. で示すよう
に環境音のパワーが高周波ほど減衰傾向にあるという統計的な
周波数特性に着目して，高周波数を強調することで，精度が向
上することを示す．同一機種 10 台を用いた 5 部屋の同室デバ
イス判定実験では，適合率 95.7% ，再現率 95.6%，F 値 95.6
音場を形成する．人間の聴覚では同一の音と認知されても，部
屋の形状や家具の配置や壁の材質により反射，吸音，回折等の
音波の物理現象が変化するため，部屋ごとに特有の音場とな
る [10]．また，エアコン等同一機種のファンによる周期的な風
切り音も，非周期的な音と組み合わさることによって，空間ご
とに異なる環境音を生み出す．環境音は空間依存性が高く，空
間の識別子として有用である．
のを実現している．加えて，端末間距離の影響と様々な場所で
2. 1 環境音の統計的な周波数特性
の類似度を解析することにより，近接判定システムの実現可能
図 2 に，様々な場所で測定した環境音のパワースペクトル密
-40
-60
2000
Frquency(Hz)
3000
-20
-40
-60
4000
1000
20
0
-20
-40
-60
1000
2000
Frquency(Hz)
(e) 半屋外
3000
20
0
-20
-40
-60
4000
1000
(b) 会議室
Power Spectrum(dB)
Power Spectrum(dB)
(a) 喫茶店
2000
Frquency(Hz)
3000
4000
20
0
-20
-40
-60
1000
2000
Frquency(Hz)
2000
Frquency(Hz)
3000
20
0
-20
-40
-60
4000
1000
(c) レストラン
Power Spectrum(dB)
1000
0
Power Spectrum(dB)
-20
20
3000
20
0
-20
-40
-60
4000
(f) バス車内
1000
2000
Frquency(Hz)
(g) 群集
2000
Frquency(Hz)
3000
4000
3000
4000
(d) 図書室
Power Spectrum(dB)
0
Power Spectrum(dB)
20
Power Spectrum(dB)
Power Spectrum(dB)
性を明らかにする．
3000
4000
20
0
-20
-40
-60
1000
2000
Frquency(Hz)
(h) オフィス
図 2 様々な環境音
—2—
図3
同室の相関係数
図 5 パワーの発生確率
図 4 別室の相関係数
度の周波数ごとの平均値を示す．サンプリングレート 8kHz で
10 秒周期で 1 秒間スマートフォン（Samsung GalaxyNexus）
が時変性を有していることが周波数系列からも確認できる．
2. 3 関連研究
により録音したものである．各場所において録音は 100 回行な
環境音を用いた近接判定手法の関連研究は，あらかじめ録音
い，パワースペクトル密度をデシベル表示し，周波数ごとに平
して構築したデータベースを利用するものと，同時に録音を行
均を算出した．
なうものがある．
図 2 をみると，8 箇所とも環境音のパワーは低周波成分が大
Azizyan らは，ある部屋であらかじめ録音したデータをその
きく，高周波成分ほど小さくなるという傾向にあるといえる．
部屋のフィンガープリントとしてデータベースに保存し，デー
スイ―プ正弦波に対する周波数応答測定の結果や，スマート
タベースのデータとの類似度を算出し近接判定をするというも
フォン等の携帯電話端末マイクの周波数特性は 4kHz 付近まで
のである [6]．しかしながら，この方法では環境音の時変性から
ほぼフラットであるというデータシート [11] を考慮すると，単
高精度な近接判定は望めない．
にマイク周波数特性からくる結果であるとは考えにくい．すな
これに対して Tarzia らは，環境音の時変性を考慮し，突発的
わち，環境音自体が統計的に低周波成分のパワーが大きく，高
な音を排除する信号処理を施し，データベースを用いた部屋単
周波成分のパワーが小さいという周波数特性を持つといえる．
位での屋内測位を提案している [5]．しかしながら，図 3，図 5
これは空気中を伝搬する音波が高周波ほど吸収減衰や散乱減衰
のように，環境音は時変性を有し，突発的なものを排除したと
の影響を受けやすく，低周波ほど受けにくという性質に起因す
しても，近接判定の精度は劣化する．
るものと考えれる [12]．また，パワースペクトル密度が周波数
f に反比例する 1/f 分布による影響も考えられる [13]．
環境音の時変性という観点から，同期して録音を行う方式が
効果的である．岡本らは，会話検出を目的とし，60 秒録音し情
2. 2 環境音の時変性
報量を削減する処理を加え，近接判定を行っている [7]．また，
環境音は，音源が時々刻々と変化することで時変性を有する．
Wirz らは，録音 15 秒間で近接判定を行なっている [9]．しかし
予備実験として取得したデータをもとに環境音の時変性を示す．
ながら，60 秒や 15 秒という時間録音を繰り返すことは消費電
1 台のスマートフォン（Samsung Galaxy Nexus）によりサン
力の観点からスマートフォン向きではない．また，長い録音時
プリングレート 8kHz で 10 秒周期で 1 秒間 360 データセット
間ではリアルタイム性の要求されるアプリケーションの実現は
の環境音を録音している．
難しい．さらに，録音時間が長くなるにつれて，録音時間中に
図 3，図 4 は，異なるタイムスタンプ同士のデータセットに
対し，時間領域で規格化相互相関係数 (NCC) [14] を算出し，そ
ユーザが異なる部屋へ移動するなどして音場が変化し，精度の
劣化が起こり得る．
の最大値をヒートマップ形式で示したものである．図 3 はある
これに対して寺本らは，3 秒という比較的短時間で同時に録
部屋に設置した一台のスマートフォンの NCC で，図 4 は異な
音することにより，近接判定を行うシステムを提案してる [8]．
る部屋に設置したスマートフォン同士の NCC である．
類似度算出の際に，環境音の突発的なイベント音に重み付けす
図 3 において，同一タイムスタンプ同士の NCC（すなわち
る処理を加えているが，突発的なイベント音は 3 秒という間に
自己相関）と比較して，異なるタイムスタンプ同士の NCC は
生じる保証はなく，イベント音が発生しない状況においては精
低い値をとるため，環境音は時変性を有するといえる．また，
度の劣化が懸念される．
図 4 の別室同士の NCC と比較して，図 3 の同室の NCC は高
これらの既存研究に対して，本稿では，環境音の時変性とい
い値をとるが，ところどころに同室のものでは NCC が低い値
う観点から同期して録音を行い，録音による消費電力と録音時
が，別室のものでは NCC が高い値が存在し，部屋単位での音
間内のユーザ移動による音場の変化を考慮して，同期して短時
場の定常性は高くはない．
間録音することによる近接判定システムを示す．
図 5 は，ある部屋の環境音のパワースペクトル 360 データ
セットに対し，周波数ごとに確率分布を算出してヒートマップ
3. 近接判定システム
形式で示したものである．図 5 において，縦軸の正方向に伸び
3. 1 システム構成
るスパイクが環境音のうち突発的なイベント音であり，環境音
図 6 にシステム概要を示す．本システムでは，スマートフォ
—3—
を加える．2. で示したように，環境音には低周波ほどパワーが
ৈఢణਯਘ৹
大きいという統計的な周波数特性があるため，2 つの環境音の
ঃড‫ش‬५ঌॡॺঝ઴ল
差異に注目すべく高周波数成分を強調する．高周波を得る成分
を強調するために，１次差分フィルタによるプリエンファシス
థ๚২઴ল
を得る [15] を行なう．録音された環境音の時系列データを x(n)
⃦கਖ਼৒
とすると，
ड़ই७ॵॺ௾ு
図6
y (n) = x (n) − µx (n − 1)
システム構成
(1)
を計算することで，高周波強調された y(n) を得る．µ はプリ
ンで周期的に同期して環境音を一定時間録音し，タイムスタ
エンファシス係数である．
ンプを付加してサーバにアップロードする．その際に，端末側
高周波強調後は P (ω) = |DF T (y (n))2 | を計算し，パワース
でマイクのオフセット除去処理を加える．サーバ側では，同一
ペクトル P (ω) を算出する．図 9(a) に生データからパワース
タイムスタンプのデータセットに対して，高周波強調処理を施
ペクトルを算出したもの，図 9(b) に高周波強調後にパワース
し，周波数系列で類似度を算出し，閾値判定を実行することで，
ペクトルを算出したものを示す．高周波数成分が強調されてい
ユーザ間の近接/非近接を判定する．
ることが確認できる．
3. 2 端末側処理
端末間の利得差の影響を緩和するために，パワースペクト
図 3. 2 に，録音開始直後の各機種における振幅の時系列デー
タを記す．スマートフォンのマイクには録音開始時にオフセッ
ル P (ω) を ω に対する平均値 P̂ で割り，G (ω) = P (ω) /P̂ を
得る．
トが存在し，図 3. 2 のように機種ごとに異なる．これは，マ
続いて，コサイン類似度を用いて環境音の類似度を算出する．
イクのアンプの不安定さに起因するものと考えられる．また，
G (ω) の ω に対する平均値を Ĝ (ω) とし，Ĝ (ω) = G (ω)−Ḡ (ω)
図 9(a) のように一見してオフセットのないデータのように見え
とする．ユーザ A のデータを Ĝa ，ユーザ B のデータを Ĝb と
るものであっても，1,000 タップの移動平均を算出すると図 9(b)
すると，類似度 CXY は以下の式で算出する．
∑n
のように，オフセットがあることが確認できる．
Cab = √∑
n
端末側では，機種ごとに異なるマイクのオフセットの除去を
w=0
{Ĝa (ω) Ĝb (ω)}
Ĝ2a (ω)
w=0
行なう．短時間の録音データを用いたシステムを構築する場合，
√∑
n
(2)
Ĝ2b (ω)
w=0
録音開始直後の機種依存性のあるマイクのオフセットは，精度
得られた環境音の類似度 Cab が閾値以上であるとき近接，閾
を劣化させる．同一機種が異なる空間に存在した場合，類似度
の値が増加し偽陽性の増加につながり，逆に異なる機種が同一
値未満であるとき非近接というように近接判定を行なう．
4. 実験評価
の空間に存在した場合，類似度の値が減少し真陽性の減少につ
ながるからである．
本節では，近接判定システムの精度について実験評価を行な
本システムでは，マイクのオフセットによる影響を除去する
べく，マイクのアンプに電源をいれてから 2 秒後に録音を開始
う．同室デバイス判定，端末間距離の影響，様々な環境での測
定を通して，近接判定システムの精度評価を行なう．実験で使
する．録音終了後，データをサーバにアップロードする．
3. 3 サーバ側処理
400
Amplitude
2500
0
-2500
-5000
-7500
20
-200
-40
-60
0
0
0
-20
250
500
750
time(msec)
1000
0
(a) 生データ
250
500
750
time(msec)
1000
(b) 移動平均処理後
-400
250
time(msec)
500
(a) Sony XperiaSOL21
0
250
time(msec)
500
図 8 Samsung GalaxyNexus
(b) HTC EVO 3D ISW12HT
15000
20
Amplitude
10000
5000
0
-5000
-10000
-15000
10
0
-10
-20
0
250
time(msec)
500
(c) Motorola RAZAR IS12M
0
250
time(msec)
500
(d) Huawei Ascend HW-01E
図 7 マイクのオフセット
1600
1400
1400
1200
Power Spectrum
0
Amplitude
200
Power Spectrum
Amplitude
5000
600
400
200
0
-200
-400
-600
Amplitude
7500
Amplitude
アップロードされたデータセットに対して，高周波強調処理
1200
1000
800
600
400
1000
800
600
400
200
200
0
0
1000
2000
Frquency(Hz)
3000
(a) プリエンファシス前
4000
1000
2000
Frquency(Hz)
3000
4000
(b) プリエンファシス後
図 9 高周波強調処理
—4—
表1
パラメータ値
P (θ) とすると，
サンプリングレート
8 kHz
サンプリング時間
1秒
(R(θ), P (θ)) = (
T P (θ)
T P (θ)
,
) (3)
T P (θ) + F N (θ) T P (θ) + F P (θ)
量子化ビット数
16 bit
窓関数
矩形窓
と表される．θ を変化させて (R(θ)，P(θ)) をプロットした
録音周期
10 秒
Precsion-Recall Curve を図 11, 図 12 に示す．曲線は (1, 1) に
近づくほど判定システムの精度が高いといえる．
表2 使用端末
機種
図 11，図 12 をみると，(a)，(b) の場合ともにオフセット除
使用台数
去と高周波強調後の２つの処理を加えることで，精度が向上し
Samsung Galaxy Nexus
4台
Sony Xperia VL SOL21
2台
ていることがわかる．(a) と比較して (b) の方が精度が低いが，
HTC evo3D
8台
原因としては機種ごとに異なるマイクの周波数特性や指向性が
Motorola RAZR IS12M
2台
挙げられる．
閾値の設定にあたっては，再現率と適合率ともに高水準のシ
用したパラメータ値を表 1 に記す．端末は 15 分に一度 NTP
ステムが望まれるため，両者の調和平均を用いて
により同期させている．
F =
4. 1 同室デバイス判定
スマートフォンが同室/別室にあるのか分類精度を評価した．
異なる部屋に２台のスマートフォンを 3.5m 離して配置し, 1 端
2 · P (θ) · R(θ)
P (θ) + R(θ)
(4)
と表される F 値 [18] が最大となるような θ を決定する．(a) の
場合において，F 値が最大となるのは，θ= 0.134 のときであり，
末あたり 200 個のデータセットを取得した．3.5m は社会距離の
(R(θ)，P(θ))=(0.956, 0.957) となり，F=0.956 となる．以下
遠方相と公共距離の近接相の境界値とされており [16]，コミュ
では，閾値を 0.134 として評価を進めていく．
ニケーション分析を行なう際に検出精度の保証が望ましい距離
4. 2 端末間距離の影響
である．同室にあるものを近接として，異なる部屋にあるもの
を非近接とする．
スマートフォン間の距離が類似度に与える影響について評価
する．同室内にスマートフォン（HTC evo3D）をある 1 台か
機種による影響について考察すべく，(a) 同一機種 10 台によ
ら距離 Xm 離して 8 台（計 9 台）設置し，1,000 個のデータを
る 5 部屋の分類に関してと，(b) 異なる機種 16 台による 8 部
取得した．スマートフォン間の距離 X は 15cm，45cm，75cm，
屋の分類に関して実験評価を行った．(a) では，使用端末とし
1.2m，2m，3.5m，7m，12m の位置にそれぞれ設置した．主な
て HTC evo3D を用いた．(b) で用いた使用端末の機種と使用
環境音は Scene1 ではエアコンの風切り音で，Scene2 では屋外
台数を表 2 に記す．(b) においては，8 部屋に同一機種端末が
から聞こえる虫の鳴き声であった．
同室にならないように配置した．
実験結果を図 13 に示す．横軸がスマートフォン間の距離 X
図 10 に，(a) の場合において近接判定システムにより算出
を表し，縦軸は類似度を表す．類似度に関しては各 X について
された近接の類似度データ 1,000 個，非近接の類似度データ
200 個のデータの平均値を算出し，線グラフ化した．さらに平
8,000 個をヒストグラム化したものを示す．図 10 の近接の類似
均値から標準偏差の幅をもつエラーバーを表示した．図 13 を
度データのうち，閾値（以下，θ）以上のものを True Positive
みると，Scene1,2 のどちらの場合も再現率が 0.9 を上回ってい
(TP(θ))，閾値未満のものを False Negative (FN(θ)) という．
るため，端末間距離が離れても近接判定が可能であることがわ
同様に，非近接の類似度データのうち閾値以上のものを False
かる．加えて，Scene1,2 ともにスマートフォン間の距離が短い
Positive (FP(θ))，閾値未満のものを True Negative (TN(θ))
場合は，再現率が 1 となり，弁別性が高いことが分かる．
という．評価指標として，再現率 (Recall) と適合率 (Precision)
また，Scene1 ではスマートフォン間の距離が長くなるにつ
を導入する [17]．ある閾値 θ における再現率を R(θ)，適合率を
れて，類似度が減衰傾向にあるが，Scene2 では類似度が距離
に依存しないことがわかる．Scene1 では主な音源が室内にあっ
Counts
250
200
false
CDF
threshold
150
50
0
-0.2
-0.1
0
0.1
0.2
similarity measure
0.3
0.4
0.5
20
Counts
true
CD F
15 threshold
Precision
100
1
1
0.8
0.8
0.6
G_rmoff_emp
G_emp
G_rmoff
G
Ideal
0.4
0.2
10
Precision
300
0.6
G_rmoff_emp
G_emp
G_rmoff
G
Ideal
0.4
0.2
5
0
-0.2
0
-0.1
0
0.1
0.2
similarity measure
図 10 ヒストグラム
0.3
0.4
0.5
0
0
0.2
0.4
0.6
Recall
0.8
図 11 (a) 同一機種 10 台
1
0
0.2
0.4
0.6
Recall
0.8
1
図 12 (b) 異なる機種を含めた 16 台
—5—
1
0.75
0.9
0.5
0.85
0.25
0.8
1.2 2
3.5
Scene1
Scene1 Recall
7
distance(m)
Scene2
Scene2 Recall
図 13
表3
12
Threshold
1
Recall
0.95
0.98
0.6
0.96
0.4
0.94
0.2
0.92
0
mtg
類似度 vs 端末間距離
測定環境の主要な環境音
測定環境
主要な環境音
cafe
カフェ
コーヒー豆を挽く音，BGM
mtg
会議室
空調，プロジェクタ
oﬃce
オフィス
空調，音声，OA 機器
lib
図書館
空調，足音
out
半屋外
車輪，空調，音声
bus
バス車内
エンジン音，空調，音声
crowd
人ごみ
音声，歩行音，車
rest
レストラン
音声，BGM，食器
たため，距離減衰の影響を大きく受けたが，Scene2 では，主
な音源が室外にあったため，距離減衰の程度が小さく室内の音
場環境の変化が小さかったことが原因として挙げられる．
4. 3 様々な場所での測定
様々な場所で録音した環境音を用いて，近接判定システム
の精度を評価した．表 3 に，測定場所と測定場所での主な環
境音を示す．それぞれの測定場所で，2 台のスマートフォン
（Samsung Galaxy Nexus）を 1m 離して配置し，100 個のデー
タセットを取得し類似度を算出した．
図 14 に，それぞれの場所で取得した 100 個のデータから算
出した同一タイムスタンプの類似度に関する再現率と，平均値
と標準偏差の幅をもつエラーバーを示す．いずれの測定場所に
おいても，再現率が 97%を上回るため，近接判定システムが
様々な場所において適用可能性を有することがわかる．
5. おわりに
本稿では，環境音を用いた近接判定手法において，機種ごと
に異なるマイクのオフセットを除去し，高周波数成分を強調す
ることで，短時間の録音で高精度な近接判定が可能であること
0.8
Similarity measure
Average
Recall
Threshold
1
Similarity measure
Recall
1
cafe
図 14
lib
office out
bus crowd rest
様々な環境下での測定
[4] E. C. Sewell: “Transmission of reverberant sound through
a singlr-leaf partition surround by an infinite rigid baﬄe”,
J. Sound Vib. (1970).
[5] S. P. Tarzia, P. A. Dinda, R. P. Dick and G. Memik: “Indoor
localization without infrastructure using the acoustic background spectrum”, Proc. of ACM MobiSys’11, pp. 155–168
(2011).
[6] M. Azizyan, I. Constandach and R. R. Choudhury: “Surroundsense: Mobile phone localization using ambient sound
and light”, Proc. of ACM MobiCom’09, pp. 69–72 (2009).
[7] 岡本, 池谷, 西村, 菊池, 長, 服部, 坪井, 芦川：“端末音声の相互
相関に基づくアドホック会話の検出”, 日本データベース学会論
文誌 vol.7, pp. 163–168 (2009).
[8] S. Teramoto and J. Noda: “O-musubi: Ad-hoc grouping
system enhanced by ambient sound -the similarity based on
information theoretical features for sound-fields-”, Proc. of
IARIA ICONS’13, pp. 52–58 (2013).
[9] G. T. Martin Wirz, Daniel Roggen: “A wearable, ambient
sound-based approach for infrastructureless fuzzy proximity
estimation”, Proc. of IEEE ISWC’10, pp. 1–4 (2010).
[10] H. Kuttruﬀ: “Room acoustics fifth edition”, Spon Press
(2009).
[11] J. Lewis: “Microphone specifications explained”, Application Note of Analog Devices (2011).
[12] “Acoustics -attenuation of sound during propagation
outdoors- part 2: General method of calculation”, International Standard ISO9613-2 (1996).
[13] S. Kogan: “Electronic noise and fluctuations in solids”,
Cambridge University Press (1996).
[14] R. O. Duda: “Pattern classification and scene analysis”,
John Wiley & Sons Inc. (1973).
[15] J. D. Markel, A. H. Gray and Jr.: “Linear prediction of
speech”, Springer-Verlag (1976).
[16] E. T. Hall: “The Hidden Dimension”, Doubleday (1966).
[17] J. Davis and M. Goadrich: “The relationship between
precision-recall and roc curves”, Proc. of ACM ICML’06,
pp. 233–240 (2006).
[18] J. Makhoul, F. Kubala, R. Schwartz and R. Weischedel:
“Performance measures for information extraction”, Proc.
of DARPA Broadcast News Workshop, pp. 249–252 (1999).
を示した．現在，実際にユーザがスマートフォンのアプリケー
ションを運用しての実験評価，及び各種パラメータの改良，ス
ケーラビリティに関する検討を進めている．
文
献
[1] Line: “http://line.naver.jp/ja/”.
[2] A. Haeberlen, E. Flannery, A. M. Ladd, A. Rudys, D. S.
Wallach and L. E. Kavraki: “Practical robust localization
over large-scale 802.11 wireless networks”, Proc. ACM MobiCom’04, pp. 70–84 (2004).
[3] 森脇, 佐藤, 脇坂, 辻, 大久保, 矢野：“組織活動可視化システム「ビ
ジネス顕微鏡」”, 信学技報，HCS2007-44, pp. 31–36 (2007).
—6—