...

第 2 回若手研究者フォーラム:音声言語処理について語ろう に参加して

by user

on
Category: Documents
17

views

Report

Comments

Transcript

第 2 回若手研究者フォーラム:音声言語処理について語ろう に参加して
特集
学生の研究活動報告−国内学会大会・国際会議参加記 14
第 2 回若手研究者フォーラム:音声言語処理について語ろう
に参加して
則 武 和 幸
Kazuyuki NORITAKE
情報メディア学科
2010 年度卒業
1.はじめに
私は,2011 年 3 月 5 日から 6 日の期間,熱海ニ
ューフジヤホテルで開催された第 2 回若手研究者フ
ォーラム:音声言語処理について語ろうにおいて,
3 月 5 日のポスター・インタラクティブデモで「画
像処理技術を用いた音声の検索」というタイトルで
ポスター発表を行った.
2.研究について
2. 1
研究背景
近年,デジタル化されて保存されている音声や動
画が増加している.これに伴いこれらの大量のデー
タから見たい,聞きたい部分を検索したいという機
図1
能が求められるようになった.音声を含むデータに
音節間距離画像に表れる直線
対しては,音声認識技術を適用してデータを検索す
るという方式が有望である.特に音声中に検索語が
結果の音節列の中に検索語が出現している区間には
出現する区間を特定する問題は音声中の検索語検出
黒い直線が表れる.このことから STD の問題を画
(Spoken Term Detection : STD)と呼ばれ,盛んに
研究が行われている.
像中の直線検出問題に置き換えることができる.
少量の置換誤りに関しては,直線上の一部の画素
の濃度値が大きくなるだけであり,ハフ変換の性質
2. 2
画像の直線検出法に基づく検索語検出
上,致命的な問題とはならない.これに対して挿入
画像の直線検出法に基づく検索語検出について説
誤り,削除誤りが存在する場合は問題が大きい.削
明する.図 1 に示すように,検索語の各音節を縦軸
除誤りが存在すると直線が下に直線がずれる.挿入
に,音声認識結果の各音節列を横軸にとり 2 次元画
誤りが存在する場合は直線が右にずれる.
像を作成する.検索語と音声認識結果の各音節の格
子点にはそれらの音節どうしの誤りやすさを反映す
る何らかの距離尺度,すなわち音節間距離をとる.
この音節間距離を画像の濃度値(0 が黒,255 が白)
にマッピングさせると,図 1 下部のように音声認識
3.音声認識誤りに対応するための
画像用フィルタ
3. 1
直線強調フィルタ
画像の直線検出法に基づく検索語検出の問題を解
― S-81 ―
ルタによる変化を図 4 に示す.
4.評価実験
検索対象として CSJ のコア講演 177 講演(約 44
時間)を音声認識したもの,検索語としてコア講演
図2
用未知語 50 検索語(竹取物語,名犬ラッシーなど)
直線強調フィルタ
とコア講演用既知語 50 検索語(情報検索,お婆ち
決するために用いる直線強調フィルタについて述べ
ゃんなど)を用いた.
る.具体的には,図 2 に示すフィルタを提案する.
未知語のテキスト完全一致の結果,従来法である
これは,中心(図 2 の黒丸)の画素値を灰色の範囲
連続 DP の結果,直線検出をフィルタなしで行った
内の画素のうち最も黒い(濃度値の近い)3 つの画
結果,直線検出の前にフィルタ処理を行った提案手
素の画素値の平均値に置き換えるフィルタである.
法の結果,提案手法で直線検出の際に用いるしきい
フィルタによる変化を図 4 に示す.
値を変化させた結果を表 1 に示す.未知語セットに
関しては,提案手法(フィルタ処理)により再現率
3. 2
の向上が得られたものの,適合率が低下した.検索
雑音除去フィルタ
画像的な雑音である点画像を除去するための雑音
語の音節の長さで異なる検出しきい値を用いること
除去フィルタについて述べる.このフィルタは図 3
で,再現率を同等に保ちつつ適合率を 0.23 から 0.42
に示されている.これは,中心の画素の値を灰色部
に大きく向上できた.
分の画素値の中間値に置き換えるものである.フィ
表1
未知語の評価結果の比較
しきい値
再現率
適合率
0.05
0.22
完全一致
図3
雑音除去フィルタ
連続 DP
固定
0.38
0.22
フィルタなし
固定
0.36
0.36
提案手法
固定
0.51
0.23
提案手法
検索語長により変更
0.49
0.42
5.おわりに
今回ポスター発表を行ったことにより,多くの参
加者の方から貴重なご意見をいただくことができ,
たいへん勉強になった.本研究はテキストを検索語
とし,音声データを検索対象とするタスクである
が,検索語を音声認識し,テキストデータを検索対
象とする音声検索と誤解されることがあった.今後
ポスター発表をする際にタイトルや研究背景の説明
に気をつける必要があると感じた.
図4
フィルタリングによる画像の変化
― S-82 ―
Fly UP