...

音声に含まれる個人性情報

by user

on
Category: Documents
7

views

Report

Comments

Transcript

音声に含まれる個人性情報
論 説
音声に含まれる個人性情報
横 山 雅 夫
1.はじめに
音声は人聞にとって最も容易な情報伝達手段である.音声情報処理に関連す
る研究は、様々な分野の多くの研究者によって成されてきた[i、2、3し
どの様にして音声が発せられるかということ、どの様にして聴かれるかという
ことを生理学的・心理学的な観点から研究する分野がある。より工学的な研究
として、発せられた音声を機械で認識つまり自動的に文字列に変換するか、
あるいはそれを利用して機械等を操作することを目的とする音声認識の研究や、
文字列を与えてそれを機械で音声に変換する音声合成の研究等がある。また、
音声には、何と言っているかという言語情報に関わる音韻性と韻律、誰がしゃ
べっているかという個人性情報が混じって含まれているが、この個人性情報に
重点を置く分野として話者認識及び声質変換の研究がある。なお、会話内容の
認識(狭義の音声認識)と話者認識を含めて音声認識と呼ぶ場合があるが、こ
こでは上記のように区別して言葉を用いる.
最近、音声認識と自動翻訳、音声合成の3つを組み合わせて自動翻訳電話を
開発しようという極めて意欲的な研究も始まっている串。これは、例えば、話
者がマイク繊ホンに向かって資本語で話すとその内容が文字列に変換され、次
轍
* これを専跨に研究する纏縫として株式会社ATR自動翻訳電藷醗劣勝が創られてい
る、
一96一
音声に含まれる纒人性情報(横田 雅夫/
にこれが英語に機械翻訳され、最後に話者の声質を保った英語の音声がスピー
カーから出て来る様なシステムを開発することを目指しているものである。
本論文は、音声情報処理の概要を述べるとともに音声の持つ個人性情報に焦
点を当ててこれまでの研究の状況と今後の問題点を瞬らかにすることを目的と
する総説論文である。 ・
2.音声信号の本質と情報処理
2.i 音声波形とスペクトル
音声は空気の振動である音の一種なので、一般の音に対する分析方法が使用
できる。しかし、音声は非常に大きく波形が変化する非定常な波形を持ってい
て、この時間的変化によって情報を伝達しているのであるから、その解析はよ
り難しくなる、音声はマイクロホンによっていったん電気信号に変換されるが、
この生の信号は、例えば図1の様に連続して波形の変わる複雑な形状を持つ。
撚
∫
辮赫
霧60
§烈§∠
o o
@〃書
o貸擁
O斜.O
§ 諾
贈
G0,躍
§ノ
§
§
o o
o o
零 30 一
セ0,簿κ
図i 音声波形の例(㈱A T費自動翻訳電話研究所音声データベースより)
一97一
行政社会論集 第4巻第3号
図は、ある話者が、ヂ庶民ま、ゼ頂上」と発声した場合のそれぞれに対する波形
である。波形の下には時間軸(数値の単位は秒〉とともに発声内容をヘボン式
ローマ字を屠いた音声記号で示している.コンマで区切られた母音は長音化し
た母音を示している。母音を長く発声するときは音声は比較的周期的な波形を
持つが、それでも全く同じ波形が繰り返されるわけではなく、i周期相当分の
波の形状はそれぞれ少しずつ異なっていることが多い。
ところで、耳及び後続の神経系ではこの様な波形に対してスペクトル分析が
行われていることが知られている.即ち、複雑な波形でも、それはいくつかの
(あるいは無限個の)周期と振幅と位相の異なる正弦波の和に分解して表せる
のであるが、この各正弦波の強さの分布(スペクトノのを求めるのがスペクト
ル分析で、耳では主に音声のスペクトルから情報を読み取っていることが明ら
かにされている.生の波形のままでは冗長すぎて不要な情報が含まれているの
である.逆に言えば、話者は音声を発するときにその中に知らないうちにスペ
クトルの形で伝えるべき情報を組み込んでいるといえる。スペクトルを求める
には高速フーリエ変換(FFT)がよく用いられる/4、51。
音声信号は連続的な電気信号に変えられた後、通常憩∼20K翫でサンプリン
グされて離散的な数値(スカラー)の時系列
κ(∼/’ ,∼ニ1、一・一 ノ∼
に変換される。ここで、ズはサンプリングの時点を表す離散的な時刻、鯵はデ
ータ数を表す.そして、焉∼30mS程度の小区間(これをフレームといい、こ
の長さをフレーム長という)ごとにFFTによってスペクトルを求めることを、
小区間を少しずつずらしながら(このずらす量をフレーム周期といい、フレー
ム長よりも短く、5∼20mSとする)繰り返すことによって、離散的なスペク
トルのベクトル(海次元ベクトル、々はフレームに含まれるデータ数から定ま
る)の時系列
一98一
音声に含まれる個人性情報(積出 雅夫)
ハ(T}\
彦(T)
㌧ 7’=1、… 一、、V
ρ(T)=
/)々17「}/
を求めることができる。・Vはフレームの総数である。
会話の内容はこの様にしてスペクトルのベクトルの時系列に変換される。こ
のようなベクトル量は音声を認識するために必要で本質的な量という意味で、
特徴パラメータ(または特徴量)と呼ばれる。
音声は、声帯などの音源で生成した音が、声道(咽頭腔、β腔、鼻腔から成
る)またはその一部分において変形されて作られる。正確に言うと、声道(ま
たはその一部分)はフィルターの役目を果たし、音源の音のスペクトルに重み
付けしたスペクトルを持つ音を出力し、これが音声となる(図2参照)。
講一一
癖醜←一音青
図2 音声生成機構
例えば、同じ高さで、母音/a/、/i/、/賢/、/e/、/0!を発声する場合、
音源である声帯で生成する音は母音によらずほとんどおなじ波形をしていて
(3角形に近い波形が周期的に繰り返される)、従ってスペクトルもほぼ同じ
であるものが、声道において重み付けられて、それぞれの母音のスペクトルを
有するようになる(図3参照)。なお、a、i、綾、e、oは音声記号(音韻
記号)であるが、音声記号であることを強調するために記号を斜線で挟んで示
一99一
一華 ﹃
行政社会論集 第4巻第3号
す場合が多く、ここでも斜線を添えている.
』一/毒/
/4』一〃
一』一β/
ノ驚帯波形
漬』調
』一ρ・
毒遵フイ膨ター
図3 音源波形と声道フィルター
そこでこの声道のフィルターとしての伝達関数を音声の特徴量として用いる
という方法が考えられ、特に音声認識ではこの種の特徴量が用いられる。音源
の波形は観測できないので、具体的には発声された音声から声道の伝達関数を
近似的に求めている。実際には伝達関数の代わりにこれと等価のLPC係数、
PARCOR係数、低次ケプストラム係数などが特徴パラメータとして用いられ
る。ケプストラムは音声のスペクトルのグラフをフーリエ級数で表そうとした
ときのフーリエ係数を意賺し、通常用いられる低次のケプストラムはスペクト
ルのグラフの概形を表す係数となる。また、いくつかの種類の特徴パラメータ
が併用されて特徴パラメータとして用いられていることも多い。例えば、低次
ケプストラム係数とその差分、及び(音源の〉基本周波数と音声の大きさを込
みで15∼30次元の特徴ベクトルを構成する。
2.2 音声認識と音声合成
一欝。一
音声に含まれる鰯人性情報(横山 雅夫〉
音声に対するフレーム周蟻ごとの特徴ベクトルをたくさん集めてコンピュー
タに記憶しておき、話者の音声が入力されたときそれと照合を行って文字列に
変換するのが音声認識の基本的な原理である。この特徴ベクトルには当然音韻
情報と個人性情報が混在していて、両者の完全な分離は難しいことが多い。そ
のために、音声認識においては、コンピュータに登録された人だけが対象とな
る特定話者用のシステムに対して、非特定話者用のシステムの方が一般に音声
の認識率(入力音声のうち正しく認識できる割合)が低く、しかしながら実用
的には価値が高いので、現在盛んに研究が進められている。個人差を克服する
ための方法には、多くの話者の音声を集めて不特定話者用に特徴ベクトルを準
備する方法と、特定話者用のシステムを別の話者が使用するときに少量の音声
を発してこれによって登録されている標準特徴ベクトルを現在の話者に適応的
に修正する話者適応を用いる場合とが研究されている。
どの様な形で標準の特徴ベクトルを登録しておくかということと、入力され
た話者の音声に対する特徴ベクトル時系列と登録された標準のベクトルをどの
様に照合するかという方法については、多くの手法が提案されている。認識対
象から、大きく分けると、いくつかの登録された単語のみを認識する場合の研
究と連続音声を認識する場合の研究がある。ここでは後者の場合のうちの典型
的な1つについて示す。
(i/言語を表現するために必要な全音素に対する特徴ベクトルを登録してお
く。なお、音素とは言語を文字列により表現する上での最小の単位であ甑例
えば「朝まの音素は、/3/、/s/、/a/から成る。
② 入力音声から特徴ベクトルの時系列を求め、どの音素かを登録された音
素の特徴ベクトルと比較して定める。ただし、この音素認識は完全なものでは
なく、誤認識が含まれる。
(3/音素時系列に対してどの単語に相当するのかを判断して文字列を生成す
る。この際、文脈を考慮したり文法を参照する機能が必要となる。
用途にもよるが、現在のところ、十分な機能のある音声認識システムは開発
一iOi一
行政社会論集 第4巻第3号
されているとは言えない。
さて、音声認識の逆の技術と言えるかも知れない音声合成の方式には、大き
く分けると、実際の人聞の発した音声を保存しておき、そのまま、もしくはつ
なぎ合わせて用いる方式と、純粋に音声波形を合成する場合とがある。後者が
本当の音声合成であるといえるが、これには、音声生成機檎をどう取り入れる
かによって二つの方法が提案されている。
一つはいくつかの音源波形を準備し、かつ声道の伝達関数を必要なだけ用意
しておき、音源波形と伝達関数の組合せで必要な音声を生成するもので、ター
ミナルアナログ方式と呼ばれる。どの様な音源波形と伝達関数を用いればいい
かは、実際の音声の多くのサンプルを参考にして定められる。
もう一つの方法は、伝達関数ではなくて声道の形状そのものを指定すること
によって音声を生成しようとするもので、構造アナログ方式と呼ばれる。この
方法は実際の音声生成機構を直接シミュレートしょうとするものである.これ
はさらに声道アナ鷺グ方式と調音アナヨグ方式に分けられる。声道は断面積が
一定の管ではなく、断面積が連続的に変化するある長さを持った管であるが、
音がこの中を伝播するときには断面積の変化のために音波が一部反射される現
象を生ずる。このために結果として音源より発声した音は籔から出るまでに変
化を受ける.この音の変化の過程は、連続的に断面積の変わる声道を断面積の
異なる複数個の短い管の縦続接続で近似することによってシミュレートするこ
とができる。ごの場合の各断面積と音源の位置などを制御パラメータとする方
法が声道アナ蟹グ方式である。また、声道を形成する調音器官をモデル化し、
その位置や形状を制御パラメータとする方法が調音アナログ方式である。
一般にはターミナルアナログ方式が用いられることが多いが、音声生成の本
質に迫る意味で構造アナβグ方式は興味深い方式である.
以上述べてきた音声を純粋に合成する方法においては、各部分部分の音声を
いかにスムーズに変化させて接続していくかが大切な技術になる。また、通常
の文字言語で書かれた文書を入力として、人間がこれを読んで発音するのと同
一102一
音声に含まれる偲人性情報(積出 雅夫)
様にこれを音声化するためには、多くの丁1夫が必要となる。一般に、単語のア
クセントや文の韻律的情報は、文字言語では表記されないので、この場合は発
声辞書の参照や構文解析等の自然言語処礫が必要になる。このように音韻記号
や通常の文字等の離散的な単位の系列から、一般には連続的な音声合成用パラ
メータを導娼するには種々の変換規則が必要である。
・溝∼ 生1青幸暴
3. 玉 {国人茎1窪とは
音ナ1∫にば、ヤ、語情報だけではなく、以下のような種々のものが含まれる。
(i/主に個人の生理学的特徴および発声のしかた(発声器官の動かし方)か
ら決まる「誰の声か」を同定できる声の質、あるいは高い声、かすれ声、若い
声、女の声、いい声というような声の質。
(2/主に習慣によって身に付いた方言的特徴、個々の人特有の口調などの韻
律的特徴、これは基本周波数の変化で表されるアクセントやイントネーシ3ン、
振幅の変化に関連するストレス(プロミネンス)、時間構造に関連するテンポ
やリズムなどからなっている。その飽、発声速度、使罵語彙なども個人性の一
部を成す。
⑤ 悲しそうな声とか、軽蔑したような声など、相手の感情を伝える要素。
(i/、②のことがらが音声の個人性であるといえるが、音声情報処理の研究課
題としては現在主に(i/の課題が取り扱われている。そこで・ここでは(i〉に限定
して論じる。
(i!の声の質のことを一般に声質というが、声質は主に個人の発声器官の形状
で決まり、その特徴は音声のスペクトルの中に現れる。しかし、音声の中には
音韻を表す情報も混在しているため声質のみの情報を分離することは容易では
ない。ig45年に米国のベル研究所のR.K.Potterによってソナグラフが発明
され、スペクトルの時系列を視覚的に記録する、いわゆる声紋の利用が可能に
一io3一
行政社会論集 第4巻第3号
なった。声紋の利用のiつは、声紋の形状を人間がみて同じ話者のものかどう
かを判断するものである。欝66年に米国でこの声紋が初めて裁判に証拠として
用いられた。しかしその後、欝70年頃、米国司法省や州警察の援助を受けて行
われた声紋による話者認識の信頼性についての大規模な実験の結果、犯罪操作
の証拠として用いるには信頼性に乏しいことが示された[61。しかし、もっ
と良い分析方法が開発され、次節に示すように個人性情報を利用した話者認識
技術はかなり成功をおさめるに至っている。
さて、魑人性情報(声質)は音韻情報と共にスペクトルの中に含まれている
のであるが、音声の生成機構に着目して項濤を考えると、
声帯特性として
α〉 ピッチ周波数(基本周波数〉の平均値
② ピッチ周波数の時間変化
(3/ピッチ周波数のゆらぎ
(4/声帯波形
声道特性として
(i/スペクトル包絡の形と傾斜
(2)ホルマント周波数(声道の共振周波数)の値
(3/ホルマント周波数の時間変化
(4/平均スペクトル特性
等が挙げられている[71。
しかし、これらの中で、どの特徴に最も多くの個人性情報が含まれるかを明
らかにすることは難しい。これは個々の音響的特徴を独立に取り出し、この特
徴だけの知覚的効果を調べることが精度良く行えないためと、どのパラメータ
が重要であるかは発声内容に大きく依存するからである。
個人性の音響的特徴と知覚に関する研究は、従来、種々の角度から行われ、
主として音源特性と声道特性を分離し、おのおのの特性と個人性との関係が論
じられてきた[8、9、26、27、28、291.伊藤らliOlは、種々の音響パラ
一104一
音声に含まれる纒人性情報(横山 雅夫)
メータと個人性知覚との関係を調べ、その結果、スペクトル包絡特性、ピッチ
周波数、時間特性(テンポ)の順に寄与が大きいことを示した。桑原らli君
は、ホルマント周波数、バンド輻、および基本周波数が個人性に与える影響を
調べた実験により、ホルマント周波数のシフトに対して個人性は最も敏感で
あり、次にホルマント・バンド幅、最も鈍感なのは基本周波数であることを示
した。また、古井ら[121は、男性話者9名の発声した単語音声を用い、平均
スペクトル包絡及び平均ピッチと音声の個人性との関係を調べた。その結果、
ケプストラムで平滑化したスペクトル包絡が個人性知覚に最も大きく寄与し
ていること、更に、2.5∼3.5k翫帯域の寄与が大きいことを示した。一方、鈴
木1131は、年齢や性差、あるいは身体的特徴とピッチ周波数その他の音響パ
ラメータとの相関を調べたいくつかの研究に関する解説を行っている。
3.2 話者認識
音声が誰の声かを自動判別することが話者認識である.話者認識は、話者識
別と話者照合に分けることができる.話者識別とは、未知音声が予め登録され
た話者のうちの何れの話者によるものであるかを判定するものである。また、
話者照合とは、未知音声が、対象としているある登録話者のものであるか否か
を判定するものである。しかしながら、ここでは特には両者を区別せずに論じ
ることにしよう。
話者認識の考え方は音声認識と同じで、かつ誰の声かのみ判定すればいいの
でシステムとしては簡単そうに思えるが、音声認識のように文脈で不確実性を
補うことはできないという難しさがある。音声認識の場合と同様に、元々、個
人性というカテゴリーにも重複があるものと考えられるので、完全な認識は不
可能かも知れない。
カテゴリーに重複がある例を、図4の手書き文字認識の例で示す。ここでカ
テゴリーとは単に3つの小文字のアルファベットを意味する。この例では3つ
のアルファベヅトをいろいろな書体で書いて並べている。三角形の頂点ではで
一105一
行政社会論集 第4巻第3号
きるだけその文字らしい形の文字を書き、三角形の辺に沿って離れるに従って
(辺の中央部に行くに従って)文字がその辺の端の頂点の2つの文字のどちら
に属するか曖昧になるように記したものである。三角形の頂点近くにある文字
については明かにa、も、cのどのカテゴリーに属するか分かるが、三角形の
頂点と頂点の中間に位置する文字はどちらの範躊に属するかを明確には判定で
きない。この例の場合、複数のカテゴリーに属する(手書き文字の)パターン
が存在する、即ちカテゴリーに重複があるため判定できないといえる。しかし、
一般には、原理的に判別できないのか手法が適切でないために判別できないの
か分からない場合が多い。従って、話者認識、音声認識の場合でもうまく判定
できない原因が本当はどこにあるのかを注意して検討しなければならない。
αG
αひ
aひα 6δ呑4
参
δ
ひ
c
G C
ご
図4
カテゴリーの重複
なお、音声を鍵の代りに使おうとするならば、十分認識率が高くなければ不
安が残るだろう。そのうえ、音声そのものを秘密裏に録音されてそれを飽の人
が再生することもありうることを考えると、ある程度誤動作が許される目的に
向いているように思われる。
これまで話者認識については様々な醗究がなされてきた[i4・i5・16・i7・
一106一
音声に含まれる鰯人性情報(積出 雅夫)
18、ig、201。古井12il、Nalk1221は話者認識に関する広範な解説を行っ
ている。話者認識では個人性のうちでも真似をしにくい、本文3.iにおいて
述べた郵声質」が用いられる。
話者認識は、大きく分けて、発声内容を定めておくか、限定しないかの2つ
の方法がある。前者の代表的な方法としては、単語の音声認識において良く用
いられる方法と同じDPマッチングがある。これは予め定められた単語を未知
話者が発声入力して.各話者の事前に登録されているその単語の音声パターン
(音素の特徴ベクトルの時系列)とのマッチングを行い、マッチング距離の最
もノ1・さい話者をその未知話者であると同定するものである。ただし、単語を発
声するたびに発声時間が変動することを吸収するために時間軸上の伸縮をマジ
チングを行うときに考慮する方法がとられ、この時用いられる数学的方法であ
るDP(Dy餓墾lc Progra盤盤塗9〉の名前を付けてDPマッチングと呼ばれてい
るのである.この特徴ベクトルとしては音声認識の場合と同様に声道特性を表
すケプストラムなどと音源情報を表す基本周波数などが込みで用いられること
が多い。
発声内容不依存形のものとしては、各話者の長時間平均スペクトルを利用す
る方法が挙げられる。この長時間平均スペクトル法は、各話者のスペクトルの
長時間平均を個人性の特徴パラメータとする方法である。これは、声道の形は
言葉の内容に対応して時々刻々変化するが、声帯波形は発声内容によって大き
く変化することはないので、長時間平均スペクトルを求めると声道の特性が平
均化されるので、これによって声帯波スペクトルの概形が推定できるので・こ
のスペクトルに含まれる個人性を利用しようとするものであるr長時間平均ス
ペクトルでは、特に2k翫以上の高周波域に個人差が見られる16しまた、
音声の個人性は長期時間経過によって変化するが、古井[i4、301はこ.れに対
する対策を示している。
スペクトルそのものではなく、話者の音声をベクトル量子化したときのコー
ドブックも話者の個人性を反映する.これを利用した話者認識の研究が行われ
一iO7一
行政社会論集 第4巻第3号
ている120、23、24、2司。なお、ベクトル量子化とは、話者の音声のサンプ
ルを大量に取ることによってその話者の特徴ベクトルの集合をある少数個の特
徴ベクトルで代表させることをいい、これに番号をつけて記録したものを、コ
ードブックという。話者の会話は、近似的にコードブックの番号の時系列によ
って表されることになる。白井ら[2田は、ベクトル量子化により登録話者の
音声の共通のコードブックを作り、各話者ごとのベクトル量子化コードの出現
頻度分布の個人差を利用して、発声内容不依存の話者認識を行う方法を示して
いる。
3.3 個人性の移植
個人性情報の分析が完全ならば、ある話者の音声を別の話者の音声に変換し、
たり、純粋に特定の話者の音声を合成によって作り出すことができることにな
る。変換技術は不特定話者音声認識の際の話者適応のためにもそのまま役にた
つ。このような試みは、一部成功しており、興喋深い問題である13i、34、35、
36、37、38、39、40L
現在のところ、個人性のみを単独で分析整理することは余り成功していない
が、ある音声の声質を別のもの、特に別の特定の人の音声に変換する実験が行
われている.これは、音声の分析と合成の過程で個人性の部分を入れ換えるこ
とによって行われる。以下に、声質変換の碍究例を示す。
清水ら[341は、男性音声と女性音声の、2者間の特徴ベクトルを1つの行
列によって関係づける方式を示している.ピッチについては2者間の平均のピ
ッチ比を求める.この固定された行列とピッチ比を用いて入力の音声に対して
声質の変換された音声を出力することを試みている.結果はあまり思わしいも
のではないようで、おそらく1つの行列で変換するのに無理があるように思わ
れる。同様な変換方式として、高木ら1401は、話者の3つのホルマント周波
数からなる特徴ベクトルをiつの行列でアフィン変換することによって声質を
変換する試みを行っている。
一工08一
音声に含まれる鰻人性情報(横出 雅夫)
一方、井上ら1371や阿部ら1391は、話者のコードブック問の関係付けを
用いた声質変換を試みている。阿部らの方法の概要は次の通りである。即ち、
まず話者AとBからの大量の音声サンプルを用いて話者ごとの特徴ベクトルの
集合を代表する少数個のベクトル(例えば256個)を定めてコードブックを作
り、次に比較的少数の単語を2話者に発声させ,これを用いて2者のコードブ
ックの要素(構成要素である、例えば256個のベクトル)問の関係を調べ記録
しておく。そして、話者Aの会話が入力されたらこの関係を利用して話者Bの
コードブックを用いて話者Bの声質の音声を合成して出力する。
声質変換は特徴ベクトルをうまく簡単な方法で変更することと適当な方法
で再合成するところに改良の余地があるように思われる。
4.おわりに
本論文では、音声に含まれる個人性情報とその処理のしかたについて、現状
を報告した。初めに、音声信号の本質とスペクトル等の特微量について解説し、
また、音声認識と音声合成の概要の説明を行った。そして、偲人性情報のとら
え方について述べるとともに、これに着目した話者認識について説明した。ま
た、個人性情報を写し換える方法についてまとめた・
個人性情報は音源特性と声道特性の中に分散して含まれてお甑現在のとこ
ろ個人性情報は、例えば、音声の大量のサンプルから作られる個人のコードブ
ックを構成するベクトルの集合を示すというような形で把握されているに過ぎ
ない。このような方法では個人性情報の本質を理解したことにはならないだろ
う。もっと本質を表すモデルかパラメータの提案が必要であると思われる。
さらに、声質以外の個人の癖,方言的特徴、感情などの個人性情報の自動分
析や音声合成時における自動生成についても研究を行う必要があ甑課題とし
ては多くのものが残されているように思われる。
一iO9一
行政社会論集 第4巻第3号
参考文献
!雌 甘利俊一監修:「音声・聴覚と神経回路網モデル玉オーム鮭(欝雛)
!21 安居院猛・中、葛正之ゴコンピ手一タ音声処理」、秋葉墨版、(欝88〉
[3] 城戸健一ゴ音声合成と認識ま、オーム社、(欝86)
141 Bギlg墾a搬,E.0.著.宮獅洋・今井秀樹訳ゴ高速フーリエ変換窪、科学技
術出版社、(欝79〉
151 安居院猛・中島正之1ギFFTの使い方」、秋葉出版、(ig87)
161 古井貞煕、 “音声の個人性情報“、数理科学、V蕊22、翫6、凶,33−4i、
(ig84〉
171 桑原尚夫、‘‘声の飼人性に関する諸問題㌦電子構報通信学会誌、V砿7鼠
臨4、帥.345−352、(ig87)
!8] 中津井護・鈴木誠史、“母音定常部の飼人性と声帯音源との関係’\ 鷺本音
響学会講演論文集、2−1−5.(欝7i)
191 1{{畑孝…、“母音における話者要遜の聴取評価“.嚢本音響学会講演論文集、
3−2−6、 (ig75〉
巨鐘 伊藤憲三・斉藤藪三、“音声の音響パラメータが懸人性の知覚に及ぼす影
響ヤ’、電子逓信学会論文誌(A)、Vol.」65−A、晦1、欝欝、iOi−io8、(ig82)
巨君 桑原尚夫・大串健吾、“ホルマント周波数・バンド幅の独立制御と個人性判
断’ヤ、電子情報通信学会論文誌、Vol.J69−A、臨4、蹄.50餅5i7、(ig86)
巨幻 ’古井貞煕・赤井正人、“音声における薩人性の知覚と物理関連量㌦ 馨本音
響学会聴覚研究会資料、H−85一露、帥.レ8、(欝88)
巨31 鈴木誠史、L4音声と話者の相関関係についで\ 馨本音響学会誌、VoL4至、
翻2.P費.89縛0§、(ig74)
1141 古井貞煕、“音声の個人性パラメータの時期的変動と話者認識汽電子通信
学会論文誌A、Vol.57−A、蜘12、搾.880−887、(ig74)
巨虜 海野雅幸・西村新吾・宮川正志・麻生英樹・小池恒彦・“ニューラルネッ
トワークによる話者認識“、テレビジョン学会技術報告、Vo簸3、晦3まp泌g−
24、 (ig89〉
巨司 野綴秀樹・谷本益巳・鈴木隆雄・木、竪ヌ清次・早間一郎、“単語によっていき
一nO一
音声に含まれる醤人性情報(横田 雅.夫)
値を変えない話者照合“、科学警察研究所報告法科学編、V(江35、撫4、ρ騨一
2i2−2i6、 (ig82)
巨資 瞬村公一・木村正行、し個人性のモデルによる話者認識㌦電子情報通儒学
会技術研究報告、Vol.84、臨299、(PRL8を77)即ほ一7、(ig85)
巨81 柏木浩光・中村真毯・高梨守弘、託線形予灘残差のスペクトル包絡による話
者識別”、電子情報通信学会論文誌、Vol.」68−A、臨7、脚.702−7§3、(ig85)
賢91 小倉久宜・広瀬秀治・栃内香次・永田邦一、“音声スペクトルパラメータの
時間パターンを用いた話者照合に関する研究”、北海道大学工学部研究報告、
翻g2、PP.6レ69、(ig8①
[2鑓 白井克彦・関野一則・石毛俊一、“ベクトル量子化スペクトルの頻度分布に
よる話者識別’ヤ、電子情報通信学会論文誌、V(}1.」鴨一D、翫6、β夢護欝レ
ii88、 (ig87)
陀擁 古井貞煕、“話者認識“、蓉本音響学会誌、V砿3乳翫5、睡23餅238、
(ig8i)
!221 Nalk、」.蟹..“Spe段kerVer張ca童1{矯:AT溢(}rlal押JEEEC《}灘舞難癖。謙1(鶏
Ma卿撫e,v()1.28、臨1,P夢.42−48,(iggG)
1231 S(}(踏g、F.K.a磁A.ε.Ro総麟)erg,“0欝出e Usε(肇{hstar te蚕(搬s a舞d
Tra貧s拒(蹟al S登ec童ral恥{or騰atlo舞雛Sρεal《εr Rec(}g錘{量(}きギ㍉Pr(}c.至EEE
童舞t.C{獲{.(羅Acot董st.Spee雄&Slg塗al Pr(〉cess擬g,pp.877−880,(A騨ll
ig86〉
1243 盆ose麓唇erg,A.E.a蟹きF.K.S(〉餓g.“Eva鎗at沁登。{a VectorQ蓑ar tlzatl(鍛
Talker疑ec・購給費Syste盤1舞Text1簸depe簸de膿a鍛dTextDe脚de継
M(》delド,P欝。.1EEE ht.C(蹟{.()簸AcOt達st.S塗eεc舞&Sl驚鍛l PrGcess撫9・
p貧.87シ876,(Aprll ig86)
[251 S()(獲g,K.ε.,A.E.裂倉se欝為er黛,L R.疑的撫er a轟d B.HJ膿舞g,“A Vect(〉r
(瞬a聖癒zatl(嬢Ap夢roac鼓t{)S夢eakαRec(〉購量tloバ,Proc聡EE ht.C〈膿覧()糞
Ac(灘st.S§eec難&Sl黛賛al Process懸黛.Pβ.387−39(瓦 (ig85)
[261Mats囎(}t(〉,M.,S.Hlkl,T.S(濃ea簸dT・N臨ra」{M雌t量齢e麟費al
貧eprese擁護沁rき(}ずPerき(殿a董Q縫a墨量ty(){VGwds a難球{ts AcOt感量。 Corre璽a童es”・
亙EEE Tra欝s.(蹟At玉dlo a鷺d Elec叢r(}ac綴st1cs,Vol.AU−2i.撫5,pp.42象
一Hi一
行政社会論集 第4巻第3号
436, (ig73)
12胃 桑原尚夫・大串健吾、“分析合成によるスペクトル翻倒と綴人性芋継ギNHK
技術研究、Vol.39,晦i,脚.25−33、(ig87)
珍81 伊藤憲三・斉藤収三、4纒人性知覚に寄与する音声の音響的特徴パラメータ
の分析’、繧本電信電話株式会社研究実用化艱苦、Vol、35、海7、睡677略86、
(ig86)
鰺91 横lll正人・井上和夫、“声質感覚に基づく個人性知覚情報の穂出”、人間工
学、Vぐ)1.2§、臨1.βp.4i{8、(鶴84〉
13硯 古井貞煕、“音声の個人性パラメータの時機的変動の解析へ蒙本電信電話
公社研究実用化報告、Vol.25、臨2、睡、425436、(ig76〉
!3擁 朱雀保正、“音声の表示と合成に適したピッチ同期DFTによる個人性制御
の試みキ∼、電子情鞍通信学会技術研究報告、V()L88、晦330、(NCL88経7)ρ夢,
29−34、 (ig88〉
13鶉 野雷秀樹・谷本益巳・木島清次、“音声の静的および動的特徴に含まれる個
人性情報”、科学警察醗究所報告法科学編、VoL3を臨i、倉pほg老2.(}98葺
1331 斉藤駿三、“合成音による音韻知覚の研究”、東京医学、VoL89、醤α、レ2、
PP、23−30、(玉982)
!341 清水忠昭・菅田一博・谷口弘、“LSP分析合成系を用いた声質変換”、鳥
取大学工学部研究報告、Vol.欝、晦玉、§p護24&(ig88)
鈴51 阿部匡伸、“言語問にわたる声質変換㌦電子情報通信学会技術研究報告、
Vo茎.89、瞬α431、(SP89−i23)、P軍).3i−38、 (ig9()〉
[3硯 都木徹・梅羅哲夫、“ピッチ変更時のひずみをスペクトル領域で修正する声
質変換方式とその晶質の心理評価”、電子情報通信学会技術研究報告、V砿
」73−A、臨3、船.387君96、αg90)
1371 井上博夫・松本弘、“PSE分析合成系と話者適応による声質変換”、電子情
報通信学会技術研究報告、Vol.89、晦242、(DSP89−38)、pρ、65−72、(i989)
1381 桑原尚夫・都木徹、“分析合成による声質変換とかれ声改善への応需汽電
子情報通信学会技術研究報告、Vo夏、86、晦263、(SP86−57〉、β嚢、45−52、(ig86)
給田 阿部匡伸・中村哲・鹿野清宏・桑原尚夫、“ベクトル量子化による声質変換“、
電子情報通信学会技術研究報告、Vol.87、翫379、αT87一韓の、pβ.i3護8、
一1i2一
音声に含まれる燧人性情報(横山 雅夫)
(ig88)
[4磁 高木聡・荒井秀一・菅谷和実・小沢慎治、‘憶ルマント周波数を優人性パラ
メータとする声質変換魅、電子情報逓信学会春季大会講演論文集、PTほ、“
i. 工i、 (ig89)
一i13一
Fly UP