Ⅲ.2.3.1-14 パペクイズ PaPeRo がクイズの問題を出し、子供が一斉に

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download Ⅲ.2.3.1-14 パペクイズ PaPeRo がクイズの問題を出し、子供が一斉に

Transcript

Ⅲ.2.3.1-14 パペクイズ PaPeRo がクイズの問題を出し、子供が一斉に

パペクイズ
PaPeRo がクイズの問題を出し、子供が一斉に答え、PaPeRo は誰が正解だったかを言うイ
ンタラクションライブラリを試作した。画面を併用して、各子供の回答内容が表示させるよう
にしている。
パペ電話
FOMA 端末から PaPeRo に TV 電話をかけると、超音波タグを使って特定の子供を捜して近
づき、PaPeRo の目のカメラの映像を FOMA 端末に送ることや、スピーカ・マイクを使って
通話などを行うインタラクションライブラリを試作した。また、電話のキーストロークによっ
て遠隔から PaPeRo に指示が与えられるようになっており、子供の様子を確認しながら
PaPeRo に望む動作を行わせることも可能である。
あいさつづくり
PaPeRo に対して「こんにちは」
「おやすみ」などの挨拶を教えることを通じて、挨拶につい
て子供自身に学んでもらうことと、ロボットの振る舞いを設計するという体験を提供するため
のインタラクションライブラリを試作した。超音波タグを内蔵し、表面にセリフ、動作、効果
音などが描かれた複数のパネルを用意し、選んだパネルを PaPeRo に見せることによって、
PaPeRo がセリフ、動作、効果音の組み合わせを再生するという内容である。
図１１：あいさつ作り
⑦ 衝突・保護・安全回避機能、ロバストシステムの開発
衝突回避・保護・安全機能に関しては、チャイルドケアロボットが子供に危害を加える可能性
（リスク要因）の洗い出しを行い、実証機の開発においてリスクを回避するような設計、実装を
行った。また、回避しきれない残留リスク要因に対する対応を踏まえた運用方法の検討を行った。
人と共存するパートナー型ロボットにおいては、今のところ安全に関する適用すべき規格や適
切なガイドラインがまだ存在しない。愛・地球博では NEDO 及び日本ロボット工業会が「愛・
地球博におけるロボットの安全性ガイドライン調査委員会」を組織し、「実用システム化推進事
業」で出展するロボットの安全性ガイドラインを策定した。このガイドラインでは、ISO12100
に基づくリスクアセスメントの実施と、デモの運用まで含めたリスク低減策を要求している。
Ⅲ.2.3.1-14
我々はガイドラインに従い、チャイルドケアロボットにおけるリスクアセスメントと安全性設計
を実施した。安全性設計としては、モータ出力エネルギーの制限、機構による安全方策、センサ・
保護回路による安全方策などを施し、残量リスクに対しては、オペレータの運用ルールで対処す
ることとした。
ガイドラインに従い、チャイルドケアロボットにおけるリスクアセスメントと安全性設計を実施した。まず想
定する使用者の年齢は 3 歳以上とした。14 歳以下の子供が扱うことを考えると、玩具とみなすことができ
る。またロボットを PC、センサ、モータを一つの筐体に統合した情報技術装置とみなすことができる。そこ
で、我々はチャイルドケアロボットの開発・評価にあたり、国際安全規格である EN71（Safety of toys）、
EN50088（Safety of electric toys）、ISO60950（Safety of information technology equipment）を適用した。
安全規格では電気特性、強度、材料、可燃性、温度などの試験を実施しクリアすることが要求されてい
る。
玩具は製品の安全規格の中で一番厳しい要求がされている。子供が単独で扱うことを想定する
必要があり、子供が玩具を破壊しても、破片で怪我をしたり、破片を飲み込んで中毒症状を起こ
したりすることがないことを要求している。
愛・地球博のために開発したチャイルドケアロボットは少量生産の試作品である。そのため、大量生産
の商品とは外装に利用できる材料、塗料が変わる。よって強度、材料、可燃性、温度の全ての評価は実
施されていない。このことに起因するリスクについては後述する運用で回避することにした。大量生産時
には全ての評価をクリアできる見込みである。
安全設計
安全設計で重要なポイントは（１）ロボットの出力するエネルギーの制限、（２）機構による
安全方策、（３）センサによる安全方策の 3 つである。
ロボットの出力するエネルギーの制限：
ロボットによる怪我のリスクを低減するためには軽量化と速度を遅くし、ロボットの出力す
るエネルギーを少なくすることが重要である。チャイルドケアロボットは約 6kg と軽量である。
またトルクの小さいモータを採用している。モータ軸での最大トルクは 0.0363N-m、車輪軸で
0.606 N-m、頭回転軸で 0.767 N-m となっている。さらにロボットの最大移動速度は 20cm/s
である。そのためロボットが出力する最大エネルギーは 0.12J に制限されており、怪我のリス
クは十分少ない。
機構による安全方策：
機構的に指などを巻き込む、引き込む、挟み込むことがない設計が重要である。PaPeRo の
筐体は球面を貴重としており、先端部、エッジ部は全て曲面とした。また稼動部の隙間につい
ては全て 3mm 以下とした。そのために巻き込み、引き込み、挟み込みのリスクは十分少ない。
Ⅲ.2.3.1-15
図１２：リスク低減のための構造
センサ・保護回路による安全方策
PaPeRo には前方と後方にそれぞれ 2 箇所超音波障害物センサを搭載した。図８に超音波セ
ンサの障害物検出範囲を示す。超音波センサにより障害物が検出した場合、ロボットは障害物
が無い方向に旋回するか、停止する。そのためロボットの衝突のリスクが低減される。
図１３：超音波センサの障害物検出範囲
PaPeRo の衝突が発生しやすい車輪の前方 2 箇所、胴体の下 1 箇所、胴体後方に 2 箇所、バン
パスイッチを設置した。また、緊急停止をするために頭の天頂部にスイッチを設置した。これらのスイ
ッチが接触、押下された時にはただちにモータの出力を停止する。さらにモータには過電流保護回
路、過負荷保護回路が搭載されており、異常状態になった場合にはモータ出力を停止する。
セ
ンサには故障リスクが必ず伴う。衝突回避のセンサ及びコントローラの構成を図 4 に示す。この図で
示されるように、様々な衝突回避のためのセンサや保護回路が搭載されており、またモータの出力
を停止するための信号の伝達経路は階層ごとに独立している。このためセンサ故障時の衝突による
怪我のリスクを低減した。
Ⅲ.2.3.1-16
図１４：多重の安全保護対策
ロバストシステムに関しては、万博期間における運用において断線や破損のないような耐久試
験を行い、開発に反映させた。耐久評価の結果により 6 ヶ月の展示期間故障無しで運用できない
部材が残るため、これについては定期メンテナンスを実施することで展示中の故障を回避する計
画である。開発中の実証機を幼稚園に持ち込み実際に子供とインタラクションさせることで実運
用における耐久性や信頼性の評価を行った。
ロボットには多数のカメラ、センサが USB デバイスとして搭載されている。USB デバイスの
バスの干渉を防ぐため、USB バスアナライザを利用し、バス上のデータをやりとりを解析、評
価し、安定してロボットが動作することを確認した。
さらにロボットは複雑な組み込みシステムであるため、ソフトウエア的にも連続稼動統合試験
を実施した。採用した BIOS、OS のカーネル、ロボットに多数接続されているモータ、センサ
類のドライバを解析し、起動、稼働中、シャットダウンの正常動作を実現した。
またバッテリ駆動によるロボットの稼働時間を増やし、さらに、バッテリの充電時間を短縮す
るために、電源管理コントローラ、充電器、バッテリ本体の 3 つの分析を行ない、改造を実施し
た。
Ⅲ.2.3.1-17
（３）成果の意義
表 3：各研究項目と成果の意義
研究項目
顔識別機能の開発
成果の意義
子供顔認識技術を取得したことにより、ロボットが単体で、搭載されたカメラ
の映像により子供を識別できることを示したもので意義がある。
タグ識別機能の開発
タグ識別技術を取得したことは、ロボットが単体で、周囲の子供の ID や位置
を検出して子供の存在確認ができることを示したもので意義がある。
耐雑音音声認識の開発
耐雑音音声認識技術を取得したことは、託児所や家庭などにおいて、子供
とロボットが簡単な言葉のやり取りができることを示したもので意義がある。
多人数音声認識機能の開発
多人数音声認識機能を取得したことは、エンタテインメントやエデュケイショ
ンにおいて、複数の子供の声を同時に認識して応答することができることを
示したもので意義がある。
ネットワークプラットフォーム機
ネットワークプラットフォーム機能を取得したことは、ロボットおよびチャイルド
能の開発
ケア担当者および子供の保護者が連係したチャイルドケアを実現するため
のソフトウェア基盤が実現したことを示すもので意義がある。
チャイルドケア機能の開発
チャイルドケア技術を取得したことは、子供がロボットと喜んで遊べることを示
すもので意義がある。
衝突・保護・安全回避機能、ロ
衝突・保護・安全回避技術およびロバストシステム技術を取得したことは、チ
バストシステムの開発
ャイルドケアロボットが子供に危害を加えることなく、長期間の運用に耐える
ものであることを示したもので意義がある。
「チャイルドケアロボットの開発」による成果により、託児・育児の負荷低減を図るための技術開発が進んだ。こ
れにより、女性の社会進出がより促進され、少子高齢化環境における 21 世紀の日本社会の健全な発展および
維持に寄与することが期待される。
「チャイルドケアロボットの開発」による成果は、個人識別能力・コミュニケーション能力・チャイルドケア能力を
有し、かつ、安全性と信頼性に関して一定以上の水準にある、コンパクトなパーソナルロボットを生み出した。こ
れは、世界初であり世界最高水準のチャイルドケアロボットであると言える。
「チャイルドケアロボットの開発」による成果は、ロボットだけでなく、人間同士や人間と情報を仲介するインタフ
ェースすべてに活用できるものであり、汎用性がある。
上記を勘案すると、投入された予算に対して、十分に見合った成果が得られていると考えられる。
Ⅲ.2.3.1-18
（４）特許の取得
表 4 に特許取得状況を示す。
特許の名称
特徴・強み・新規性
音声認識装置、音声認識方
同時発話音声認識において、音声認識時に（同時に発話する）周囲話者
法、および音声認識プログラム
の発話による悪影響を低減する目的で入力音声に白色雑音を重畳する手
法。
ストーリー出力システム、ロボッ
システムが位置を検出することができるタグを埋め込んだ複数のカードをボ
ト装置およびストーリー出力方
ード上に貼ることで、その位置に応じた物語を選択し音声等で再生するシス
法
テム。ユーザが容易に物語のバリエーションを楽しめるようになる効果があ
る。従来はスイッチ等の操作で物語を選択していたが、本発明では物語の
登場人物等が描かれた物体を操作することで物語が選択できる。
パラメータ学習装置、パラメー
3D形状に基づいた正確な頭部姿勢画像を学習することで、正面顔か否かを
タ学習方法、およびプログラム
高い角度精度で識別する。特に上下姿勢変動に弱い点を姿勢分布を密に
することで解決する。
対応決定システム、ロボット、イ
多人数音声認識を位置検出手段と連動させる手法。音声認識時に得られる
ベント出力サーバ、および対応
音声認識結果と発話者IDから、発話者の方角を向くなどの話者位置に応じ
決定方法
た応答動作を行う。
表 4：特許取得状況
特許の取得に関しては、音声認識技術、画像認識技術、ネットワーク技術をはじめとする要素技術からアプリ
ケーションに至る広い範囲において権利化を目指しており、事業戦略に沿って適切に出願を行い、かつ、権利
化するための努力を行っている。
Ⅲ.2.3.1-19
（５）成果の普及
「チャイルドケアロボットの開発」の成果は、愛・地球博における半年間に渡る実証実験を通して、世界中の多
くの方々にその情報が展開された。実証実験の会場を訪れた来場者数は、のべで 78 万人以上、実際に子供た
ちにチャイルドケアロボットとの遊びを体験してもらう「ロボットふれあい体験」の参加者は、のべで 2 万 7 千人以
上に達した。
日本ロボット学会学術講演会では、チャイルドケアロボットの発表を複数件実施し、チャイルドケアロボットのセ
ッションとなった。
ホームページ（ http://www.incx.nec.co.jp/robot/childcare/index.html ）において、チャイルドケアロボットに
関する紹介を行っている。また、科学技術館において常設展示も行われている。
以下では、愛・地球博における実証実験について説明する。
図１５にロボットふれあいルームのフロアレイアウト概要を示す。ロボットふれあいルームはロボッ
トステーションの中の、114m2 の部屋を利用しており、その形状をうまく活用するために、奥の約 2/3
のエリアは 3～12 才の子供を対象とした「ふれあい体験コーナー」として、カーペット敷きで土足禁止
の託児所のような環境を構築した。また、手前の約 1/3 のエリアは、一般観客エリアとして、誰でも入
場可能なエリアとした。
図１５ロボットふれあいルームのフロアレイアウト
ロボットふれあいルームののべ入場者数はおよそ７８万１７００人であった。また、チャイルドケア
ロボット PaPeRo とふれあい体験を行なった子供の人数はのべで２７，６２０人であり、成果の普及と
しては大成功であった。
Ⅲ.2.3.1-20
ふれあい体験のプログラムを次の表５に示す。ここでは名称、その内容、そして、万博期間中に更新
または新規開発を行ったことを示した。このように、多くのコンテンツで内容の更新を行い、また、二
つのプログラムの新規開発を行った。その際、お客様のご意見や実証実験の観察による知見を取り入れ
た。
名称
内容
期間中の更新
パペトーク
話しかけると答えてくれる
コンテンツを随時更新した
パペフェイス
顔を覚えて見分けてくれる
プログラムの高速化を行なった
パペタッチ
触ると反応する
コンテンツを随時更新した
パペタッチ（歌）
歌う、触ると効果音がする
コンテンツを追加した
パペクイズ
出題されたクイズに答える
無し
パペ電話
携帯電話と TV 電話ができる
ロボットの動作を更新した
あいさつ作り
ロボットにあいさつを教える
内容を更新した
パペストーリー
ロボットがお話しを聞かせてくれる
期間中に新規に開発した
パペ運動会
ロボットが綱引きの審判をする
期間中に新規に開発した
表５：ふれあい体験のプログラム
次にふれあい体験の参加者の年齢・性別ごとの人数を示す。これはのべの参加者数であり、一人の子供が複
数化参加したことがすべてカウントされている。「参加者数」は、「内訳：男子」と「内訳：女子」の合計である。この
表から、年齢が低いほど参加者が多かったことがわかる。
年齢
参加者数
内訳：男子
内訳：女子
3
4096
2037
205９
4
3335
1758
1577
5
4443
2310
2133
6
3633
1786
1847
7
3365
1521
1844
8
3106
1412
1694
9
2452
1086
1366
10
1773
747
1026
11
1025
458
567
12
391
159
232
表６：ふれあい体験の参加者の年齢・性別ごとの人数
また、次の表には、ふれあい体験に２回以上参加した子供について、その参加回数別の人数を示した。このふ
れあい体験は人気が高く、土日には予約待ちの行列ができるほどであったことから、一日に一回しか参加できな
いという制限を設けていた。それにもかかわらず、10 回、20 回という多くの回数参加したお客様がいらしたことは、
このチャイルドケアロボットとのふれあい体験が、子供にとってとても楽しいものであったことを意味している。
Ⅲ.2.3.1-21
ふれあい体験参加回数
人数
25 回以上
4
20—24 回
6
15—19 回
29
10-14 回
134
5-9 回
690
2—4 回
1925
合計
2788
表７：ふれあい体験の参加回数別人数
次に、ふれあい体験に５回以上参加した子供の年齢・性別ごとの人数を表に示した。この表から、ふれあい体
験が特に 3-6 歳の幼児に人気があったこと、小学校低学年がそれに続くことがわかる。
年齢
参加者数
内訳：男子
内訳：女子
3
145
66
79
4
108
55
53
5
161
85
76
6
133
61
72
7
92
38
54
8
90
38
52
9
68
27
41
10
37
10
27
11
20
5
15
12
3
2
1
表８：ふれあい体験に５回以上参加した子供の年齢・性別ごとの人数
次に、図１６に、観察結果による子供の惹きつけられ度合いを示した。全体的に８割以上が、「かな
り惹きつけられた」「それなりに惹きつけられた」となっており、３歳から１２歳まで、ほぼ年齢に関
係なく、チャイルドケアロボットを楽しんでいたことがわかる。
小学校高学年になると「かなり惹きつけられた」の割合が若干落ちるが、これは、喜びを表現するこ
とに恥ずかしさを覚える年齢層であることも影響しているように思われる。
Ⅲ.2.3.1-22
惹きつけの分布【年齢別】
幼児
小低
小中
小高
年齢不明
0%
20%
40%
A
B
60%
C
D
E
80%
100%
不明
図１６：子供の惹きつけ度合いの分布
実証実験のまとめ：
ここで実証実験の結果をまとめる。
のべ２７，６３８名の子供とのふれあい体験が実施でき、特に、幼児および小学校低学年の子供に大好評であ
った。185 日間の実証実験において、無事故、かつ人気を博することができ、実証実験および成果の普及として
は大成功であったと考えられる。
技術的な課題としては、チャイルドケアロボット自体が発話を行なっている最中にも、子供の発した声を認識で
きるような技術や、複数の子供の顔を同時に見分ける技術の開発が必要であると考えられる。そこで、前者に対
してはエコーキャンセル機能、後者に対しては多人数顔認識機能を、今後研究開発する予定である。
Ⅲ.2.3.1-23
表９に論文発表・報道等について示す。
論文等紙上発表（論文
口頭発表
誌、学会誌、国際会議）
国内
国外
国内
特許
国外
国内
報道（新聞、雑誌等）
国外
記者会見・プレスリリース：
11 件
テレビ・ラジオ：96 件
0
0
5
0
4
0
新聞・雑誌ほか：107 件
ビデオ・パンフレット・広告
類・その他プロモーション：
15 件
表９：論文発表・報道等
表９に示したとおり、本プロジェクト実施期間中において、たくさんのメディアに取り上げられ、成果を世界に広
めることができた。
Ⅲ.2.3.1-24
Ⅲ.2.4 接客ロボット
Ⅲ.2.4.1 高度コミュニケーション機能を有する実用接客ロボットシステムの開発
【三菱重工業株式会社】
Ⅲ.2.4.1-1 研究概要
本事業では，補助事業で開発した多言語の音声認識システム・会話制御ソフトウェアを実証実
験用ロボットに組み込んだ。ロボットは日本語，中国語，英語，韓国語を認識できるように構成
され，音声での指示に基づいて言語を切り替えられるようにした。
またロボットは来客の状況に応じて適切な行動を行えるような状況認識技術が搭載された。ロ
ボットの最上部に搭載した全方位カメラと，前頭部に設置した通常の透視射影レンズのカメラを
用い，人の顔を画像中から認識するようにした。ロボットは親和性を表現するために，会話を行
っている間は首部の動作を制御して，人の顔を見つめるようにした。ロボットが発話する内容は，
検出した顔の数や距離に応じて選択されるようにした。ロボットのサービスを必要とする来客に
対しては，タッチパネル端末の前方に立つ人をマットスイッチで検知するようにした。
システムを実用的なものとするよう，自動充電を含むガイドレス自律移動技術が搭載された。
赤外 LED と全方位カメラによって，充電ステーションや壁面・天井に設置した回帰反射性のマー
カーの方角を検出し，画像中のマーカーの配置からロボット自身の位置を知ることができるよう
にした。これにより，ロボットは充電ステーションとタッチパネル端末近くの接客スペースとの
間を自律移動できるようになった。ロボット周辺の障害物は，超音波センサーと赤外線距離セン
サーによって回避できるようにした。これらの要素機能を組み合わせることにより，2 台のロボ
ットが接客・充電を交代しながら自動的に運用できるようになった。
接客ロボットシステムにおいては，初めてロボットに話しかけるユーザーが主な対象となる。
このため，ロボットは音声コマンドの例示などのガイダンス表示を行うタッチパネル端末と連携
して動作するようにした。タッチパネル端末は，無線 LAN を用いて常時ロボットと通信するよう
にした。ロボットが音声を認識したときは，ロボットが音声で応答すると同時に，タッチパネル
上の操作メニューやガイダンス表示も切り替わるようにした。また逆に，タッチパネル上のボタ
ンが押された場合には，ガイダンス表示・操作メニューの切り替えと同時に，ロボットの発話内
容や音声認識候補も切り替わるようにした。
ロボットは研究室および稼動現場の双方で性能の検査を行った。特に，言語の弁別機能につい
ては，雑音の多い稼動現場で正常に動作するよう，注意深く調整を行った。
また本事業では，愛・地球博の会期中，約半年間に渡りロボットを稼動させ技術実証を行った。
接客サービスを行った管理棟エントランスでは，計画された 132 日のうち 96%に当たる 127 日で
正常な運用が行えた。稼動が停止した主な原因は，動作に伴う配線の疲労的な損傷であった。
ロボットを利用した人数は 1975 人で，一日当たり平均で 15.5 人となる。また，ロボット利用
者のうち 83%の 1647 人が利用の目的を達成することができた。利用者のうち，音声認識を使用し
た人は全体の約 33%であり，残りの約 2/3 はタッチパネル端末のみを利用した。またフロア案内
と電話取次ぎの 2 つのサービスのうち，電話取次ぎを試用した人は 3.6%にとどまった。
Ⅲ.2.4.1-1
ロボットは接客サービスを行った管理棟以外に，博覧会場でのロボットの活動を紹介する施設
「ロボットステーション」において，185 日間のデモンストレーションを行い，開発成果の広報
を行った。
上記実証実験を通して，技術的な 2 つの課題が抽出された。一つは，音声認識の性能が反響や
話者などの条件により低下する課題であり，もう一つはタッチパネル端末のソフトウェアが複雑
で，利用状況に合わせた調整が難しいことであった。これらの課題に対応するために追加の開発
を行った。音声認識については，反響の時間に対して，認識辞書の複雑さと認識率の相関関係を
調査した。また，子供の音声に対応した音響モデルを導入し，音声認識率の向上が可能であるこ
とを確かめた。端末のソフトウェア開発の簡易化については，ロボット側に画面表示・操作内容
の制御機能をすべて内蔵し，web ブラウザに Java アプレットを転送して実行させる仕組みを開発
することにより,飛躍的にソフトウェア開発を容易化した。この新システムを活用し，実用化が見
込まれる住宅モデルルームや自動車ショールームを想定したサンプル・アプリケーションを作成
し，機能性を確かめた。
Ⅲ.2.4.1-2 成果詳細
表 A に研究開発項目毎の目標の達成度を示す。
表 A 目標の達成度
基本計画研究
研究
課題
項目
接客能力
目的
目標
成果
達成度
価
状況判断
自然で違和
来訪者の状況
前方カメラだけでな
状況を判断して，適
動作技術
感のない接
（ロボットとの
く，全方位カメラの
切な情報を提供でき
の開発
客機能を実
位置関係、対話
画像も使用する，顔
るシステムを実運用
現する。
意思の有無、取
検出組み合わせによ
で確かめ，目標を達
問者に対し、挨
次ぎなどの要求
る人物検知の高性能
成した。
拶、会話等を行
の種別）に応じ
化，および適正露出
う機能を有す
て適切なタイミ
制御による、物検知
ること。
ングでの動作表
の照明変動に対する
・訪問者の映像
現や適切な内容
ロバスト化により，
を、ロボットに
の情報提供を実
来訪者の状態（ロボ
搭載されたカ
現する。
ットとの位置関係，
・博覧会会場へ
の来場者や訪
評
メラを通じネ
顔の向きなど）を
ットワークや
様々な条件において
携帯電話を経
安定的に認識できる
由して伝送で
ようにした。逆光な
き、それを見た
ど劣悪な照明条件を
Ⅲ.2.4.1-2
○
人がロボット
含む環境での顔認識
を介して会話
の性能を 10-15%向上
を可能とする
し，対話時の違和感
受付能力を有
を大きく低減した。
すること。
またこれを利用して
・来客者に対し
適切なタイミングで
て歓迎の意を
情報を提供できるよ
表現できる能
うにした。
力を有するこ
と。なおロボッ
来訪者案
来訪者を案
来訪者不在の
自動充電機能，およ
自動充電，来場者案
トは大人と接
内誘導シ
内する機能
際の自動充電
び待ち合わせ場所や
内が十分な信頼性で
する上で、自然
ステムの
を実現する
を実現すると
施設内を案内するシ
繰り返し行なえるこ
な対応を行う
開発
とともに，
ともに，待合せ
ステムを開発した。
とを実運用で検証
のに適切な身
容易な運用
スペースまで
カメラやセンサの製
し，目標を達成した。
長があること.
を可能とす
の来訪者のガ
造時のバラツキを自
る。
イドレス誘導
動的に補正する技術
を実現する。
の開発，障害物回避
（但し、屋内環
のアルゴリズムの改
境）
良により，障害物の
○
距離に応じて複数の
回避方式を使い分け
るなどにより，狭隘
な空間を含むガイド
レス移動の成功率を
73%から 95%まで向上
させることができ
た。
ネット接
ロボットと
ネット接続端末
タッチパネル端末を
ネット接続端末とロ
続機器連
外部機器を
とロボットとの
ロボットと無線ネッ
ボットとを連動さ
動システ
連動させた
連動によるイベ
トワークを介して連
せ，情報提供できる
ムの開発
高度な機能
ント情報提供機
動させる技術を開発
ことを実運用で検証
の提供
能の実現
し，これを用いて電
し，目標を達成した。
話の取次ぎ，場所案
内等の情報を提供で
きるようにした。ま
た，TV 電話つき携帯
電話，IP 電話の呼び
Ⅲ.2.4.1-3
○
出しにもそれぞれ対
応し，高度な接客対
応を可能とした。
ネット機
多数の外部
ロボット-タッ
３者以上の多数端末
３者以上での接続，
器連動シ
機器と連動
チパネルの 2
から接続し，同期し
リカバリー機能，簡
ステムの
し，容易な
者に，遠隔操作
て動作し，また通信
易なカスタマイズを
改良
開発が可能
端末を加えた 3
リカバリーも可能な
実現し，目標を達成
（追加実
なシステム
者で相互に通信
システムに改良し
した。
施項目）
を実現す
し，どの入力に
た。またカスタマイ
る。
対しても同期し
ズの大幅な簡易化も
て動作するリカ
実現した。
○
バリー機能を有
する簡易カスタ
マイズシステム
を製作する。
多言語認識・案
多言語認
各種言語使
4 ヶ国語対話（日
４ヶ国語を同時に認
４ヶ国語の対話を実
内能力
識システ
用者に対応
韓中英，挨拶、
識できる音声認識ソ
運用で実証し，目標
ムの開発
し接客でき
取次ぎ程度の会
フトウェアを開発し
を達成した。
博覧会場の雑
るようにす
話）を実現する。た。４ヶ国語で接客
音の中でも、多
る。
○
を行なうシステムを
言語（日、韓、
作成・検証し，実運
中、英）を認識
用に供した。4 ヶ国語
し、受付の取次
の音声認識・発話に
程度の会話を
加え，画面表示・操
行う能力を有
作もできる高度かつ
するとともに、
実用的な多言語対応
会場情報や各
を果たした。
種イベント情
報等をそれら
音声認識
音声認識の
子供の音声を
子供も音響モデルを
子供の声を基にした
言語で来場者
性能の改
利便性を向
基にした音響モ
導入し，認識率の向
音響モデルを導入
に案内する能
善
上させる。
デルを導入及び
上が可能であること
し，反響の多い環境
力を有するこ
（追加実
反響の多い環境
を確かめた。また反
での性能の向上を実
と。
施項目）
で運用するため
響の多い環境の影響
現し，目標を達成し
の改良型音声認
を定量分析し，音声
た。
識システムの実
認識機能をこれに基
装を行なう。
づいて改良した。
Ⅲ.2.4.1-4
○
安全性
（各研究
運用期間中
本体及びシス
国際的な機械安全の
リスクを十分に減少
項目）
の安全を確
テム運用に関
手順にのっとり，リ
し，結果としても期
保する。
して、来場者の
スクアセスメントを
間中事故を生じさせ
テム運用に関
安全確保につ
実施し，これに基づ
ずに運用することが
して、来場者の
いての配慮が
いて重大な障害の生
できた。
安全確保につ
十分なされて
じる可能性が十分低
いての配慮が
いること。
いものとなるように
本体及びシス
十分なされて
リスク低減を行っ
いること。
た。
耐久性、信頼性
（各研究
運用期間中
簡易な移動機能
移動機構を本体に内
簡単な補修のみで 6
項目）
の稼働率を
を有し、博覧会
蔵したものとしたほ
ヶ月間稼動させるこ
高める
期間中（６ヶ月
か，運用期間および
とができた。
能を有し、博覧
間）簡単な補修
メンテナンス性を考
会期間中（６ヶ
作業により稼動
慮した設計とした。
月間）簡単な補
すること。
簡易な移動機
○
○
修作業により
稼動すること。
付加的機能
ネット接
一般来場者
撮影機器及び
撮影機器を搭載し，
撮影機器を搭載し，
続機器連
が実際の運
位置情報を確
所在地周辺の画像・
所在地周辺の画像・
撮影機器及び
動システ
用の様子を
認できる機器
音声・位置情報を伝
音声・位置情報を伝
位置情報を確
ムの開発
見られるよ
などを搭載し、
送できるようにし
送できるようにし，
うにする。
所在地近辺の
た。
実際に画像を常時提
認できる機器
などを搭載し、
画像、音声及び
所在地近辺の
位置情報を伝
画像、音声及び
送する機能と
位置情報を伝
発話能力を備
送する機能と
えること。
○
示した。
発話能力を備
えること。
※ ◎：目標を上回る ○：目標を達成 △：目標を未達成－：該当せず
Ⅲ.2.4.1-2.1 ４ヶ国語言語認識システム
Ⅲ.2.4.1-2.1.1 多言語の同時音声認識の実装
VORERO では基本的な音声認識は表１－１の３つのモジュールで構成される
モジュール
音響モデル
説明
音素（言葉の音の単位）の特徴を集めたデータ。
言語ごとに単位となる音素（日本語：仮名、英語：発音記号等）が異なる
Ⅲ.2.4.1-5
為、言語ごとに別データとなる。
語彙ネットワーク
認識対象語彙を登録したデータ。語彙は音素の並びとして定義されている。
日本語：“こんにちは”Æ “こ”“ん”“に”“ち”わ“
英語：“Hello“ Æ “HH”“AH0”“L”“OW1”
音声認識エンジン
音響解析処理と照合処理からなる認識処理を行うプログラム。
音響解析処理：
入力音声を音声認識に必要な特徴データ（音響パラメータ）に変換する処理。
照合処理：
入力音声が語彙ネットワークに含まれるどの語彙にモットも近いか比較・照
合する処理。
表 1-1 音声認識基本モジュール
また下記のモジュール機能により多言語同時音声認識を実現する。
＊音響解析はすべての言語で共通の処理を行い、共通の音響パラメータを使用する。
＊音響モデルのデータ構造と語彙ネットワークのデータ構造をすべての言語に対して共通にする。
＊音声認識エンジンは同時に複数の音響モデルの登録ができる構造にする
＊語彙ネットワークに登録する語彙データの中に、各々の語彙で使用する音響モデル情報を含め、
１つの語彙ネットワーク中に複数言語の語彙登録を行うことが可能な構造にする。
上記構造に基づき、プログラム上では言語に依存する変更を行うことなく、語彙ネットワークに
複数言語の語彙情報を登録することで多言語同時認識を実現する（図１－１）。
日本語、英語、
中国語、韓国語
音響モデル
音声認識エンジン
“ aisatu “ 語彙ネットワーク
こんにちは
H ello
ニイハオ
“ EUS _n am e “ 語彙ネットワーク
Jo hn
sum ith
共通構造
認識対象語彙の変更
図 1-1 多言語対応音声認識の実装
本レポート“Ⅲ.2.4.1-2.1.3 多言語対応音声対話プログラム”を作成し多言語同時認識の機能
を検証した。またロボットシステム開発部隊に対して、上記実装に関するサポートを実施し実プ
ラットフォーム上での動作も検証された。
Ⅲ.2.4.1-2.1.2 音響モデル強化による音声認識性能向上
（１）音声認識性能向上法と強化対象言語
音声認識の性能を左右する重要なデータとして音響モデルがある。音響モデルは、言語ごと
に用意され、対象言語で使われている母音や子音などの音声の特徴を情報化したものである。
Ⅲ.2.4.1-6
高性能な音響モデルを作成するためには、ターゲットとするアプリケーションで使用される音
要素（母音や子音など）を豊富に含む音声データを用いて音響モデルをトレーニングすること
が有効である。
今回は、本システムの設置場所が万博会場内であることを勘案し、米語音声認識性能を向上
させるべく、米語の音声データを収集し、米語音響モデルの強化を実施した。
（２）北米英語音声コーパスの設計
従来、旭化成音声認識ミドルウェア VORERO では、北米英語の単語を中心に音響モデルを
トレーニングしていた。しかし、万博会場で人名などの登録を行う場合には、多国籍の人名が
認識対象となる場合もあり、北米英語とは異なる音要素の組み合わせが認識対象となり得る。
そこで、従来の北米英語の語彙には稀にしか現れない音の組み合わせを十分に収集するため、
北米英単語を連結し、たとえそれが不自然なフレーズや意味の無いフレーズであっても、話者
に読み上げさせる方法を採用した。これにより、単語の連結部分に現れる多様な音のつながり
を制御し、必要な音要素を効率的に収録できるよう発声リストを作成した（全 2,592 フレーズ）。
この音声を音響モデルのトレーニングに使用することにより、全般的な語彙の認識性能向上を
期待できる。
（３）北米英語音響モデルのトレーニング結果
前節で述べた発声リストを使い、米国在住の男女各 75 名の音声を収録した。収録は話者 1
名あたり 1 時間の拘束で収録可能な量とした。実施された収録では、話者 1 名当たりの発話数
は、約 540 発話であった。収録した音声を用いて旭化成音声認識ミドルウェア VORERO 用の
音響モデルをトレーニングし、性能を評価した結果を以下表１－２に示す。
表１－２
話者
米語音響モデル強化結果
従来の音響モデル
新音響モデル
改善
AETF002
69.64%
74.09%
4.45%
AETF003
78.37%
79.59%
1.22%
AETF004
80.57%
84.62%
4.05%
AETF005
85.54%
85.54%
0.00%
AETF008
90.36%
91.16%
0.80%
AETM001
84.62%
85.43%
0.81%
AETM002
75.00%
81.15%
6.15%
AETM003
77.82%
79.03%
1.21%
AETM004
71.49%
75.10%
3.61%
AETM008
70.97%
72.58%
1.61%
平均
78.44%
80.83%
2.39%
＜評価条件＞
評価語彙
：San Jose のストリート名 17,492
評価音声データ：北米在住男女各 5 名が発声した San Jose ストリート名 250 を発話
Ⅲ.2.4.1-7
以上のように新しい音声データを用いた音響モデルの再トレーニングにより米語の大語彙
認識性能を達成した。
Ⅲ.2.4.1-2.1.3 多言語対応音声対話プログラム
使用者が使いやすく、ストレスが少ない対話動作を実現する為には、実使用に近い環境上で作成、
評価、修正をくり返し行い、性能を向上させていくことが大切と考えられる。
この為 PC 上で
動作し対話動作定義の作成と修正を効率よく行う為の開発環境を作成する。
（１）対話動作について
現時点で実装可能な音声対話プログラムは基本動作を
１．プログラムからガイダンス音声が再生され、音声入力待ち状態になる。
２．これに対してユーザが音声認識対象語彙を発話する。
３．有効な語彙を認識したプログラムが認識結果に対応する解答音声を再生し、次の対話動作に
必要な音声入力待ち受け状態に遷移する。
とし、この手続きを繰り返すことで一連の対話を成立させていく実装となる。
上記前提に基づき音声対話プログラムの仕様は下記のものとする
＊プログラムは対話動作のシーケンスを実行する有限状態遷移機械として実装する。（図１－３）
＊音声認識は多言語同時認識を可能にする。
＊対話動作定義はテキストベースにし、定義データをエディターで書き換えることで動作の修正、
テストが容易に行える構造にする。
＊PC 上で動作するプログラムとする
＊エコーキャンセル機能も組み込み、バージイン動作の検証、評価も可能にする。
“J P_g uide”ステート
“com m on_a isa tu”ステート
こんにちわ
なまえ
しせつ
。。。。
“J P_na m e”ステート
名前を言って下さい
さとう
やまだ
こんにちわ
H ello
ニイハオ
H e llo
“E U S_g uide”ステート
“E U S_na m e”ステート
N am e ple ase
：状態定義
n am e
plac e
。。。。
Jo hn
sum ith
ニイハオ
：待ち受け語彙
図 3-1
図１－３
多言語対応音声会話プログラムの基本動作
PC 上で動作するプログラムの作成しを実施し、対話機能の開発能力が検証された。
Ⅲ.2.4.1-8
Ⅲ.2.4.1-2.1.4 多言語語彙ネットワーク作成ツール
語彙ネットワークを作成する際、通常はＳＤＫに含まれるＧＵＩベースの語彙ネットワーク作
成ツールを使用するが、
＊施設案内等のアプリケーションで語彙データの追加、変更を装置設置後に簡単に行いたい
＊各種言語を登録する際、言語別登録者は特殊なツールを取り扱わないようにしたい
等の運用を実現するために専用のＧＵＩツール以外の登録方法が要望されている。この為、共通
のフォーマットのテキストデータから語彙ネットワークデータを作成するコマンドラインプログ
ラムの作成を行う。
入力データ仕様
＊
文字コードは全言語の表記が混在可能な UTF-8（Unicode）を使用する。
＊
CSV テキストファイル形式
列
内容
１
ラベル
２
言語の指定
J（日本語）E（英語）K（韓国語）C（中国語）の何れか半角大文字にて指定
スペル
４
発音
（SDK 上の Spelling）
３
（SDK 上の Pronunciation）
上述の各言語のスペルと発音の関係は、
－日本語（かな文字）、韓国語（発音用ハングル）、中国語（PinYin）：スペルと発音は 1 対１に
対応
－英語（単語のスペル）
：スペルと発音は 1 対１に対応しない為辞書を使用する。
この為、入力データは基本的には“スペル”欄にのみ語彙情報を登録し“発音”欄には入力はせ
ずに処理を行うことができる。
ただし英語の辞書に登録されていない単語等に対しては、あら
かじめ発音情報を登録しておくと入力された発音データを使用して語彙ネットワークを作成する。
（１）出力語彙ネットワークデータ仕様
出力語彙ネットワークデータは下記の２種類の構造が指定可能となる
Ａ．標準語彙ネットワーク
語彙リストに登録された音声を発話し認識される。
語彙リスト
S t ar t
おはよう
こんにちわ
こんばんわ
h e llo
En d
A . 標準語彙ネットワーク
Ｂ．ガーベージつき語彙ネットワーク
ガーベージは不要語を吸収するしくみで、認識語彙の前後にガーベージを登録することで、語彙
Ⅲ.2.4.1-9
の前後に不要語を話しても、登録語彙を認識するようになる（Spotting
Garbage）。
また認
識語彙に並列にガーベージを登録することで、登録語彙以外の発話がされた場合は認識結果を出
力しない動作が可能になる（Rejection
Garbage）。
ガーベージには吸収強度を調整するパラメータがあり、この値を変えることで認識しやすさの
調整が可能になる。
語彙リスト
S tar t
S po ttin g
G ar bage
おはよう
こんにちわ
こんばんわ
h e llo
Re je c tion G ar bage
B . ガーベージ付き語彙ネットワーク
Ⅲ.2.4.1-10
S po ttin g
G ar bage
En d
Ⅲ.2.4.1-2.2 状況判断動作システム
接客ロボットが来訪者に対してより人間らしい立ち居振る舞いで接することができれば、
来訪者の接客ロボットに対する心象を良好にして円滑なコミュニケーションを実現するこ
とが可能となる。また、博覧会の場を通じて、広くユーザにこのような機能をアピールす
ることで、生活支援型ロボットの製品イメージを高められる。
そこで、wakamaru の有する移動体および顔画像による人検知性能の高性能化と照明に対
するロバスト性能の向上を図り、これを接客ロボットに適用することで、来訪者に対し親
和性の高いコミュニケーション動作（来訪者に顔を向けて話し掛けるなど）が行える対話
動作システムを開発した．
具体的には、常時、ロボットの頭頂部および額部に設置したカメラ画像で周囲の人物を
探索し、探索した人物の方に接客ロボットが視線を向ける動作を行うとともに，人物の距
離や正面顔の検知有無に応じて発話内容を切り替え，状況に応じた対応ができるようにし
た。以下、今回の助成事業における人物検知技術の開発内容を説明する。
Ⅲ.2.4.1-2.2.1 顔検出組み合わせによる人物検知の高性能化
従来の wakamaru では、移動体検出のみで人物検知を行っていたが、頭頂部の全方位カメ
ラおよび正面カメラを使った顔特徴抽出による顔検出機能を追加し、人物の検知能力を向
上させた。
具体的には，以下の順で人物検知を行い、各手順で検出があった場合、以降の処理は行
わず、人物検知ありとする。また、下記３項の移動体検知の段階においても検出がなかっ
た場合は、人物検出無しと、判断する処理とした。
１．正面カメラによる顔検出
２．全方位カメラによる顔検出
３．移動体検知
正面カメラによる顔検出例を図２－１に、全方位カメラでの検出例を図２－２に示す。
（距離約 1m）
図２－１
正面カメラ顔検出例
図２－２
Ⅲ.2.4.1-11
全方位カメラ顔検出例
本図に示すように人物の顔が検出された場合には、wakamaru はターゲットとなる人物の
方に視線を向ける動作を行うが、人物検出なしと判断された場合には、ロボットの発話を
停止させるようにした。
一方、カメラ画像の中で移動体が検知されているが、人物の顔が検知できない場合には，
「受付の wakamaru です」などと周囲の注意を引くための一言程度の発話をさせるようにし
た。
正面顔が検知できている場合には，ニュース・天気予報などの情報を発話させるように
した。
Ⅲ.2.4.1-12
Ⅲ.2.4.1-2.2.2 適正露出制御による、人物検知の照明変動に対するロバスト化
Ⅲ.2.4.1-2.2.1 項の顔検知では、周囲の照明光の状態が変動しても、常に適切な明るさ
の画像が得られないとうまく顔検知ができない。このような照明光の変動に対するロバス
ト性能を向上させるため、画像中の輝度ヒストグラムを利用し現在の適正露出を計算し、
さらに照明光の時間的な変動に対応するために、同時に多段階の撮像を行って適正な露出
となる画像を抽出する処理も開発した。
多段階露出の例（正面カメラ）を図２－３に示す。
図２－３
正面カメラ多段階露出の例（真ん中が適正）
多段階露出による効果を、顔検出処理を適用した顔登録（顔認識用）における成功率で
評価した。
この評価では、屋内試験環境において、朝昼夜の日照変化や蛍光灯照明といった多様な
照明環境の下で、6 名の人物に対して wakamaru による顔の撮像を行い、顔画像の登録成功
率を求めた（表２－１）
。
表２－１
項
目
人物検知の照明変動に対するロバスト性能の評価条件
内
容
場所
須磨高倉社宅リビング（窓際）
・和室（奥）
時間
昼：１０時～１６時、夜：１８時～２１時
照明
昼：日光のみ、夜：リビングの照明のみ、リビングの照明＋和室の照明
距離
０．５ｍ、０．７５ｍ、１ｍ
光の方向
顔の正面（順光）、顔の後ろ（逆光）、顔の横（横光）
対象人数
６名（１名はメガネ掛け、メガネ外しの２種類を撮影）
露出
自動露出制御値の１／４～４倍を９分割
顔登録処理では、顔検出ライブラリから出力される顔器官抽出スコアを判定基準にして、
登録するかしないかを判定している。今回の評価では、この顔器官抽出スコアに対する顔
登録判定閾値に対する顔登録成功率を評価した。
結果を図２－４に示す。
Ⅲ.2.4.1-13
顔登録閾値を下げることで、顔検出が困難な横方向からの光や逆光の条件を含んでいて
も登録成功率を上げることができることが分かり、また、今回開発した３段階露出撮影処
理を適用することで 10%～15％成功率が向上することを明らかにした。
成功率％
顔登録閾値
図２－４
多段階露出による顔検知（顔登録）成功率向上評価結果
Ⅲ.2.4.1-14
Ⅲ.2.4.1-2.3 来訪者案内誘導システム
自律移動性は、コミュニケーション同様、ロボットに特徴的な機能の一つである。
本助成事業では、自動充電により、手間の掛からないロボットシステムを構築すると共
に、目的地への自律的な移動や障害物回避によるガイドレス誘導技術を開発し、ロボット
が屋内環境を移動するイメージを来訪者に印象付けることができると考えた。
そこで、自動充電や目的地への自律的な移動に不可欠な自己位置標定の信頼性を向上さ
せる技術開発を行うと共に、障害物回避の高度化を狙った技術開発を実施した。
以下にその開発内容を示す。
Ⅲ.2.4.1-2.3.1 自己位置標定の信頼性向上
wakamaru の自己位置標定は、wakamaru の頭頂部に全方位カメラと赤外 LED 照明を搭載し、
赤外 LED から発射した赤外光を充電ステーションや天井・壁面に設置した回帰反射性のマ
ーカによって反射させ、その画像を全方位カメラで撮影して映像上のマーカの座標値から
自己位置を算出する仕組みとなっている。
上述した wakamaru の自己位置標定方法には表３－１に示す問題があり、これらに対応す
るために同表に記載の誤検知処理を実装した。
表３－１ wakamaru における自己位置標定の問題点と処理内容
問題点
①
誤検知処理内容
登録した全てのマーカが常に見え
重み最大のパーティクルを選択→登録ランドマークとラベル
るわけではない。
のマッチング度計算→閾値以上のラベル数をカウントしスコ
アとする。マッチング度は 640x480 の天井画像内で、約 16 ピ
クセル以内の距離にランドマークとラベルが存在する場合に
カウントされるように調整した。上記スコアが３以下になる
と自己位置標定結果の信頼性は低いと判定して棄却する。
②
光物（鏡、金属片など）をマーカと
自律移動時のオドメトリ変化量と自己位置標定結果の
誤検知する。
変化量が大きく異なる場合には自己位置標定結果を棄
却し、上記スコアを－２とする。オドメトリ変化に異
常が感じられた場合（例：真横に引きずられた場合等）
にはスコアは－１とする。
③
全方位カメラレンズに付着した埃
首・台車の角度変化時(２度以上)に抽出ラベルから埃
をマーカと誤検知する。
と思われるものを検出し、数回にわたって天井座標の
同じ位置に存在するラベルを埃とみなし、自己位置標
定時のラベルとして使用しない処理とした。
また、wakamaru の自己位置標定では、頭頂部の全方位カメラで取得した画像を使用する
ため、首軸の傾き（ピッチ、ロール、ヨー）が自己位置標定結果に与える影響は極めて大
Ⅲ.2.4.1-15
きい。
このため、図３－１に示す首軸校正方法を考案した。
wakamaru の上部を白い布で覆い、その内側に数本の鉛直に下ろしたスイベルを設置し、
冶具中央に載置した wakamaru の全方位カメラで画像を取得する。
取得した複数のスイベル画像から消失点を求め、これが画像中心と一致するように首軸
の傾きを調整するというものである。
この処理を行った結果の一例を図３－２に示す。
Φ（600mm）
スイベル
太さd：25mm
長さｌ：400～
500mm
h
1500～
1600mm
背景白布
（プラスチック可）
ステージ
（水準調整機構付）
ｽｲﾍﾞﾙ画像
水準器
(1) 首軸原点設定冶具
(2) 全方位カメラによる冶具撮像結果
図３－１
図３－２
首軸原点の調整方法
首軸原点調整後のスイベル画像
首軸原点の校正手法を適用して、自己位置標定の精度評価試験を実施した。試験方法を
図３－３に示す。
Ⅲ.2.4.1-16
本試験では、首軸原点の調整が自己位置標定結果に与える影響を評価するために、本図
に示すように一般家庭の比較的安定した照明条件（蛍光灯照明）である場所（「寝室」）を
測定場所として選定した。
この部屋に充電ステーションを設置し、充電ステーションを基準原点とした XYZ 座標系
を設定した後、4 個のランドマーク（A～D）を所定場所に設置した。
このランドマークに基づき、①～⑨の計 9 点における自己位置標定を実施した。
キッチン
②
廊下
15m
和室
浴室
D
①
測定箇所（9点）
⑥
⑨
⑤
⑧
④
⑦
Global X mm
③
1000 1500 2000 2500 3000 3500 4000
C
B
500
リビング
ランドマーク（4個）
A
-3000
-2500
-2000
-1500
-1000
-500
0
500
CL
1000
ﾄｲﾚ
0
充電ｽﾃｰｼｮﾝ
ｸﾛｰｾﾞｯﾄ
Global Y mm
寝室
①寝室内の実測所定位置にランドマーク設置．
②自己位置測定箇所を実測してマーキング．
③ランドマーク登録による三次元位置精度を評価．
④ランドマーク“理想三次元位置（実測）”と“最悪
三次元位置”で自己位置標定を実施．
客間
玄関
“充電ST”
7.3m
図３－３
自己位置標定精度評価方法
結果の代表例を図３－４、図３－５に示す。
図３－４は首軸原点の校正を精度良く行っていない場合の結果である。
一方、図３－５は首軸原点の校正を今回開発した手法に基づいて実施したものである。
いずれの結果も、①～⑨の測定箇所に wakamaru を設置し、XY 平面における自己位置標定
を測定（5 回平均）しており、茶色の点線で示した格子が歪んでいないほど良好な結果であ
ると考えてよい。
両者を比較すると、姿勢が 0deg～270deg まで変化するのに伴い、校正を精度良く行って
いないものは格子が歪んでいくのに対し、校正を精度良く実施したものは、姿勢の変化に
関わらず、格子形状が安定しており、今回開発した校正手法の有効性が示された。
また、本評価試験による自己位置標定精度は表３－２に示すようになった。
本結果によると、分散値（2σ）は 30mm 以下の水準で非常に安定している。
一方、偏差は最悪値で 155mm という結果になった。
Ⅲ.2.4.1-17
100mm を越える位置標定結果となるのは、表３－３に示すように、測定場所③、⑦、⑧、
⑨である。これは、壁際位置では、全方位カメラの視野制限（水平面から仰角 45deg まで）
と、マーカの反射特性（反射面に対する法線から±45deg）から、画像によるマーカの視認
結果が不良になりスコアが低下する傾向にあることに起因していると考えられる。
マーカが確実に画像によって視認できている場所では、±100mm 以下の偏差を確保できて
いることから、運用に当たっては、壁際の移動経路を避けるなどの工夫が必要であること
が明らかになった。
項目
MAX
min
x mm
29
2
表３－２
自己位置標定精度評価結果
分散2σ
y mm
21
2
θ deg
3.4
0.4
表３－３
x mm
155
-135
偏差
y mm
55
-134
θ deg
1.2
-7.9
自己位置標定精度評価結果（生データ）
Ⅲ.2.4.1-18
1000
1000
500
500
0
0
0
500
1000
1500
2000
2500
3000
3500
0
4000
Global Y mm
Global Y mm
500
1000
1500
-1000
2500
3000
3500
4000
-1000
-1500
-1500
-2000
-2000
-2500
-2500
-3000
-3000
Global X mm
Global X mm
姿勢 0deg
姿勢 90deg
1000
1000
500
500
0
0
0
500
1000
1500
2000
2500
3000
3500
4000
0
-500
500
1000
1500
2000
2500
3000
3500
-500
Global Y mm
Global Y mm
2000
-500
-500
-1000
-1000
-1500
-1500
-2000
-2000
-2500
-2500
-3000
-3000
Global X mm
Global X mm
姿勢 180deg
図３－４
姿勢 270deg
首軸原点の厳密な校正をかけていないときの自己位置標定精度
Ⅲ.2.4.1-19
4000
1000
1000
500
500
0
0
0
500
1000
1500
2000
2500
3000
3500
0
4000
Global Y mm
Global Y mm
500
1000
1500
-1000
2500
3000
3500
3000
3500
4000
-1000
-1500
-1500
-2000
-2000
-2500
-2500
-3000
-3000
Global X mm
Global X mm
姿勢 0deg
姿勢 90deg
1000
1000
500
500
0
0
0
500
1000
1500
2000
2500
3000
3500
0
4000
500
1000
1500
2000
2500
-500
Global Y mm
-500
Global Y mm
2000
-500
-500
-1000
-1000
-1500
-1500
-2000
-2000
-2500
-2500
-3000
Global X mm
-3000
Global X mm
姿勢 180deg
図３－５
姿勢 270deg
首軸原点の厳密な校正をかけたときの自己位置標定精度
Ⅲ.2.4.1-20
4000
Ⅲ.2.4.1-2.3.2 障害物回避の高度化
wakamaruでは、前面装備の外界センサにより、移動可能領域を認識するために障害物に
関するローカル地図を移動中に常時作成、更新しながら、この地図から移動可能領域の重
みを投票方式で決定して、複数の移動経路候補の中から適正経路を選択することで障害物
を回避する方法としている。
以下では、接客ロボットとして運用するために、従来の障害物回避の信頼性を向上させ
るために実施した内容について説明する。
（１）WAS（Wide Angle Sensor）の品質向上と4次多項式による校正手法の開発
前面装備のセンサは図３－６に示す配置構成となっている。
超音波センサ（3 箇所）
段差検知センサ（3 箇所）
WAS センサ（3 箇所）
側方センサ（2 箇所）
図３－６
wakamaruの障害物回避用センサ配置
この中で、wakamaru中央に取り付けたWAS(Wide Angle Sensor)は、1台当たり5個の赤外
線LEDを有し、これを順次発光させていくことで放射状にスキャンできる構造となっている。
wakamaruでは、このセンサを中央胴周上の3箇所に配置し、計15点の赤外線スポット光で床
面上を掃引しており、これらの距離変化から床面上の小物を検知している。今回、このWAS
のレンズ品質を向上させ、スポット光縮小と集光特性の改善を図った。
さらに、本センサでは、従来、三角測量に基づいた反比例式をその校正式として適用
していたが、4次多項式による近似曲線がより高精度にその出力特性をフィッティング
Ⅲ.2.4.1-21
できることを見出した（図３－７）。
100
誤差[mm]
50
0
200
400
600
800
1000
-50
-100
反比例（全）
3次式（全）
4次式（全）
5次式（全）
反比例（全）+2σ
反比例（全）-2σ
3次式（全）+2σ
3次式（全）-2σ
4次式（全）+2σ
4次式（全）-2σ
5次式（全）+2σ
5次式（全）-2σ
設定距離[mm]
図３－７
各校正式による誤差特性の評価結果
本手法は、複数個のセンサ出力から得られた4次多項式の校正式から、基準距離
（600mm）に対する出力電圧（1.2V）からのオフセット値を求めてこれをパラメータと
して、校正対象となる各WASの校正を行う手法である。
図３－８に4次多項式の校正式によるWASの誤差評価結果を示す。
本結果より、測距範囲である200mm～600mmまでの距離に対して、平均誤差±10mm（最
大誤差25mm）に収まることが確認できた。
誤差[mm]
以上の改良により、高さ10cm以上の障害物を安定して検知できるようになった。
250
200
150
100
50
0
-50 200
-100
-150
-200
-250
400
600
4次式
設定距離[mm]
(1)
従来型WAS
Ⅲ.2.4.1-22
800
1000
誤差[mm]
250
200
150
100
50
0
-50 200
-100
-150
-200
-250
400
4次式
(2)
図３－８
600
800
設定距離[mm]
レンズ改良型WAS
4次多項式近似校正式による評価結果
Ⅲ.2.4.1-23
1000
（２）
障害物回避性能の向上
障害物回避の現状の問題点に対し、種々の機能を追加して改良を図った。
図３－８に改良を行った障害物回避のフローチャートを示す。
このフローチャートに示された番号に従い、開発内容を表３－４に説明する。
開始
①
経路選択範囲±50deg
移動可能経路有り？
Yes
に進行
No
経路選択範囲範囲を±
No
3deg 分、拡げる
移動可能方向
④
経路選択範囲±80deg？
バンパに障害
物が接触？
Yes
Yes
②Spin 動作
非常停止し、障害物
移動可能経路有り？
Yes
No
１つ前のノードに戻る
③
目標地点に近い方向に 50cm 一旦回避
目標地点に向って移動をリトライ
終了
図３－８
障害物回避の高度化（フローチャート）
Ⅲ.2.4.1-24
に進入した方向と逆
方向に後退
No
表３－４
開発内容
経路選択
範囲拡大
障害物回避における従来の問題点と改良内容（その1）
問題点
開発内容（左記問題点に対する対策）
① 障害物開始時急旋回発生
①
【説明】
従来、経路選択範囲は、wakamaru
と目的地ノードを結ぶ方向を基準
に、最大±120°としていたが、よ
り小さい方位に走行可能な経路が
存在するにも拘らず、より外側の
経路である 120°方位の重みが小
さいため、これを選択してしまい
急旋回を発生する。
経路選択範囲にフィルタを設置
（図３－８ ①の処理内容）
【説明】
経路選択範囲を初期には±50deg とし、この範囲
での経路探索で走行可能な経路が発見できない場合
には、経路選択範囲を少しずつ拡大＊）するようなフ
ィルタ機能を実装した。
＊）
ロボットの現在の移動方向を基準に、一定幅の経
路選択フィルタ（±50 度）を設けて，この範囲から
経路を選択する。ロボット前方が塞がれた時点で、
wakamaru の速度を落としながら、経路選択フィルタ
の角度範囲を、初期の±50 度から、移動可能な方向
が見つかるまで、（最大±80 度の範囲内に設定）拡
大する範囲を多数分割して一定ステップ（±3°）で
広げて行くようにした。
これにより，滑らかな旋回動作が可能となり，ロ
ボットが目的地に対して異常に離れた回避経路を選
択することを防止できるようになった。
② デッドロックへの対応
②
【説明】
wakamaru の経路選択範囲は目的
地移動方向に対し、最大±80°に
限定されている。
このため、±80°内の全ての方
位が障害物で塞がってしまった場
合には、後方に移動可能な経路が
存在するにも関わらず、デッドロ
ック状態に陥る。
【説明】
障害物で全ての方位が塞がってしまった場合に
は、スピン動作を行い、wakamaru が選択できる経路
範囲を拡大できるようにした。これにより、デッド
ロックの頻度を低減した。
スピン動作による経路範囲の拡大
（図３－８ ②の処理内容）
【試験結果】
本手法を実装して wakamaru がスピン動作により
障害物回避した軌跡の一例を図３－９に示す。
本図では、A 地点において、前方障害物によって
wakamaru の探索可能な移動経路が全て塞がれ、目的
地 G に直進することができなくなる状況となった。
ここで、今回実装したスピン動作アルゴリズムが
有効となり、A 地点で右へ 90°のスピン動作を開始
している。これにより、wakamaru の右手方位に移動
経路を発見し障害物を回避して目的地 G に到達した
（図中オレンジ色の線が wakamaru が実際に移動し
た経路を示す）。
Ⅲ.2.4.1-25
表３－４
開発内容
リトライ
動作改良
狭隘部通
過性向上
（前方開
口判定強
化）
障害物回避における従来の問題点と改良内容（その2）
問題点
開発内容（左記問題点に対する対策）
③ デッドロックの繰り返し発生
③
【説明】
上記①、②を適用しても、移動
可能な経路が発見できない場合は
デッドロックとなりリトライ処理
を行う。
従来のリトライ動作は、１個手
前のノード（移動経路上の目標通
過点）に戻った後、規定経路に沿
って再び同一経路の移動を行うた
め、同じ事象でデッドロックを繰
り返す現象が発生していた。
【説明】
経路選択範囲の拡大や、スピン動作でも、移動可
能な経路が見つからない場合、１つ前のノード点に
戻った時点で、目標地点と wakamaru 自身の相対的な
位置関係を確認し、目標地点に近付く方向へ 50cm
だけ計画経路をシフトさせた後、リトライを行う処
理とした。
④ バンパ接触時処理
（緊急停止し、人が介入）
④
【説明】
バンパに物体が接触した場合、
緊急停止する。この状態では、バ
ンパに障害物が接触したままの状
態であったため、人が wakamaru を
障害物から離してやらなければな
らなければ停止したままの状態と
なっていた。
【説明】
バンパに接触した場合、障害物への進入方向と正
反対の方向へ後進移動を行うことで障害物とバンパ
との接触を切り離し処理を追加し、その後、旋回動
作を行って一手前の目標地点に復帰する動作を行う
処理とした。
⑤ 左右超音波センサによる障害
物誤検知
⑤
【説明】
wakamaru の左右に取り付けた超
音波センサが、狭隘部におけるエ
ッジを検出すると、指向性の低い
超音波センサの特性上、狭隘部中
央が開けているが、wakamaru の移
動方向前方が塞がれた状態とな
り、狭隘部に進入できず、狭隘部
入り口でリトライ動作を繰り返
す。
【説明】
正面の超音波センサがオープン（＝障害物なし）
と検知した場合、左右超音波センサ情報に正面超音
波センサによるオープン情報をローカル地図に上書
きする処理を追加した。
このロジックの追加により、通路幅 70cm の狭隘部
においてデッドロックを発生することなく、安定し
て通過できることを確認した。
移動回避点の設置
（図３－８ ③の処理内容）
バンパ接触時の自律解放処理
（図３－８ ④の処理内容）
正面の超音波センサの上書き処理
（図３－８ ⑤の処理内容）
Ⅲ.2.4.1-26
041124\log\07ソファ\REGIST_AVOID.LOG
750
500
A 地点で、前方障害物により目的地 G
への移動経路が発見できない状況。
スピン動作が機能し、右 90°スピン
により新たな経路を発見した。
オドメトリ軌跡
ラインモード目標点
方向250mm先端
障害物
r_found
250
wakamaru 移動軌跡
Ａ
Nav
Ｇ
Ｓ
Y
0
-250
目的地
移動開始点
-500
Ｂ
-750
地点Ｂを走行中の移動目標点
-1000
-1250
250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
X
図３－９
スピン動作モードによる障害物回避の試験結果
Ⅲ.2.4.1-27
3250
3500
Ⅲ.2.4.1-2.3.3 自律移動機能の信頼性評価試験結果
Ⅲ.2.4.1-2.3.1項、Ⅲ.2.4.1-2.3.2項で開発した自己位置標定技術と障害物回避技術
をwakamaruに実装し、自律移動性能の改善効果を確認した。
試験は、多様な障害物が存在する一般家庭の屋内環境とし、この環境内で、wakamaru
に10mを超える長距離移動（本試験では“充電ステーション”から“こたつ”までの往
復26mの移動）を行わせ、このときに自律移動の破綻が発生しないかどうかによって、
今回新たに改良した技術による信頼性の向上度合いを評価することとした。
試験条件と、これまでの問題点ならびにこれに対する改良点（実施内容）を図３－１
０に示す。また、試験結果を図３－１１に示す。
本結果に示すように、従来の技術では、往復26mの距離を自律移動させた場合、例え
ば、ランドマークを設置していない狭隘部（自己位置標定領域外）に出たときに、自己
位置標定領域内における標定結果の精度不良で経路誤差が発生し、狭隘部に衝突するな
どの不具合を発生し、自律移動成功率は73%程度であった。
これに対し、今回開発した改良技術を実装した場合、運用条件による補完を与えるこ
とによって、ほぼ100%の移動成功率を達成することができ、接客ロボットなどの長期運
用に耐えられる自律移動の信頼性が得られることを確認した。
・試験場所：神船高倉社宅
・廊下通過幅：860mm
・機体
・移動距離：ﾘﾋﾞﾝｸﾞ～寝室往復26m
： W306 （ﾌﾟﾚ量産機）
・床仕様：ﾌﾛｰﾘﾝｸﾞ（ﾊﾞﾘｱﾌﾘｰ）
・ﾘﾋﾞﾝｸﾞ照度：15～700Lx（時間帯で変動）
・ﾄﾞｱ通過幅： 760mm
・廊下，寝室照度：40～120Lx
問題点
実施内容
自己位置標定外
領域進入時に経
路誤差が発生．
自己位置標定の安定化
(画像中心校正法改善)
“充電ST”
“充電ST”
ドア#1
リビング
復路で敷居衝突
ｵﾄﾞﾒﾄﾘ教示誤差低減
(ﾗﾝﾄﾞﾏｰｸ登録・経路教
示への画像ｾﾝｻ適用)
キッチンに進入
してデッドロック
経路探索範囲の拡大
(ｽﾋﾟﾝによる経路探索)
ドア通過が円滑
でない．
前方開口判定強化
(前方超音波ｾﾝｻのｵｰ
ﾊﾞｰﾗｯﾌﾟ処理)
キッチン
敷居
ドア#1
廊下
廊下
ｸﾛｰｾﾞｯﾄ
15m
和室
浴室
ﾄｲﾚ
CL
ドア#2
寝室
ドア#2
客間
“こたつ”
玄関
: 自己位置標定領域
“こたつ”
7.3m
図３－１０
: 自己位置標定外領域
長距離移動による自律移動性能の信頼性評価試験条件
Ⅲ.2.4.1-28
復路の移動成功率向上
（従来）
73%[11回試行8回成功]
100%
移動成功率
80%
60%
（改良技術実装後） 95%[20回試行19回成功]
和室横の敷居でバンパー衝突で停止
40%
20%
【運用条件の補完】
0%
往路
復路
寝室での自己位置標定領域→標定外領域への切
り替え場所を，標定精度の低い壁際を避け，精度の
高い壁から離れた場所で行うよう経路を設定
従来
改良技術実装後
100%[19回試行19回成功]
図３－１１
自律移動性能の信頼性評価試験結果
Ⅲ.2.4.1-29
（ア）
接客ロボットへの適用
上述した自己位置標定、障害物回避に関わるシステムを接客ロボットに実装し，2 台のロ
ボットが来訪者対応と充電を交互に繰り返しながら自動連続運転することが可能となり，
システムの実用性を高めることができた（図３－１２）。
また，自己位置標定精度と結果の信頼性が向上できたことにより、ロボットの絶対的な
方位姿勢を認識することができるようになり，施設案内において，行き先の方位を腕と首
の動作で正確に指し示すことが可能となると共に，ロボットの旋回動作と腕・首の動作（ジ
ェスチャ）に音声発話，およびタッチパネル端末上の地図表示を相互に組み合わせた分か
りやすい施設案内が出来るようになった。
充電ステーション
接客ロボット 1 号機
接客ロボット 2 号機
タッチパネル端末
図３－１２
接客ロボットシステム（協会本部ロビー）
Ⅲ.2.4.1-30
Ⅲ.2.4.1-2.4 ネット機器連動システム
本助成事業で開発する接客ロボットシステムは，ロボットと初めて接する来訪者が使用する場合が多
いと考えられる。このため，提供している接客サービスの内容や，操作方法などを来訪者に分かりやす
く伝える必要がある。そこで，本開発では，ロボット本体(wakamaru)が備えている音声やジェスチャだ
けでなく，画像の提示やタッチ操作が可能なネット機器（タッチパネル端末）とネットワークを経由し
て接続し，wakamaru とネット機器の利点を兼ね備えた操作性の高いシステムを構築した。
また，接客サービスにおいては来訪者の希望にしたがって取次先を検索・特定し，電話を呼び出す必
要がある。取次ぎ時には，来訪者と取次先が双方の顔を確認しながら通話できるのが望ましい。このた
め，上記タッチパネル端末の画面・カメラを次世代携帯電話網に接続し，取次先の TV 電話機能つき携
帯電話を通じて動画像を相互に見ながらの会話ができるようにした。しかしながら，接客ロボットシス
テムの利用環境によっては通常の音声電話のみ使用可能な場合もあるため，TV 電話のみでなく通常の内
線電話または IP 方式の内線電話にも接続できるようにした。
加えて，ロボットがネットワークからイベント情報や天気予報などの情報を取得し，これを来訪者等
に伝達するシステムを開発し，さらなる利便性の向上を図った。
Ⅲ.2.4.1-2.4.1 タッチパネル端末との連動
ロボットとタッチパネル端末の連動システムの構成を図４－１に示す。
タッチパネル端末には，制御 PC のほかにタッチパネルつきディスプレイ，無線 LAN ルータ，TV 電話
装置などが内蔵されている。wakamaru は無線 LAN ルータを通じて制御 PC と通信し，連携して動作する。
タッチパネル端末に表示される画面は，ロボットの発話内容，操作ガイダンス，およびタッチ操作可
能なボタンなどが配置されている。ユーザは，ロボットに話しかけて操作する以外に，タッチパネルに
触れることによっても本システムを操作することが出来るようにした（図４－２）。
本システムの通信シーケンスを図４－３に示す。図中 a は来訪者がタッチパネル端末を操作した場合
である。制御 PC は，タッチパネル操作にしたがって画面の表示内容を切り替えるとともに，wakamaru
にシーン切り替え信号を送信する。wakamaru ではシーン切り替え信号に従って発話とジェスチャを行い，
音声認識エンジンに新たな認識候補をセットする。
一方図中 b に示すように，来訪者が wakamaru に話しかけ，これを音声認識した場合には，音声認識
結果が wakamaru からタッチパネル端末に伝達される。タッチパネル端末では，この音声認識結果に応
じて，画面操作があったときと同様に画面を切り替えるとともに，wakamaru にシーン切り替え信号を伝
達する。wakamaru はこのシーン切り替え信号を受け取って発話やジェスチャなどの動作を行う。
このように，wakamaru と制御 PC が密に連携し，主に制御 PC が対話の流れを制御する仕組みとするこ
とにより，ロボット本体とタッチパネル端末の表示内容が一体となって分かりやすく情報を提示し，初
めての来訪者でも容易に操作が出来るシステムとした。
Ⅲ.2.4.1-31
マウス
マウスポート
VGA OUT
ＫＢ
ＫＢポート
USB
Etherポート
USB
VGA
タッチパネルディスプレイ
協会内LANへ
WAN
LAN1
無線ルータ
USB
USB
ビデオキャプチャ
Video IN
wakamaru-1
制御PC
wakamaru-2
カメラ
VIDEO OUT
TV電話装置
電話機
Phone
モデムカード
ME561PCI2
Video IN
Line
内線電話へ
FOMA
カード
マットSW
端子台
Digital I/Oカード
PIO-16/16b
Microphone
Headphone
I-00
マイク
スピーカ
」
図４－１接客ロボットシステムの構成
Ⅲ.2.4.1-32
a. サービス選択画面（トップメニュー）
b. 取り次ぎ先選択画面
Ⅲ.2.4.1-33
c. 行き先案内画面
図４－２操作画面例
Ⅲ.2.4.1-34
制御 PC
wakamaru
画面操作
シーン切替指令
画面切り替え
指令受付返答
ジェスチャ，発話，
認識候補切替
a. 画面操作時
制御 PC
wakamaru
認識結果通知
音声認識
シーン切替指令
画面切り替え
指令受付返答
ジェスチャ，発話，
認識候補切替
b. 音声認識時
図４－３ wakamaru－制御 PC の通信シーケンス
Ⅲ.2.4.1-35
Ⅲ.2.4.1-2.4.2 電話取次ぎシステム
図４－１に示すように，タッチパネル端末内には，テレビ電話用としてはテレビ電話装置とテレビカ
メラ，マイク，スピーカを内蔵した。テレビ電話装置は，テレビカメラから入力した映像を圧縮し，次
世代携帯電話網に直接無線接続して携帯電話と動画つきの通話ができるものである。ロボットシステム
が選択した取次先への呼び出しを行うため，制御 PC とテレビ電話装置は，シリアルポート（RS-232C）
を経由して接続し，発信制御や通話状態の把握などの通信を行うようにした。テレビ電話装置が携帯電
話から受信した画像は，画像キャプチャ装置を介して制御 PC に取り込み，タッチパネル端末の操作画
面内にはめ込み表示をするようにした。テレビ電話での通話中の画面例を図４－４に示す。
内線電話用としては，モデムカードと通話用ハンドセット（受話器）をタッチパネル端末に内蔵した。
内線電話の場合には，モデムカードを使用してダイヤル操作を行い，通話はハンドセットを使用して行
う。内線電話を使用した場合の画面例を図４－５に示す。
図４－４テレビ電話での通話中画面例
Ⅲ.2.4.1-36
図４－５内線電話使用時の画面例
Ⅲ.2.4.1-2.4.3 イベント情報等の通知
取次ぎや行き先案内などを必要としない来訪者に対しても，博覧会関連のニュースや天気予報など，
最新の（日々更新される）情報をロボットが提供することは，ロボットがネットワークに接続して初め
て可能となる機能である。
本接客ロボットシステムでは，インターネットでもっとも広く使用されており，ルータ等のネットワ
ーク機器を越えて外部へアクセス可能なプロトコルである HTTP プロトコルを使用してニュース・天気
予報の最新情報を取得するようにした。
wakamaru が最新の情報を取得する際の通信シーケンスを図４－６に示す。wakamaru は HTTP の POST
コマンドを用いて，取得したいデータの種類や認証情報（ロボットごとに固有に設定した ID とパスワ
ード）を送信し，この返答としてニュースや天気予報の情報を受け取る。
このような仕組みとしたことにより，遠隔地に配置したサーバから常に最新の情報を入手して来訪者
に案内を行うことができるようになった。
Ⅲ.2.4.1-37
Web サーバ
wakamaru
データ要求（HTTP POST）
データ応答（HTTP OK）
要求内容に応じて
データベース検索
情報の発話，ジェスチャ
図４－６イベント情報等取得のシーケンス
Ⅲ.2.4.1-2.4.4 賓客向けデモ機能の作成
本ロボットシステムは，博覧会協会本部がおかれる「西管理棟」のエントランスに設置されるもので
ある。このエントランスは，国内外からの賓客が頻繁に訪れる場所となっているため，助成事業の成果
である本ロボットシステムを賓客に簡潔・短時間で説明できるような準備が求められている。
このため，システムでは状況判断動作システムで開発した顔認識機能を使用し，賓客ごとにあらかじ
め設定した挨拶を 4 ヶ国語のいずれかで行うことが出来るようなシステム開発を行なった。また，賓客
の来訪時と，通常運用時を迅速に切り替えることが必要とされるため，制御ＰＣが面において設定変更
を行うと，即時に賓客向け動作と通常動作が切り替えられるよう開発を行なった。
（本項については、当初計画では実施予定ではなかったが、万博協会事務局担当部門と協議し、上記
対応が可能となるようにシステム開発した）
Ⅲ.2.4.1-38
Ⅲ.2.4.1-2.5 追加研究の成果
前項までに述べた各種技術開発成果は，平成 17 年 3 月 25 日から 9 月 25 日まで行われた愛・地球博
において技術実証運用を行い，その効果・実用性を確かめるとともに，課題の抽出を行った。本助成研
究ではここで抽出された課題を元に，ネット機器連動システムの改良，および音声認識性能の改善に取
り組んだ。
まず，ネット機器連動システムは信頼性・機能ともに当初期待した効果が得られることが確かめられ
た一方，さらに実用性を高め今後本種ロボットを普及させていくためには，道案内の地図，案内動作な
ど導入先ごとに異なるコンテンツの制作に際して高度な知識を必要とせず，低コストでカスタマイズ可
能なものとする必要性があると考えられた。また，接続する端末は１台のロボットに対して 1 台のみと
せず，複数の外部端末を同時にロボットに接続する機能も求められるものと考えられた。
一方音声認識については，特に反響が多いエントランスホールのような環境では，ロボットに搭載し
たマイク（人の口元から離れたところにあるマイク）では認識性能が低下する傾向がみられ，本現象を
定量的に把握し，改良につなげていく研究の必要性が感じられた。またロボットに対しては幅広い年齢
の人が興味を持つ中で，とくに子供をロボットと触れ合わさせるようなニーズも多い。これに対して，
実証運用に用いた音声認識エンジンでは，子供（小学生以下）に対しては認識率が低下する傾向が見ら
れ，これに対しても対策を行い効果を確かめる必要性があった。
Ⅲ.2.4.1-2.5.1 ネット機器連動システムの改良
Ⅲ.2.4.1-2.5.1.1 概要
接客ロボットシステム(以下、旧システム)では、PC 側のアプリケーションがロボットを管理し、動作や
音声認識/発話などの指令を都度行う必要があった。またロボット側にも PC からの指令を受け取り実行
する専用のアプリケーションが必要であった。そのため、シナリオや指令の追加・修正をするには PC
側およびロボット側のアプリケーションの修正、通信仕様の拡張などが必要となり容易でない。
そこで旧システムのタッチパネル端末との連動機能にのみ焦点をしぼり、アプリケーションの開発容易
化、多端末接続を目的として、新タッチパネル連動システム(以下、新システム)を開発した。
Ⅲ.2.4.1-2.5.1.2 構成
新システムのシステム構成を図５－１に示す。新システムと旧システムでは構成する機器に違いはない
が、ソフトウェア構成(表５－１)が大きく異なる。新システムではタッチパネルデバイスクラス(Java)
とそれと通信するタッチパネルアプレット(Java アプレット)を新規に作成した。タッチパネルアプレッ
トは複数接続可能にした。（複数接続の場合、表示は全て同じで、ボタン操作は早い者勝ちである）こ
れによりタッチパネルを音声モジュールなどと同じようなロボットが持つモジュールとみなすことが
でき、ロボットがタッチパネルを制御できる。
なおアプレットは、セキュリティ上ダウンロードしたホストとしか通信できないため、ロボット側に
HTTP サーバを用意し、格納しておくこととした。
このためロボット側は既存のアプリケーションの再利用が可能になり、タッチパネルデバイスクラスを
使用するところだけ追加すれば良い。シナリオの修正もロボット側のアプリケーションのみを修正すれ
ば良い。
Ⅲ.2.4.1-39
また PC 側は旧システムでは、画面のデザイン、表示情報がアプリケーション内に含まれていたが、新
システムでは Web ブラウザ(図５－２)を使用することにより情報の取得・表示をブラウザの機能で行う
ことができ、表示情報をアプリケーションから独立できる。表示情報の種類もブラウザが対応していれ
ば何でも良いので既存の Web リソースを再利用することができる。
インターネット
無線ルータ
ＷＡＮ
ＬＡＮ
ロボット
ＵＳＢ
ＶＧＡ
ＰＣ－１
タッチパネルディスプレイ－１
ＵＳＢ
ＶＧＡ
ＰＣ－２
図５－１
表５－１
PC 側
ロボット側
タッチパネルディスプレイ－２
新タッチパネル連動システム構成
新旧システムソフトウェア構成
旧システム
新システム
制御アプリケーション
Web ブラウザ
HTTP サーバ
タッチパネルアプレット
専用アプリケーション
従来方式のアプリケーション
タッチパネルデバイスクラス
HTTP サーバ
Ⅲ.2.4.1-40
Ｗｅｂ表示用
フレーム
アプレット表示用
フレーム
図５－２
タッチパネル画面構成
Ⅲ.2.4.1-41
Ⅲ.2.4.1-2.5.1.3 機能
ロボットからタッチパネルデバイスクラス(以下、デバイスクラス)を使用して制御できるタッチパネル
アプレット(以下、アプレット)の機能は以下のとおりである。
①Web 表示機能
Web 表示用フレームに指定した URL を表示する。
インターネット上の Web も参照できる。
②ガイダンス表示機能
アプレット表示用フレームの上部に指定したガイダンスを表示する。
ガイダンスはテキストのみで、中央揃えで表示する。
③ボタン表示機能
アプレット表示用フレームの中央に指定したようにボタンを表示する。
ボタンの数、テキストや画像、表示位置、タイムアウトなどの指定が可能。
ボタンが押されたら、押されたボタンの番号をロボット側アプリに返す。
これらの機能は相互に組み合わせ，ロボット動作と画面上の web／ガイダンス／ボタンを連動したアプ
リケーションを構築することができる。ロボットとＰＣの通信シーケンスの例を図５－３に示す。
Ⅲ.2.4.1-42
PC 側
ロボット側
アプリ
HTTP サーバ
Web ブラウザ
要求
アプレットダウンロード
起動
アプレット
接続
Web 表示指令
Web 表示
指令受付返答
ガイダンス表示指令
ガイダンス表示
指令受付返答
ボタン表示指令
ボタン表示
指令受付返答
図５－３
ボタン操作
ロボットとＰＣの通信シーケンス
Ⅲ.2.4.1-43
Ⅲ.2.4.1-2.5.1.4 サンプルアプリケーションの作成・検証
以上述べた新しいネット機器連動システムを使用して，サンプルアプリケーションを作成し，その適用
範囲の広さ，およびアプリケーション製作の容易性を確かめた。各アプリケーションの作成に先立ち，
シナリオ遷移条件を３通り(音声入力待ち／タッチパネル入力待ち／音声またはタッチパネル入力待
ち)にパターン化し，アプリケーションのテンプレートを作成した。次いで，上記テンプレートを使用
して，モデルルームや自動車ショールームを想定した商品説明アプリケーション，子供向けの紙芝居ア
プリケーションを作成した。(図５－４)
図５－４
サンプルアプリケーション
Ⅲ.2.4.1-44
画面例
Ⅲ.2.4.1-2.5.1.5 新旧システムの比較
愛・地球博での技術実証運用に供したシステムの方式（旧システム）と追加研究で試作したシステム（新
システム）の機能比較を表５－２に示す。
新システムでは全般にアプリケーションの作成が格段に容易なものとなり，信頼性の確認試験等の工程
も非常に大きく低減できる方式となっており，応用先により細かなカスタマイズが必要であろうと想定
される実用フィールドへの適用性が高まっている。
表５－２
PC 側必要環境
新旧システムの比較
旧システム
新システム
改良メリット
制御アプリケーション
Web ブラウザ
特別なソフトを PC にイ
HTTP サーバ
Java ランタイム
ンストールする必要がな
い。OS も Windows に限
らない
ロボット側環境
専用アプリケーション
従来型アプリケーシ
ョン
HTTP サーバ
開発スキル
制御アプリケーション／
従来型アプリケーシ
既存のアプリケーション
専用アプリケーション両
ョン／表示情報と独
の再利用ができる
方のスキルが必要
立している
開発の分担、修正が容易
自由度は高いが全て作り
ブラウザの機能を使
既存の Web リソースを再
表現力
こむ
用して表示
利用できる
通信
独自にプロトコルを定義
Java 同士なのでデー
通信仕様の拡張があって
タ保持クラスをシリ
も文字コードやエンディ
アライズして送信
アンを気にせず簡単に追
加可能
Ⅲ.2.4.1-45
Ⅲ.2.4.1-2.5.2 音声認識性能の改善
Ⅲ.2.4.1-2.5.2.1 残響の影響の分析
音声認識を口元から離れたマイクで行う場合には，音声認識の性能は環境の影響を強く受ける。環境
の影響としては周囲の雑音（不要な話し声や音楽，足音など）のほか，建物の構造や広さに起因する残
響の影響が考えられる。
このうち，周囲の雑音についてはマイクアレイの導入などで対策技術の開発が進みつつあるが，反響
については音声認識に対する影響の度合いが明確になっていない。今後ロボットを各種の空間で運用し
ていくためには反響の大きさと，これが音声認識の性能に及ぼす影響を把握しておく必要がある。
試験は，居住空間として設計された部屋を中心に，複数の部屋において残響時間を計測し，あわせ
て該当の部屋で条件を定めて音声認識率を測定して行った。
音声認識率を測定するための対象語彙は「はい・いいえ」の 2 語を認識する，比較的容易なパターン
から，日付や時刻を認識する比較的難易度の高いパターンまでを用意し，それぞれのパターンが受ける
影響を同時に把握するようにした。
使用した語彙のパターンを表５－３に示す。なお，認識対象とする音声は，大人の男女 1 名ずつ，各
認識対象単語ごとに 10 回ずつ発話したテープを作成し，これを同一の音量で再生することとした。ス
ピーカーとマイクの距離は１ｍとした。
音声認識の認識率を各部屋ごとに計測した結果を図５－５に示す。
概ね，残響時間が増加するにつれて音声認識率が低下している傾向が見られる。また，認識率の低下
は，認識辞書が小さい（認識対象語彙が少ない）容易なパターンにくらべ，認識辞書が多きい，難易度
の高いパターンに顕著に見られる。
データ中，「部屋１中央」と示した試験条件は，残響時間は「部屋 1 端」と同等であるが，認識率が
低くなっている。この試験を行った場所は，実際にロボットを運用しているユーザの官能的な評価とし
て，認識率が低く感じられる場所である。このように，残響時間では差が見られないにもかかわらず，
認識率が低下するような場所（部屋の音響特性）が見られることから，認識率と環境の音響特性の関連
をより深く理解するためには，残響時間以外の音響的因子を見付け出す必要性があると考えられる。
Ⅲ.2.4.1-46
表５－３音声認識対象語彙と認識辞書
発話音声
1
辞書（すべて，下記以外に棄却用ガーベージを含む）
はい
1 はい，いいえ
2
いいえ
3
わかまる
わかまる，留守番，声をかけて，伝えて，聞かせて，
2
4
調べて
調べて，教えて，予定登録，充電，ちょっと来て，お
休み，お客様，顔登録，天気予報，静かに，大きな
声で，小さな声で
5
じゅうでんすてーしょん，ソファー，テーブル，ふろ，
充電ステーション
トイレ，げんかん，ベッド，ドレッサー，センメン，テレ
3
6
ベッド
ビ，れいぞうこ，せんたくき，デンワ，マド，ベランダ，
とこのま，ピアノ，クローゼット，デスク，おかって，カ
イダン，くつろぎ，おしゃべり，だんらん，コタツ，テラ
ス
7
しちじさんじゅっぷん
4 時刻認識用ネットワーク辞書
8
ろくがつはつか
5 日付認識用ネットワーク辞書
500
450
400
認識率(100%×5)
350
300
日付(365)
時刻(288)
場所名(27)
指示(17)
はい・いいえ(2)
250
200
150
100
50
0
部屋１中央(0.33)
部屋1端(0.35)
部屋3(0.62)
部屋4(0.64)
部屋5(0.67)
残響時間
図５－５残響時間と認識率
Ⅲ.2.4.1-47
部屋6(1.23)
Ⅲ.2.4.1-2.5.2.2 子供対応音響モデルの導入と効果の確認
音声認識は，さまざまな人の声を録音したデータをもとに作成した音素（単純化すれば「あ」
「い」
「う」
などの音）のデータ群，すなわち音響モデルを入力された音声と対応付けることで行われる。このため，
音響モデルとかけ離れた入力音声を認識することはできない。特に子供の場合，顎の発達具合などが大
人と異なるため，音素のデータにも大きな違いが生じ，大人の音声のみから作成した音響モデルで音声
認識することは一般に難しい。これを解決するために子供用の音響モデルが作成されている。本追加研
究では，子供用の音響モデルを使用し，実際にロボットでの使用を想定した口元から離れたマイクの条
件で音声認識率の向上の度合いを確かめた。
音声認識の対象語彙は表５－３に示したとおりである。
認識率を図５－６に示す。子供用音響モデルの導入により，日付のように従来まったく認識できなか
った場合でも，頻度は低いものの認識が可能になっている場合がある。一方，おとなの音声に対しては
わずかに認識率が低下するパターンもある。このため，子供対応の音響モデルは，子供がロボットの音
声認識を使用する可能性があるかどうかに応じて採用を決定すべきであると考えられる。
認識率（100%×5）
500
450
400
350
300
日付(365)
時刻(288)
場所名(27)
指示(17)
はい・いいえ(2)
250
200
150
100
50
0
子供＋大人
大人のみ
子供＋大人
子供
大人のみ
大人
図５－６子供対応音響モデルの導入
Ⅲ.2.4.1-48
音響モデル
テスト音声
Ⅲ.2.4.1-3 成果の意義
４ヶ国語で，音声認識，発話，画面表示が可能な，ロボットシステムを開発できたことは，これまでに類を見な
い成果でありロボットの可能性を広げる意味で大きな意義がある。また，様々な光線状況下で顔を認識し，自然
なコミュニケーションが可能なロボットを実現したことは，ロボットの価値を高めた意味で大きな意義がある。
一方，ロボットが移動して案内を行い，かつ自動的に充電することで容易な運用が可能となったことは，ロボッ
トの適用範囲を広げ，運用コストを低減できる点で大きな意義がある。ロボットが単体で動作するのみならず，外
部の PC,タッチパネル，電話機器などと連動して高度な機能を提供できるようになったことは，ロボットの活用範
囲を広げる意味で大きな意義がある。またこの外部端末とロボットの連動システムは改良により，カスタマイズ時
のコストを大幅低減し，かつ信頼性を高める技術が実現できた。これは，ロボットの用途を広げる点で大きな意義
がある。
子供の音声に対応し，環境に対して音声認識のロバスト性を高めたことは，ロボットに対する顧客満足度を高
める意味で大きな意義がある。
総合的に，本テーマで開発したロボットは世界に類を見ない接客機能と，実用性を兼ね備えており，愛知万
博での運用で高い評価が得られたことから，予算および開発期間の制約の中で最大限の意義のある成果が得
られたものと考える。
Ⅲ.2.4.1-4 特許の取得
ロボット分野においては，各種の技術課題に対して様々な解決手段が模索されている段階である。またソフト
ウェア的な成果は著作権によって主に保護されるべき知的財産も多い。本テーマ内で開発した技術は，想定さ
れる代替手段の可能性や，知的財産の性質から特許の取得になじまないため，特許の出願は行なわなかった。
Ⅲ.2.4.1-5 成果の普及
愛知万博での運用（2005.3.25-2005.9.25）の様子を図６に示す。
図６愛知万博での運用の様子
Ⅲ.2.4.1-49
本テーマの成果は，愛知万博での半年に渡る運用，およびデモンストレーションにより，様々なメディアや一般
消費者に広く普及を図った。
愛知万博終了後に調査した，各種ロボットの認知度，認知時期・認知経路を図７に示す。
認知度
認知時期
80
70
60
50
開催前から知っ
ていた
40
30
20
10
開催中に知った
ィX
リ
テ
ュ
キ
セ
ン
イ
型
・留
恐
竜
大
テ
リ
守
型
・人
型
犬
ア
R
番
B
A
A
型
型
Q
・人
型
小
wa
ka
m
ar
u
0
認知経路
万博会場で見た
万博に関するＴＶ報道で見た
万博に関する新聞記事で見た
万博に関する雑誌記事で見た
万博に関するＴＶ・新聞・雑誌
以外の報道で見た
万博に関係ない紹介物
2005年10月
東京23区内にて
調査
図７認知度調査結果
本調査から，接客ロボットにつけられた愛称「wakamaru」についての認知度が，約 45%と非常に高いものとなって
おり，その認知経路も 94%が万博に関するものであることから，効果的に成果の普及が行われたと考えられる。
Ⅲ.2.4.1-50
2.4.2 ４カ国語を操る人間に酷似したアンドロイド受付の開発
【株式会社ココロ、株式会社アドバンスト･メディア】
（１）目標の達成度
基本計画
研究項目
目的
目標
成果
達成度
研究課題
接客能力
評
価
人間に酷似し
自然で違和感
人間との対話において自
人間の案内相当の大き
対話者が十分満足し
たしなやかな
の無い接客の
然なやり取りができる外見
さで、人間に酷似した動
て会話ができ、目標を
動きを実現す
実現し、歓迎の
に納まり、しなやかな人間
作を実現し、実証試験
達成した。
る超多自由
意を表現を実
らしい動作を実現する機
において検証・実運用
度アンドロイ
現。および成人
構の実現
に供した
ドの開発
との会話に適し
○
た身長
接客能力
柔らかい皮
自然で違和感
人間との対話において自
シリコン製の柔らかい外
記念撮影をしていくな
膚と人間に酷
の無い接客の
然なやり取りができる外見
皮で顔、手を製作。対話
ど対話者が十分満足
似した外見の
実現
表情の実現
において違和感なく表
して会話ができ、目標
情、動作を実現
を達成した。
開発
接客能力
接客に必用
自然で違和感
人間との対話において自
来訪者の顔発見・追従
違和感の無い対話を
なインタラク
の無い接客の
然なやり取りができる動作
システム、リップシンクシ
実現し、自然と目を合
ティブに反応
実現
で、会話の進行に応じた
ステム。動作モジュール
わせる対応を来訪者
する動作生
の適切な動作モジュール
の切れ目の不連続性を
が行っていた。目標を
成方法の開
の自然な合成を実現
自動補完するシステム
達成。。
発
接客能力
○
○
の開発実装し運用した
訪問者･来客
博覧会会場へ
連続音声認識した文字列
質問応答技術としてキ
ロボットとの対話実験
者の質問に
の来場者や訪
情報からキーワードを抽
ーワード・アクションテー
の結果、対話が成立
対する応答
問者に対し、挨
出し、キーワード群とアク
ブルを用いたフレーム
し、来訪者の質問に
技術
拶、会話等を行
ション（ロボットの発話内
駆動型対話制御方式の
答え解決に導かれた
う機能の内、音
容と動作インデックス）の
技術を開発した。キーワ
確率は 70%であったた
声対話の技術
対応テーブル（フレーム）
ードテーブル(キーワー
め、目標を達成した。
を開発すること
を作成する。キーワードを
ド、現在の話題、イベン
対応するスロットに埋め、
ト、現在話している言
フレーム駆動型対話制御
語、設置場所)、アクショ
方式*により、応答文を選
ンテーブル(応答フレー
択し、音声合成により発話
ズ、動作番号、次話題、
する技術を開発する。
認識辞書)
Ⅲ.2.4.2-1
○
接客能力
訪問者・来客
博覧会会場へ
フレーム駆動型対話制御
ユーザーの再発話を促
意図確認技術により、
者の発話意
の来場者や訪
方式により、応答文が生
すような、自然な内容の
聞き返し後に対話が
図確認技術
問者に対し、挨
成できないとき、足りない
発話を、現在の状態を
成立した確率は 89.6%
拶、会話等を行
スロットを埋めるための質
保持するスロットと過去
であったため、目標を
う機能の内、音
問を自然な発話で行な技
の発話履歴から、作成
達成した。
声対話の技術
術を開発する。また、音声
する技術を開発した。
を開発すること
認識の信頼度が低い場
○
合、認識した語でよいか
聞き返すことも行う。
多言語認
訪問者・来客
多言語能力、
愛知万博のドメインで接
愛知万博のドメインで接
左記条件の自然発話
識・案内能
者の自然発
特に来客数の
客・案内のタスクに絞った
客・案内のタスクに絞っ
の認識実験で認識精
力
話の音声認
多い日本語に
想定発話のテキストコー
た言語モデル・音響モデ
度が 81.4%であったた
識技術
おいて来客者
パスを収集し、訪問者・来
ルを構築し、自然発話
め、目標を達成した。
の自然発話の
客者用日本語自然発話言
の不特定連続音声認識
音声を認識す
語モデル・音響モデルを
技術を開発した。
る機能を開発
開発し、音声認識精度の
すること
向上を図る。
多言語認
雑音環境下
博覧会場の雑
単一指向性マイクを発話
S/N の高いマイクの設
開発した技術により、
識・案内能
での音声認
音の中で来客
者に向けることにより、周
置方法を発見した。
万博会場の雑音環境
力
識技術
者の音声を認
囲雑音の除去を行なっ
エコーキャンセラ・ノイズ
下での日本語音声認
識する技術を
て、雑音による影響を抑
キャンセラ機能による雑
識精度が 41.6% から
開発すること
制する。さらに雑音低減技
音低減及び・エコー除去
72.4% に改善したた
術の導入により音声強調
の効果を確認した。
め、目標を達成した。
を行う。また、音声のパワ
雑音が重畳した実環境
ー情報だけでなく、ピッチ
音声の学習に夜による
情報や周波数情報を用い
音響モデルを開発し、効
た発話区間検出技術をを
果があることを確認し
雑音環境下に合わせてチ
た。
ューニングを行い、雑音に
雑音環境下における音
よる誤認識(誤検出)を抑
声区間検出技術を開発
制する。さらに、実環境に
した。
近い雑音が重畳した音声
データにより音響モデル
のアダプテーションを行な
い、音声認識精度の向上
を図る。ロボット自身が発
話する音声を除去するよ
うなエコー除去技術の研
究開発も行なう。
Ⅲ.2.4.2-2
○
◎
多言語認
他国語（韓中
博覧会場で、多
日本語テキストコーパスを
他国語（韓中英）の音声
[音声認識精度]
識・案内能
英）の音声認
言語（日、韓、
他国語（韓中英）に翻訳
認識エンジンを開発し
英語：65.7%
力
識技術
中、英）を認識
し、3 ヶ国語の言語モデ
た。
中国語：62.1%
し、受付の取次
ル･辞書を作成して、今回
特定キーワードフレーズ
韓国語：68.9%
程度の会話を
のドメイン･タスクに特化し
による言語自動識別技
中国語以外は 65%以
行う技術を開発
た音声認識技術を開発す
術を開発した。
上なので、目標を達
すること
る。また、3 ヶ国のネイティ
成した。
ブによる音声データを収
[言語識別精度]
集し、各国の音響モデル
英語：86.6%
を開発する。さらに、4 ヶ国
中国語：92.0%
音響モデルを用いた言語
韓国語：95.8%
自動識別技術も開発す
いずれも 85%以上なの
る。
で、目標を達成した。
多言語認
4 カ国語（日
会場情報や各
多言語化（日，英，中，韓）
日本語はコーパスベー
人間の録音音声をベ
識・案内能
韓中英）の音
種イベント情報
のためのコーパスを作成
ス音声合成エンジン
ースとした音声合成エ
力
声合成技術
等を多言語
し、コーパスがヒットしない
WizardVocie を使用し、
ンジンを開発すること
（日、韓、中、
場合(目的に合わない発
テキスト情報より、形態
で自然で違和感のな
英）で来場者に
話)は、信号処理による手
素解析、韻律予測、単
い発話音声を実現し
案内する技術
段を自動的に選択する多
位選択、波形接続を行
たため、目標を達成し
を開発するこ
言語対応のコーパス型音
って音声合成を行う方
た。
と。
声合成を開発。人間そっく
式で自然な音声合成を
りなロボットとして違和感
実現した。英語・韓国
のない発話音声出力をめ
語・中国語は独自の録
ざす。
音再生エンジンを使用
○
○
し、固定フレーズ ID にて
ヒットさせ、該当する音
声の再生を行う技術を
開発した。
多言語認
実運用時に
博覧会場の雑
ロボットへのお客さんの発
性別･世代識別技術の
万博開幕時の日本語
識・案内能
収集した音声
音の中でも、多
話は読み上げではなく自
開発(認識手法の改
の音声認識性能を１
力
データ分析に
言語（日、韓、
然発話の話し言葉である
良)、話し言葉言語モデ
としたときの 7 月時点
よる音声認識
中、英）を認識
ため、その音声を分析して
ルの強化、音響モデル
での誤認識の比率
精度向上技
すること。さらに
音響モデル・言語モデル・
適応技術の開発、マル
日本語：0.46
術の開発
認識精度の向
雑音抑圧手法・認識手法
チチャンネルによる雑音
英語
上を図る。
を改良することにより、認
除去技術の開発を行っ
中国語：0.63
識精度の向上を図る。
て、音声認識精度の向
韓国語：0.52
上を図った。
：0.57
いずれも誤認識比率
は改善しているため、
目標を達成した。
Ⅲ.2.4.2-3
◎
安全性
根本安全設
来場者の安全
十分な安全設計・対策を
ロボット本体の安全設
怪我、トラブルなど無
計および追
確保
行い、最後に残った残存リ
計を行い実現。筐体に
く実証試験を実施する
加予防システ
スクをリスクアセスメントと
より残存リスク発生の方
ことができた。
ムの搭載、お
して公表しユーザーに受
向を絞り、センサーによ
よび最終的な
け入れていただく、
る動作休止機能追加。
安全運用設
アテンダントを常駐させ
計
人による危険回避を実
○
施。
耐久性、
簡易な移動
運用性能の向
筐体および設備を簡易な
会期中、運用状態に応
移動した場合でも、同
信頼性
機能を有する
上
移動可能なものとする。
じて実施場所を屋内か
様の実運用が可能で
ら屋外に移動する検証
あった
○
を行う
耐久性、
実証機関中
耐久性・安定性
信頼性
簡単な補修
の実現
六ヶ月間の連続運用
により稼動
6 ヶ月間、休まず運用を
運用停止になることな
実現。会期中数度メンテ
く実現できた
○
ナンスを実施
付加的機
ロボット搭載
付加的機能の
ロボットの帽子に小型カメ
左記内容で、実機に搭
左記を実現・運用でき
能
のカメラによ
実現
ラを搭載。実証試験状況
載、設備配備し、各ワー
た
る遠隔地情
用カメラも設備として用
キングポイントの状況を
報伝送
意。ロボットステーションに
ロボットステーションの
映像を伝送
モニタに送信。
○
※来客者のアンケート結果では 84%の人が満足をしたという回答であり、全体目標は達成したと考えます。
Ⅲ.2.4.2-4
（２）成果の意義
研究項目
成果の意義
超多自由度のアンド
人間の解剖学的な見地からアンドロイドの軸配置を再考し、なめらかな動作を実現で
ロイドの開発
きる空気圧シリンダーのフィードバック技術を搭載し開発。長期的な安定動作含めそ
の実用性を確認できた。またアンドロイドというロボットの分野を提示することができた。
人間に酷似した外見
柔らかな外皮を持ち、かつ人と親和性のある表情、表現を実現。嫌悪感をいだかれる
の実現
ことなく対話を実現できたことは、この外見によるところが大きい。
インタラクティブに反
人間らしい自然な動作を超多自由度のロボットで、インタラクティブに実現。その制御
応できる動作システ
技術を提示できたこと
ムの開発
訪問者･来客者の質
質問応答技術としてキーワード・アクションテーブルを用いたフレーム駆動型対話制御
問に対する応答技術
方式の技術を開発した。対話制御の方式としては特別ではないが、対話シナリオやテ
ーブルに登録するデータ（コンテンツ）を工夫することにより、ロボット実機でのタスク達
成率が 70%以上を実現できたことは、音声対話のタスク達成率としては意義がある。
訪問者・来客者の発
音声対話においては誤認識やユーザーの言葉不足のため、ユーザーの発話意図が
話意図確認技術
わからずに対話が進まないことがこれまでの問題であった。
ユーザーとの対話を進めるためにはユーザーの再発話を促すような、自然な内容の
発話を、現在の状態を保持するスロットと過去の発話履歴から、作成する技術を開発
した。本技術により、聞き返し後に対話が成立した確率は 89.6%の高確率であったた
め、本技術成果には意義がある。
訪問者・来客者の自
愛知万博のドメインで接客・案内のタスクに絞った言語モデル・音響モデルを開発する
然発話の音声認識
ことにより、自然発話の連続音声認識精度が 81.4%であったことは意義がある。
技術
雑音環境下での音声
S/N の高いマイクの設置方法の工夫や、雑音抑圧技術、雑音が重畳した実環境音声
認識技術
で学習した音響モデルや、雑音環境下における音声区間検出技術により、万博会
場の雑音環境下での日本語音声認識精度が 41.6%から 72.4%に改善したことは改善率
の大きさに意義がある。
他国語（韓中英）の
他国語（韓中英）の音声認識エンジンを開発し、特定キーワードフレーズによる言語自
音声認識技術
動識別技術を開発した。他国語のユーザーが少なかったため、実音声が万博実施期
間中に多く取れなかったことにより、音声認識精度をそれほど高く出来なかったことは
残念であるが、言語識別機能を実現して、4 ヶ国語の不特定話者連続音声認識をリア
ルタイム処理で実現したことは意義がある。
4 カ国語（日韓中英）
日本語はコーパスベース音声合成エンジン WizardVocie を使用し、テキスト情報より、
の音声合成技術
形態素解析、韻律予測、単位選択、波形接続を行って音声合成を行う方式で自然な
音声合成を実現した。英語・韓国語・中国語は独自の録音再生エンジンを使用し、固
定フレーズ ID にてヒットさせ、該当する音声の再生を行う技術を開発した。人間そっく
りなロボットの発話として録音音声に近い品質の音声合成を実現したことに意義があ
る。
Ⅲ.2.4.2-5
実運用時に収集した
性別･世代識別技術の開発、話し言葉言語モデルの強化、音響モデル適応技術の開
音声データ分析によ
発、マルチチャンネルによる雑音除去技術の開発を行って、音声認識精度の向上を
る音声認識精度向上
図った。実環境の音声データを大量に入手するチャンスは少ないが、今回のような万
技術の開発
博での実運用から得られたデータは非常に貴重なものである。音声認識精度が向上
できたことに加え、データを収集できたことも大きな意義と価値がある。
Ⅲ.2.4.2-6
ロボット本体の開発
（１）研究概要
【接客能力・案内能力】
開発テーマ A-1：人間に酷似した「しなやかな動き」を実現する運動メカニズムの開発（㈱ココロ）
人間に感じるような存在感をアンドロイドに持たせるために、人間に酷似した「しなやかな動き」は必要不可欠で
ある。このしなやかな動きを実現するために、ロボットは十分な数のアクチュエータで構成されなければならない。
また強い外力が加わったときに、力に耐え切れずに外力の方向に動くような受動的な動きの自然さも重要である。
接客などの役務を行う場合は、人との接触もありうることから、この受動性は安全性にもつながるものである。
これを実現する最適なアクチュエータは空気圧を動力源とするエアーアクチュエータが最適である。エアーアク
チュエータの利点は、人間に似たしなやかな受動動作を自然に再現できるだけでなく、アクチュエータ本体の小
型化も容易で、ロボットに十分な数のアクチュエータを埋め込むことが出来る。外見も重要な要素であるアンドロ
イドの開発にはこの小型のアクチュエータは重要なことである。また媒体が空気であるため、油圧アクチュエータ
のような油漏れの問題も無い。一方欠点としては、コンプレッサーが外部に必要であること、サーボ回路を組み
にくいことなどがある。
本提案ではアンドロイドには歩き回る機能を実装しない。接客などは歩き回らずとも役務を果たしうる良い例であ
る。等身大のアンドロイドが接客を行う場合その目線の高さも重要であり、座った姿勢での応対が最も自然な姿
である。今研究では、自律性をあえて犠牲にして、ロボットの存在感をその見かけと動きから引き出す研究を行
う。
ここでの具体的開発項目は以下の通りである。
①人間の動き解析に基づく超多自由度のロボットの設計（研究開発）
開発テーマ A-2：人間に酷似した「しなやかな動き」を実現する動作生成方法の研究開発（㈱ココロ）
アンドロイドにおいて重要な技術は、人間と見分けのつかないほど滑らかで自然な動きの実現である。産業用ロ
ボットハンドを目的の位置まで最速で移動させるように、アンドロイドの腕を制御することは比較的容易ではある。
しかし人間が腕を動かす場合は、腕の関節だけで無く、腕以外の部位も多少なりとも動いている。この微妙な動
きが再現できないと、見る人はそれをロボットのような動きであると見てしまう。
㈱ココロは、自然に見えるアンドロイドの動きを作り出す技術は既に有している。アクトロイドの動作は以下のココ
ロのホームページで見ることができる（http://www.kokoro-dreams.co.jp/）。これらの動作は独自で開発した動
作エディターで実現しているものであるが、この動作生成手法は過去の CG がそうであったような熟練が必要で
ある。繰り返し製作することによって他の追随を許さない製作ノウハウと技術を蓄えるとともに、超多自由度のア
ンドロイドの動作を効率よく生成できる方法を開発することが今後の実用化では不可欠である。
このような研究はこれからの分野であり、人間自身を研究した成果も加味しなくてはいけない。当研究において
㈱ココロは、シチュエーションを限定したケーススタディと位置づけ、接客に必要な動作に絞り込み、その動きを
効率よく生成する手法について研究する。その成果を一部実証機で試し、今後の実用化につなげてゆく。
具体的な研究開発項目は以下の通りである。
①接客に必要な動作の絞込みと、その効率的な動作生成方法の研究開発（研究開発）
Ⅲ.2.4.2-7
開発テーマ B：柔らかい皮膚と人間に酷似した外形をもつロボットの開発（㈱ココロ）
接客ロボットのように人間と近距離で関わりあう場合、十分な存在感を持つには、人間に酷似した外見、特に柔
らかい皮膚とその質感、さらに触覚は重要な要素である。しかしながら、この分野の研究はほとんどされてはいな
かった。しかし人間と同じ見かけを持つことは、人間に対して非常に大きな影響を与える。人間は物体を含め対
話対象とする全てのものを擬人化して対話を行う。すなわち、人間の情報処理能力は、人間を観察するために
備わった能力と言っても過言ではない。歩くなど運動性能の高いヒューマノイドロボットを見ても人は強い存在感
を感じるが、動かない蝋人形のような人間そっくりの人形を見ても、強い存在感を人は感じる。さらに人間そっくり
のロボットが動いた場合は、人はそれ以上の存在感を感じる。
㈱ココロは、見かけが酷似したアンドロイドを製作する技術は既に有している。もっとも、この製作には熟練が必
要であるため、繰り返し製作することによって他の追随を許さない製作ノウハウと技術を蓄えることが出来る。
本研究において㈱ココロは、柔らかい素材であっても耐久性の問題を克服する必要があることから、この面での
材料研究を行い、それをアクトロイドに触覚を持った皮膚として実装する開発を行う。材料研究は当研究期間以
降も引き続き行う必要がある。
具体的な研究開発項目は以下の通りである。
①アンドロイドの表面素材の研究（研究開発）
開発テーマ C,D：接客に必要なインタラクティブに反応する動作生成方法の実現（㈱ココロ）
接客ロボットのように人間と近距離で関わりあう場合、十分な存在感を持つには、人間に酷似した外見と合わせ
て、そのインタラクションの際に交わされる会話と動作も重要である。特に話す内容と動作に相関関係がなけれ
ばならない。また、発声と口の動きの連動も同様に重要である。さらに会話を交わす相手と向き合うことがコミュニ
ケーションの基本であるため話者位置特定の技術も接客には重要な要素である。ヒューマノイドロボットでの会
話と動作のインタラクションの研究は行われてはいるが、人間に酷似したアンドロイドにおけるそのような研究は
少ない。
㈱ココロはアクトロイドのようなロボットを、プレイバック法で動作を作成し、適宜再生する手法で製作してきた。ま
た、複数のプレティーチングした動作ユニットを、状況に合わせて選択再生し、単純ではないプレイバック手法も
実現してきた。また人間に酷似したアンドロイドのようなロボットの製作の過程において、台詞とマッチした口の動
きについても多くの経験とノウハウを持っている。
当研究開発で㈱ココロは、インタラクティブ動作生成についての研究開発を行う。人間自身が行う動作の研究が
進めば、全ての動作軸の動作を自動生成することも可能になることは予想されるが、当研究ではケーススタディ
として接客にシチュエーションを限定し、基本になる会話内容とプレティーチング動作ユニットの相関関係を研
究するところから着手する。その上で話者の方向を向いたり、音声合成台詞とマッチングする口動作の自動生成
について研究を行い、プレティーチング動作に重ね合わせる手法について検討する。またそのようにして実現し
た動作について、瞬時に指示値が変化した場合の動作の挙動の不自然さを解消する手法についても研究を行
う。
具体的な研究開発項目は以下の通りである。
①動作と台詞の連動手法に関する研究開発（研究開発）
Ⅲ.2.4.2-8
②台詞に合わせた口の動き(リップシンク)手法に関する研究開発（研究開発）
③プレティーチング動作と自動生成動作との重ねあわせ手法の研究開発（研究開発）
④話者位置特定および当該方向を意識した動作生成方法についての研究開発（研究開発）
⑤動作ユニットの切れ目でおこる不自然な挙動の解消手法についての研究開発（研究開発）
（２）成果詳細
Ａ．人間に酷似した『しなやかな動き』の実現
A.1.人間の運動メカニズムに基づく超多自由度のロボット設計
A.1.1．概要
アンドロイドの製作において、まず必要である仕様に人間に酷似したリアルな外装と、人間のような仕草や動作
を再現できる動作機構が存在する。また実用化を考慮すればそれは同時に、メンテナンス性、安全性、コストと
いったような業務的な仕様も満たさなければならないといえる。
本実証試験機では実用化を前提とした人型ロボット（アンドロイド）における『しなやかな動き』の表現をするため
の開発と設計を行った。それらはまず実際の人間の自由度や動作角を検証し、そこから本実証試験機の使用
用途に合わせた動作軸や角度、省略と簡略により新たに設けられた軸位置や仮想軸を考察していく。
ここで設計された内容をもとにした機構部品サンプルも紹介し、実際の機構部の詳細な説明を行うこととする。
それに加え人間に酷似じたロボットというテーマから、人間の顔や腕といったよりリアリティー性を求められる部位
において、原型の製作が行われており、その製作プロセスも本助成研究項目となっている。
まずは人体型設計も基本資料となる骨格図を下記に記す。（図 A.1.1.-1）
A.1.2. 頭部の動作
アンドロイドの動作を人間のする動作に近いものにするためには人間の表情をよく観察する必要がある。頭部に
関しては、特に顔の動き、表情の変化に注目した。
A.1.3 首の動作
人間の首の構造は頚椎とそれを取り巻く筋肉から構成されている。首には皮下頸筋、側頸筋、前頸筋、後頸
筋と 4 つの筋の集まりがあることが知られている。皮下頸筋には、表面に近い部分に顎から首の根まで首を保護
する広頸筋がある。また胸鎖乳突筋は耳の後ろから胸骨の最上部までのびていて、首の旋回や頭を上げる動
作に関係している。片方が伸縮することでその方向に頭を回転させ、両方が伸縮することで頭を上に向ける。こ
れらの筋肉によって動く人間の首の骨位置は、頭蓋骨の下部を始点にして、腰の仙骨までをつなぐ 24 個の背
骨（脊柱）のうち上側 7 つであり、頚椎に当たる。アンドロイドの設計に関しては背骨（脊椎）の再現は実用的な運
用を行うにはいささかオーバースペックである。そこで人間の仕草や動作を観察し解析すれば、実際の関節は
頭骨との付け根に３自由度、首の付け根に１自由度にしぼられてくることで、おおよその人間の首の動きを再現
することとした。
A.1.4 肩の動作
肩の筋肉は、動きの自由度が非常に高く、人間の腕を含めた動作範囲をより特殊なものにしています。肩に
は様々な筋肉があり、ほかの部位と緊密な関係を作っている。肩の骨に関して、上腕骨、背中の三角形の肩甲
Ⅲ.2.4.2-9
骨、それと肋骨の中心にあたる胸骨を結んでいる鎖骨という 3 つの骨で構成されている。腕を上げるとき、脇の
下は前を向く。水平に上げただけでも斜め下を向く。これは肩が回転しながら上がっているためである。
正面から見た回転角（ａ）は複雑で、垂直に降ろした腕をそのまま横に広げてあげられる最大角は水
平、約 90 度までであるが、底から内側への上腕骨のひねりを利用することでさらに上方に 115 度を追
加できる。反対の内側方向へは 25 度ほどの回転角をもつ。側面から見た（ｂ）は水平に腕を下ろした
ところから、後ろに 50 度、前に 150 度の回転角を持ち、合計で 200 度となっていることがわかった。
しかし、人体と同じ関節と筋肉のあるロボットの必要性は低く、アンドロイドとして人間らしい動作が
再現できる関節の位置と数があればよいと考え、実際の人間の筋肉や衣装の動きを観察した結果、仮想
軸と現実軸とを織り交ぜた４箇所の動作軸を決定した。
腕は筋肉の隆起が最も多く見られる部位である。特に表面から隆起が顕著に見られる筋肉は肩を広く覆う三
角筋、上腕骨を包む上腕二頭筋、上腕三等筋である。腕には 3 つの骨があり、肩につながる上腕骨、肘から下
に、尺骨、橈骨である。これらの骨格とそれを動かす筋肉の自由度を調査研究すると、上腕旋回・肘屈伸・前腕
旋回・手首屈伸・指動作といった内容に分別できることが判明した。またその中で上腕旋回はどちらかといえば
肩先端関節部の動作の代わりになることが予想されている。
A.1.6. 胴体の動作
胴体の動きに関しては、背骨のしなやかな動きを実現するために、多くの筋肉が共に機能している。腰と背を結
ぶ筋肉、腰と足の大腿骨を結ぶ筋肉、お尻の筋肉などがある。腹全体を覆う腹直筋肋骨の中央下部から骨盤
の恥骨まで伸びている。その両脇には外腹針筋、内側に肋骨と腰の寛骨を結ぶ内腹斜筋がある。
男女で大きく異なる部位が骨盤である。左右に広がる寛骨、中央にある仙骨、その先にある尾骨に分かれる。寛
骨は丈夫の開いた円筒状に広がっていて、男女で形が違う。寛骨が作る下部の穴を上から見ると、男性が前す
ぼみの三角形をしているのに対して、女性は円形をしている。これは出産時の胎児の通り道を確保するためで
ある。
実際今回の実証試験機では、胴体に関して必要な動きは、上半身、腕、頭といった部位の動きに対して重心を
整えるために動かす腰と、お辞儀やお客様の顔を追うといったような目的ある行動の２種に大別される。
その中で、肋骨のある上半身の自由な屈曲は今回の動作には必要なく、肩機構の空間の確保の意味もあり省
略することにした。また肋骨直下においては左右旋回胴体左右さと、前後と左右傾げの３自由度を用意すること
で背骨の動作の再現に成功している。
胴体部最下層にあるのが腰軸の前後である。これは股関節軸の前後と同義で、胴体と脚部の間にはいり、バラ
ンスをとる役目をさせることで、よりリアリティーのある胴体の表現が可能となった。
A.1.7. 脚部動作
脚の筋肉は、太ももの前側、内側、後側にある筋肉で脚を曲げ伸ばししている。ふくらはぎを形成する 2 つの
筋肉はアキレス腱につながっている。脚の構造は、脚の根元の関節、そして膝関節の 2 つの組み合わせによっ
て、脚を回転したり、ひねることが可能となる。本実証試験では接客タイプの脚部は筐体内部に格納されるため、
製作することはないといえる部位である。しかし、デモタイプと呼ばれるＭＣ役をこなすアンドロイドは立っており、
歩くことはないものの、上半身の重心の揺れを補正したり、常に動作することで、より人間らしい振る舞いができ
るようになる。このＭＣ演出である脚の動きは、実際のＭＣの観察や、人間の動きや挙動の解析をした結果、股
関節と足首のみの自由度で十分に再現が可能な動作であることが判明した。
Ⅲ.2.4.2-10
A.1.8. 頭部
特に眼球部はアンドロイドにおいて、最も注目される部位である。生物的な動作の再現から人間の感情の表
現など、多岐にわたり細かな制御を必要とするため、機構部としてはその低速から高速域の動作速度と位置精
度の両方を求められる。動作箇所としては眼球左右（左右眼球独立動作）・眼球上下・まぶた開閉があげられる
A.1.10. 肩部動作機構
肩動作機構はアンドロイドの大きな動作において、最も重要な変化を発生させる部位である。ただし、本物の
人体が保有する肩の動作範囲と自由度を完全に再現するという行為は、前記首の動作でも触れたとおり、必ず
必要な仕様というわけではない。本実証試験機では、設計段階で導き出された仮想の肩関節軸を利用し、必要
最低限で最大の効果をねらう工夫を施すこととなった。
A.1.11. 腕動作機構
腕機構はアンドロイドの動作では最も動作表現の大きい部位である。腕機構部は、大きく分けると肩機構部の
先に装備された上腕ユニット、肘機構部の先に装備された前腕ユニット、そして手首より先に装備された手ユニ
ットといった Assembly に分けられる。上腕ユニットには上腕旋回と肘屈伸の２つの自由度が与えられる。上腕旋
回は上腕のひねりの表現であるものの、動作部位を人間に当てはめると肩先端軸の動作の再現にほかならな
い。
また、手首動作のための空間は、外装形状が極限に迫ってくる部位であり、機構部の配置としては頭部動作
で活用した２つのアクチュエータの並列配置を採用することとした。（写 A.1.11.-11）
さらに、腕の末端部ということもあり、その重量や強度をより考慮しなければならない。この部位は左右おたがい
の腕が接触する範囲の動作をしたり、接客ブースとなる筐体への接触も考えられるため、メンテナンス性の向上
のためにユニットとしての交換が容易な構造にする必要がある。手ユニットは、アンドロイドの製作において顔の
表情なみに重要な動作部位である。ただし、本実証試験では業務が限られているうえに、実用的な構造をとらな
ければならないため、必要な動作に絞って設定することとした。人指し指の屈伸と、中指・薬指・小指を一度に屈
伸する機構である。
A.1.12. 胴体動作機構部
胴体の動作機構部は、主に背骨と腰骨の部位の関節部分の再現を中心に構成される。この背骨の部分の表
現は非常にフレキシブルでなければならず、また上半身の大部分を肩ユニットで構成しているため、機構部分
の空間も限られてくる。また、最も大きな荷重や衝撃も受けやすいため、強力で耐久性のある構成を考えなけれ
ばならない。そこで頭部動作に使用した平行配置のシリンダの考えを応用して装備することとした。これら胴体部
の動作の最下層に腰（股関節部）の前後動作が設定される。ただし、この部位は座って筐体内部で案内動作を
する接客タイプと、立ち姿でステージＭＣを行うデモタイプとでは動作させる種類の違いから異なる設計をしてい
る。
接客タイプは股関節軸のみで構成されており、股関節の前後方向への傾きの表現をしている。この接客タイ
プは脚部以下の部分が筐体内部に埋設され、また利用するお客様からも死角となり見えないため、造作を含め
た機構部製作はない。ただしメンテナンス性を考慮して、筐体部とアンドロイド部は分割できるようにし（写
A.1.12.-6）、その脚部以下の部分にアクチェーターの制御部であるサーボバルブを搭載することとした。
A.1.13. 空電部
Ⅲ.2.4.2-11
接客タイプの空電部は腰部より下に装備されており、主に空調機器、サーボバルブ、制御機器といった構成
となる。実際の接客動作の運営には、画像解析、音声認識、音声発話、動作管理などを司る制御機器が必要と
なるが、これらは筐体部に内包されており接続ケーブルやエアホースにてアンドロイド部とつながることとなる。
空調機器は動力伝達媒体であるエアの調節をする部位であり、空気の流れの ON/OFF を司るメインバルブ、
基準圧力を検圧する圧力スイッチ、空気内の塵やゴミを除去するエアフィルタ、空気の微細な異物や水分を隔
離するミストフィルタ、圧縮空気の圧力を任意に設定するレギュレータ、そして毎分あたりの空気の流量を検知す
る流量計といった要素に分けられる。これらの空調機器はデモタイプの場合別ユニットに置き換えられ、脚下の
フレーム内には動作機構部と一部のサーボバルブのみを装備する。脚下の台座内にあるサーボバルブは動力
媒体の空気特性により、なるべく動作アクチュエータ近くに配置することが望ましく、今回は頭部表情等の動作
を再現する１６チャンネル分を内蔵している。
Ⅲ.2.4.2-12
A.1.14. 原型製作
アンドロイドの外形形状は人間の体型が基本となる。本実証試験機製作においてもアンドロイドという概念を根
本に、より実用に適した製作形態をとることで、クオリティーとコストの両立を実現している。その中においてリアリ
ティーで省略できない部位、それが頭部（顔）と手（指）である。（写 A.1.14.-1）
写 A.1.14.-1
これらの部位の製作は主に本物の人体から型取りをしてその複製を利用する方法と、その形状そのものを造作
によって製作する方法があげられる。これらはそれぞれ製作の過程に差があるものの、大別するとこの２通りの方
法に絞られることがわかる。本実証試験のアンドロイドには実在のモデルが存在せず、企画イメージやコンセプト
に沿った印象のある個性（キャラクター）にしなければならないため、頭部は専用の造作を起こして原型を製作
する手段をとった。（写）油土による造作は内部に機構部を内蔵し、動かすことを前提として製作されるため、顔
の要素である部分の位置にはより精度と慎重さが要求される。特に両目の位置と上アゴの位置の関係は、人間
の骨格上変化することのない部位であり、機構部との基準原点として用いられる。（写 A.1.14.-2）
基準点
原型製作
写 A.1.14.-2
A.1.15. スキンと機構部の関係
前章で製作したスキン部は機構部の動作を伝える所とそれぞれ接続され、人間の皮や筋肉が変形する様子
を表現している。その接続部は表面に影響がないように処理され、複合して動作させることで機構的な動きの基
準や軸の方向といったものが目立たないように工夫されている。またこの部位はメンテナンス性を考慮すれば何
度も機構部との脱着が必要となり、動作部分や取付部分の構造はシンプルでかつ耐久性が高くなければいけ
ない。これらの構造は皮膚が筋肉によって骨をすべるといった表現を再現しつつ人間にはない製品としての性
Ⅲ.2.4.2-13
能も両立しなければならない。それを両立した場合、スキンの変形は仕上げ前の段階でリアルかつ実用的な性
能を持つことになる。
A.1.16. 外装造作部
前章のスキン部分の外装はおもにリアリティーの追求のために行われる作業であるのに対し、その他の部分
は実際の運用においてスキンがみえることがなく、その形状が装着する衣装をとおして表に表れるだけである。
この部分は軟質のウレタン樹脂等を利用した造作を行い、人間の肉の質感を表面に現すことを第一に製作して
いる。これらの造作部分は頭部と異なり、動作範囲が大きく、限りなく負荷を小さくし、不自然なく変形させる技術
が要求される。この部分の技術はココロが長年培ってきた柔らかな変形をするロボットの製作ノウハウが応用され、
内部機構部の都合や形状が表にでないように処理されている。
A.1.17. 仕上げ
外装部の形状がスキンや造作によって表現されることで、実用に耐えうるアンドロイドの形状的な製作は完了
したといえる。しかし、形状だけのリアリティーでは人間に酷使したアンドロイドにはなりえない。最終的な仕上げ
は主に、各種パーツ（眼球・歯・舌、メイク、植毛、カツラ、があげられる。
Ⅲ.2.4.2-14
Ａ－２接客に必要な動作の絞込みと、効率的な動作生成方法の研究開発
(１)接客に必要な動作の絞込み
これまでのロボットは動作の際、現在のポーズから次のポーズへと自動で動いており、エンドからエンドへの直
線的な動きのみであった。今回のアンドロイドは主に接客業務を行うため、他のロボットの様に角張った機械的
な動きではお客様に不自然な印象を与えてしまう。それを防ぐ為の人間らしい動きには、滑らかで曲線的な動き
が求められ、異なるポーズへの動作にはエンドからエンドまでの「軌跡」の描き方が重要となる。これを実現する
ことで有機的なより人間らしい動作が可能となるのである。
(２)効率的な動作生成方法の研究開発
ティーチングツールとしてはココロで開発し以前から使用していたツールにアクトロイド専用の機能を追加し
た物を使用する。
メインで使用したティーチング方法はダイナミックティーチングで、これは教示者がリアルタイムでアクトロイド本
体を手で直接操作して、ポテンショの値を記録していく方法である。具体的な作業内容としては振付師が役者に
演技指導を手取り足取り行なっているのと同じ状態である。これは最も短時間で自然な動作を入力できる方法で
あるが、教示者の熟練度に大きく影響を受ける。教示者は何度も何度も反復練習を行ない、アクトロイドの動かし
方を体で覚えなければならない。この方法は主に腕部のデータ入力に有効であった。
次に首の傾げ、胴体の傾げについてはマウスによる XY 座標入力を使用してデータを入力した。これもリアル
タイムでマウスを操作し、先に入れた腕の動きにタイミングを合わせて入力するため、教示者の熟練が必要とな
る。
最後に表情や指の動きなどはマウスで１軸づつリアルタイム入力を行なう。この方法も上記２つ程ではないが、
練習が必要である。
これらのデータをエディタ画面で編集し、何度もプレイバックを行ないながら微調整を行なって、不自然な挙
動を無くしていく。
全般的に言える事はリアルタイムティーチングには教示者の熟練が必要不可欠であるという事である。エディ
タによる非リアルタイム入力では、熟練者のリアルタイム入力に対して数十～数百倍の時間がかかってしまう。
ただし、一度作成したデータはライブラリとして使用可能になるので、ティーチング作業を蓄積していけば、こ
れらのデータを編集・部分修正する事で、容易に新しい動作データを作成する事が可能となる。このライブラリに
存在する動作データの範囲内であれば、熟練者でなくてもプレティーチングデータの作成は可能となる。
Ⅲ.2.4.2-15
Ｂ．柔らかい皮膚と人間に酷似した外形
１．表面素材の研究開発
a) 背景・研究の方向性
１．今回は、国内外問わず、情報を収集し、今回または以前から検討していた製造会社から入手でき
る材料と新しい材料の模索を行った。従来品として、皮膚に関しては、シリコン系の材料を使用し
ておりますが、材料選定については、実績のあるものから、さらにウレタン系の材料も検討の範囲と
した。
本来の性能として、
伸縮性、成形簡易、経年変化少、厚みと強度のバランス、メンテナンス性、
着色・接着可等が要求される条件であります。従来品に関しては、これらの本来の性能を総合
的にクリアーしており、新しい素材については、これ以上のものが要求されます。特に今回のテー
マである「柔らかい皮膚と人間に酷似した外形」という点に着目し伸縮性（伸びる範囲、収縮する
速さ）と質感（さらさら、すべすべ）という面も重視しました。
素材（皮膚）以外の部分では、重要なのが、眼球・爪・髪。特に眼球の部分に関しては、人がかなら
ず見るところであり、人に酷似しているかどうかを判断する大きな要因となる部分です。今回、眼球
に関しては、サンプル購入による従来品※1 との比較検討をおこないました。
また、素材に着色するための材料、サンプルを入手し検討しました。基本的に、着色できる素材、で
きない素材がありますが、しかし、人間に酷似させるためには着色する素材、技術は必須条件にな
ります。
２．条件としては、「本来の性能」に以下の項目を追加した。加えした。
①コストが安い
②安定入手
③安全性
現在使用している材料が、製品だが、かなり不安定な入手状況にあり、さらに、ひどいときには、そ
の材料を使って、同じ製造プロセスでもまったく違った性能の製品になることがあります。（製造会社で
は、同じ配合・同じものという回答がくるが、多少の経年による品質劣化、製造会社の安定して同じも
のを製造する技術力の問題があると思われます。）もっぱら特注で需要も少ないことから、致し方ない
部分ではあるが、安定した入手による安定した製造は必須と考え、あえて条件とし検討しました。
③安全性については、製造過程、製造後のリサイクル・廃棄等考慮し、特に危険物で毒性の強い
ものは、今後の環境保全を考えると、現時点で使えても、今後は使えないまたは、社会的責任を
負う必要があるので、選択から除外しました。
c) 評価・報告
１．各材料も一長一短で、総合的な評価は、やはり、従来品が良いという結果になりました。特に、期
待していた BURMAN 社の材料（シリコン系）では、硬さが調整できない、着色不可柔らかくすると表
面のべとつきがでるという「本来の性能」からみると、欠点が目立つ結果となってしまいました。考え
Ⅲ.2.4.2-16
方ではあるが、１つの材料ではなく、組み合わせで解決を見出す方法もあるかもしれません。
２．今回の研究では、需要と供給の問題で、入手できるできないという条件が、発生しました。大量の発
注・使用であると、各製造会社からのもう一段階上の協力が得られたのではと思いました。素材自体の
可能性は、充分あると思われます。あとは、市場性を示し、どれだけ協力が得られるかという問題です。
３．今後の課題として
① シリコンの素材検討…できれば、結合レベルまで
② 海外の材料について、その製品の成形方法等の調査を行い、素材選定・サンプリング
③ ウレタン素材の検討
④ 素材以外のパーツの素材、製造方法：眼球・髪・爪
４．総評
あらためて、人間の皮膚の完成度の高さと、それを創り出す難しさを実感しました。
さらに、従来品の性能の良さ、特に伸縮性・粘りに関しては、再認識・再評価することができました。また、
その他の材料についても、その可能性を要所要所に感じることができました。特にウレタン系材料では、
研究開発の余地・可能性は大いにあると感じました。
今後は、さらなる研究開発をすすめて、継続して新しい技術の開発に取り組みたいと思います。成功さ
せるには、材料製造会社との協力を得られるように、その市場性、可能性、必要性をアピールする必要
があると思われます。
Ⅲ.2.4.2-17
C．接客に必要なインタラクティブに反応する動作
Ｃ-１人間としての自然なふるまいと、「接客」という職業人のふるまいの考察
「アクトロイド」は人間に酷似したリアルで自然なふるまいを動作の達成目標としている。多彩な可変速を含む
自由度の多い機構は、機械的でない動作表現を可能にするが、最終的にはその機構にどのような表現をさせる
かという動作演出が、自然なふるまいを実現する重要なポイントとなる。
そのためにはまず「自然なふるまい」を考察し、要素を抽出しなければならない。ここで考察する項目は、基本
要素である「人間」としてのふるまい、さらに役割としての要素「案内役」としてのふるまいが挙げられる。そこで、
動作研究対象として「受付嬢」をリサーチし、実際の受付嬢の動作をビデオ撮影したものも含め、動作要素を考
察した。
「人間」のふるまいとして目立つ要素は、「不規則で絶え間ない動き」である。意識した動作以外でも微動はあ
り、また貧乏ゆすりや髪を直すなどの無意識に発動する癖の動きも人間らしい表現といえる。
そして「案内役」としてのふるまいだが、美しい所作や丁寧なしぐさをはじめ、不必要には動かない、動作には
すべて意味がある、など意識的な動作が多い。この画一化された機械的な動作は礼儀を重んじる「案内役」とい
う役割には不可欠なものであることがわかる。しかしこれは人間らしい自然さと反する要素であり、矛盾したふる
まいを包含する基準を考察しなければならなかった。
「アクトロイド」は人間ではないし、人間ではないことを告知して存在する。そのため対話者は人間ではないモ
ノと周知の上で対話に臨む。これは人間と比較しての間違い探しといった状態である。人間にない要素や機械
的な所作は、自然でない＝人間でないという体感に直結しやすい。また逆に、まばたきや微動などの無意識の
動きは機械なのに人間っぽい、と印象づけ易いのではないかとも推測した。
以上のことから、「案内役」としての礼儀正しく美しい所作を基本に、しかし無意識に生じる無駄な動きも多く含
むふるまいパターンを生成することとした。
Ｃ-２人間的な個性を表現するキャラクター動作の抽出
ロボットの容姿は、キャラクターとして認識し、動作へも充分配慮しなければならない要素である。「アクトロイ
ド」の場合、人間の若い女性に酷似した姿に作られる。「人間の若い女性」という容姿とそれが持つキャラクター
を考察し、それにふさわしいキャラクター動作を抽出し表現しなければならない。
では女性らしい動作とはどのようなものであろうか。女性と男性では容姿のみならず、ふるまいが大きく異なる。
これは体格差の影響が大きいが、他者からの目を意識した文化的な影響も多分にあると思われる。リサーチした
「受付嬢」をはじめ、映像資料などを分析すると、若い女性の動作は男性と比較して内に入る動きや自分に触れ
る動きが多く、動作幅は小さめであることがわかった。
性別以外のキャラクター動作として、上品さやかわいらしさ、幼さ、粗暴さ、神経質な感じなど、性格や個性を
表現する動作も多く見受けられることがわかった。そしてこれらの動作は性別や年齢といった、おそらく外見や容
姿に影響される別軸のキャラクター要素と密接な関係にあり、両軸を重ね合わせてはじめてキャラクター動作が
相手に与える印象がわかってくるのである。
つまり同じキャラクター動作をしても、性別や年齢が異なれば相手が受ける印象は異なる。例えば女性では好
Ⅲ.2.4.2-18
意的に感じられる「かわいらしいしぐさ」でも男性が行った場合は気持ちが悪いといった悪印象に感じられるので
ある。
「アクトロイド」は快い会話により接客サービスを提供するためのロボットである。見た目の美しい、かわいらしい
キャラクターイメージに反しない、好印象を与える動作、上品さやかわいらしさを表現する動作を的確に選出し、
積極的に取り入れた。
Ｃ－３自然な会話に含まれる「言葉」以外の要素としての動作の抽出
人と人とのコミュニケーションとして発生する「会話」を構成する要素を考えると、音声として発する言葉の他に、
視線や表情、身振り手振りといったボディランゲージも、会話に多大な情報をもたらす大きな構成要素であり、自
然な会話には欠くことの出来ない要素であることがわかる。
会話の主体な表現手法である「言葉」は詳細かつ具体的な情報伝達手段であるが、反面、的確な「言葉選
び」をしないと、誤った情報を相手に伝えてしまう。また言葉が出ない（言葉が思いつかない）状況も多く発生す
るものである。人は本能的に、コミュニケーションの破綻を少しでも回避するために、言葉以外のさまざまな表現
方法を用いて同時に多角的な情報を伝え、会話という表現＝情報のやりとりの確実性を高めようとする。
そのため、会話には声で発する言葉以外にも、表情やボディランゲージといった表現が混在するのである。よ
って自然な会話の再現には表現としての表情やボディランゲージを欠くことはできない。
言葉以外の手法が表現するものは、主に下記のようになる。
・
表情や視線・・・感情や、対話者との会話の受け入れの可否、アイコンタクトのような意思疎通
・
ボディランゲージ・・・指し示すなどの具体的な指示、特定の動作によるサイン効果
視線には、特定の表現の他に、対話者に安心感を与える効果がある。これは、人は視線を向けられている人
を対話者と認識（意識）し「目と目を合わせて話す」ことを自然の会話と習慣づけているためである。そのため、視
線を逸らすことは会話の拒否と感じやすい。
「アクトロイド」では、視線を合わすための機能として画像認識による話者位置特定及び当該方向を意識した
動作生成方法（D-4 参照）を導入し、対話者への意識を演出し、会話の安心感と人間味のある感情表現を実現
した。
表情は特に感情表現に用いられる。喜怒哀楽の表現は人間的な表現には欠かせない要素である。しかし今
回の「ご案内」という役割では、対話者に笑顔で対応する事が重要なスキルとなっている。怒りや悲しみの表情
は接客という行為として悪しき要素と捉えられる。そのため、接客としての「アクトロイド」では微笑みの強弱程度
の感情表現にとどめた。
この表情による感情表現の少なさを、対話者の中には幾分無表情に感じた人もいるようだ。本来、接客の役
割からみると「受付嬢」は感情を表に出さずに微笑を止めた無表情なものなのであるのだが、対象がロボットであ
るという先入観は、やや過剰な人間的なふるまいを期待される場合もあった。これも想定はしていたが、悪しき表
情による不快感を与える危険性を考慮した上で、表情表現の少なさが今回の役割の上では大きな障害にはなら
なかったと考える。
ボディランゲージは会話の中では表現の確実性を高めるために用いられているようだ。また指し示したり、特
定のサイン動作をしたりすることで直感的で速やかに情報を伝えることもできる。言葉の曖昧さや誤解が生じや
Ⅲ.2.4.2-19
すい言葉の回避、会話ストレスの回避には欠かせない表現と言える。
例えば「右にあります」といった方向を示す言葉は、何を対象に右なのか分かりにくい。これに該当方向を手
で示す動作を加えると、的確な表現に変わる。「アクトロイド」では的確でわかりやすいご案内により心地よい会
話を実現するためにボディランゲージを率先して取り入れることにした。
これとは別に、ボディランゲージには特殊な感情表現に用いられることもある。言葉で儀礼的な表現を、しぐさ
で感情的な表現を同時に行うのである。この場合、言葉としぐさは反対の意味合いのことが多い。「ありがとうござ
います」と好意的な言葉を発しながら、顔を背けて受け入れ拒否の感情を表現する、などである。
このような矛盾する行動も人間的な要素の特徴である。「アクトロイド」でも矛盾を内包する複雑な表現も試み
たが、対話者へ顔や視線向ける動作を自動生成動作（D-3 参照）で行うので、プレティーチング・アクションでは
顔や視線の方向を意図的に動かすことはできなかった。そのため今回は十分な表現には至らなかった。今後は、
自動生成による制御範囲に、プレティーチングによる意図的動作を割り込ませられるシステムの開発により、表
現力の拡大を図りたい。
以上までの動作要素は機構製作の上にも必要な情報であり、ここでの考察や抽出した要素は機構設計時
（A-1 参照）にも考慮し組み込まれている。
Ｃ－４プレティーチング用アクションパターンの抽出
「アクトロイド」はリップシンク手法（D-2 参照）や対話者へ顔を向ける自動生成動作（D-3 参照）で基本的な動
作を生成し、同時にプレティーチングによるアクションパターンを呼び出して、セリフに合った表現的なしぐさを生
成する。
音声認識対話では膨大な量のセリフが存在する。本来はそのセリフすべてをリアルタイムでプレティーチング
するわけだが、システムを簡易化し、表現に必要なアクションパターンを絞り込み、細切れのアクションパターン
をデータベースとして構築し、セリフの内容に従ってアクションパターンを ID で次々に呼び出しつないで再生す
るシステムを開発した。（D-1 参照）
アクションの絞り込みでは、すべてのセリフ（ナレーション）が確定した後、まずそのセリフを表現する一連の動
作演出を洗い出した。この段階で前述の人間らしさや職業としての所作、キャラクター表現、情報伝達としてのし
ぐさなどの要素をすべて包含しつつ、セリフにふさわしい表現力の高いアクションを想定した。
次に重複するアクションを省き、アクションの種類を抽出する。ご案内という役割上動作は規格されたものが多
く、セリフの量に比較するとアクションパターンは思いの外少なく、初期設定では約 50 パターンでこなすことがで
きた（運営中のシナリオ追加時にはアクションパターンも追加している）。これらの動作演出は絵コンテ形式
（fig.A）にまとめ、ティーチングエンジニアへ伝えプレティーチングを行った（fig.Ｂ,C）。
Ⅲ.2.4.2-20
fig. A アクションパターン絵コンテ
fig.B アクションパターン「次の方」
fig.C アクションパターン「うれしはずかし」
さらに、すべてのセリフにアクションパターンの関連付けを行う。セリフ個々の内容や演出に合わせてアクショ
ンを呼び出す順序とタイミングを設定（fig.D）した。
fig.D
アクション ID 関連付け
Ｃ－５．プレティーチング時の動作アレンジ
ロボットをティーチングする上で必ず生じる問題として、ロボットの動作限界がある。「アクトロイド」はかなりの自
由度を持つロボットであり、前述の動作要素を表現できるよう製作されているが、それでも、動作点数や動作角
ははるかに人間には及ばない。また外部（筐体や対話者）や本体への接触による故障・事故を避けるために動
作範囲に厳しい制限を設けざるを得ない。
前述で想定した理想的なアクションを「アクトロイド」は必ずしも忠実には再現できない。設計上で想定される
動作範囲以外にも、ティーチング作業中に発覚する機能制限も多い。そこで「アクトロイド」の現在の機能を認識
し、特性を最大限に生かしつつ、不自然さや動きの固さをカバーするための動作アレンジをした。これは演出と
しての調整だけでなく、ロボットの個体差も考慮しつつ調整しなければならなかった。
Ⅲ.2.4.2-21
Ｄ－１．動作と台詞の連動手法に関する研究開発
(１)接客に必要な動作の割り出し
様々なシナリオに対し、アンドロイドに自然な動作をさせるために、約５０パターンの基本動作をあらかじめ作
成した。(表 D-1-1 参照)
これをシナリオ毎に組み合わせて一連の動作を作成する。
各基本動作は大きく２種類に分類される。
Ａ．大きなアクションを含む、１～３秒程度の動作
Ｂ．小さな仕草を継続的に続ける動作
更にＡ動作の使用状況は４つのパターンがある。
Ａ－１．基本姿勢から動作を開始し、基本姿勢で終了。
Ａ－２．基本姿勢から動作を開始し、目的姿勢で終了。
Ａ－３．目的姿勢から動作を開始し、基本姿勢で終了。
Ａ－４．目的姿勢から動作を開始し、目的姿勢で終了。
Ａ動作の使用状況としてシナリオ冒頭で大きなアクションを行なう場合が多いためＡ動作は基本姿勢からスタ
ートする動作データとして作成する。その中で、シナリオの途中で別の姿勢から移行してスタートする動作につ
いてはデータ先頭の基本姿勢からの移行動作をカットしたバージョンを作成した。
Ｂ動作は、待機中に基本姿勢のまま微動だにしないでいると人間として不自然に見えてしまうので、瞬きや目
線の動き、体の僅かな仕草などの動作を常に行うためのデータとして作成する。
Ｂ－１．基本姿勢で待機、瞬きと眼球動作僅かな首と胴体の揺れのみ。
Ｂ－２．発話動作。Ａ－１に対し、首の頷き動作を大きくした。
Ａ動作を行なわない時間は、主にこの２種類の動作のどちらかを繰り返す。
Ｄ－２台詞に合わせた口の動き･リップシンク手法
(１)音声発話動作自動生成
これまで手動で行ってきた音声発話動作の入力を、音声合成エンジン「WizardVoice」を用いて自動生成する。
「WizardVoice」によって生成された発話タイミングと同期した発話テキストデータは‘リップシンクデータ’とも呼ば
れ、これによりアンドロイドの唇の動作が決定する。
（２）音素データ
「WizardVoice」から出力されるリップシンクデータとは「音素」データのことである。音素（おんそ）とは、ある特
定の言語において、区別（弁別）される最小の音声単位であり、現代の日本語の音素は以下の 22 個である。
・母音･･･ａｉｕｅｏ
・半母音･･･ｙｗ
・子音･･･ｋｇｓｚｔｄｎｈｂｐｍｒ
・その他･･･ｎ(撥音)ｑ(促音)：(長音)
音素と唇の形状は、大体一致するので、各音素に対してアンドロイドの唇動作に関連する各アクチュエータに、
Ⅲ.2.4.2-22
動作指示を与えるためのデータテーブルを作成した。
影響を受けるアクチュエータは下記の６箇所となる。
口開閉・上唇上下・下唇上下・上唇突出・下唇突出・口元左右引き
音素
a
ｉ
母音
u
e
o
y
半母音
w
k
g
s
z
t
d
子音
n
h
b
p
m
r
n
撥音
q
促音
:
長音
下あご
開
閉じ
閉じ
半開
開
半開
半開
閉じ
閉じ
閉じ
閉じ
半開
半開
半開
閉じ
閉じ
閉じ
半開
閉じ
-
口の動作
唇上下唇突出
開
戻し
半開
戻し
閉じ
突出
半開
戻し
閉じ
戻し
半開
戻し
閉じ
突出し
半開
戻し
半開
戻し
半開
戻し
半開
戻し
半開
戻し
半開
戻し
半開
戻し
閉じ
戻し
閉じ
戻し
閉じ
戻し
閉じ
突出し
閉じ
戻し
-
口引き
戻し
引き
戻し
引き
戻し
戻し
戻し
戻し
戻し
戻し
戻し
戻し
戻し
戻し
次の母音と同じ
戻し
戻し
戻し
戻し
戻し
前の母音と同じ
前の母音と同じ
D-2-1 音素変換表
各アクチュエータへの指示値は実際に完成したアンドロイドによって各音素の発話状態に見える様に音素係
数の設定を２５６段階で行なった。
(３)動作生成方法
唇の動作を生成する場合、
音声データである台詞を、一番初めにアンドロイドに発話させた時にだけリップシンクデータが生成され、そのデ
ータに基づき、音声データと同期した唇の動作が行われる。しかし、実際の人間は発話と同時に唇の動作が行
われるのではなく、発話より少し前に唇の形が作られ、アンドロイドにより人間らしく発話させる為には、アンドロイ
ドの唇が発話よりも前倒しで動きだすようなパラメータを作る必要がある。
リップシンクデータは発話にかかる時間が１／１００秒単位でデータ化されており、このデータを利用し音声発
話よりも前に唇の動作指示を出すことが可能である。
（４）課題
ここまで音声発話動作の自動生成方法について書いてきたが、ライブでの発話動作の場合、上記の動作生成
方法では唇の動作をさせることができない。たとえ発話と同時にリップシンクデータを生成することが可能になっ
ても、発話よりも前に唇の形をつくるという、より人間らしい動作を表現することは不可能なのである。
Ｄ－３プレティーチング動作と自動生成動作との重ね合わせ手法
Ⅲ.2.4.2-23
(１)動作の重み付け
アンドロイドを動作させる際、予め動作 CH をいくつかのモジュールに分類し、そのモジュール毎に動作ブロッ
クを作成しておく必要がある。モジュール内の各 CH は外部からの入力のパラメータ（動作指示、他のチャンネル
の状態、音声出力、画像認識、センサー等）により各モジュールの動作パターンを選択し、選択された動作パタ
ーンを基本に他のパラメータに割り当てられた重み付けによって動作を決定する。
モジュール分割例
¾
眼球、瞼・・・画像認識（目標の座標）、動作指示
¾
口・・・音声出力（音素情報）、動作指示
¾
表情・・・動作指示
¾
首・・・動作指示、画像認識（目標の座標）
¾
腕・・・動作指示、画像認識（目標の座標）、センサー入力
¾
胴体・・・動作指示、画像認識（目標の座標）
¾
脚部・・・動作指示
たとえば他のパラメータの影響を受けずに動作してよい CH は重み付け１００％とし、その他のパラメータにつ
いての優先度重み付けは０%とする。
画像認識情報によって影響をうける CH はたとえば動作指示の重み付け５０％、画像認識の重み付け５０％、
といった具合に値を設定しておく。ただし、リップシンクデータの影響を受ける口のＣＨのみ、リップシンクデータ
の重み付けが１００％に固定となる。
この様に動作パターンデータの中に、重み付け情報も記述しておく事により、状況によってパラメータに対す
る反応を変化させる事を可能とする。
動作ブロックから別の動作ブロックへの移行は、動作ブロック毎に各ＣＨの移行時間を設定しておき、その時
間をかけて状態を移行させる。各動作ブロックにはループ動作を設定できる様にしておき、完全に動作が停止
する事は無い様にする。
D－４話者位置特定及び当該方向を意識した動作生成方法
(１)視線動作自動生成
アンドロイドが人間に対して自然な振る舞いで会話している様に見せるためにはアンドロイドの視線の処理が
重要である。
アンドロイドの眼球を制御する際に、単純な指示値だと、眼球はマウントされている頭部に対する相対座標で
動く事になり、この動作は見る人に対して非常に「ロボット的」な印象を与えてしまう。
人間がアンドロイドに対して最も違和感を覚えるのは「目」であり、その理由として生身の人間は常に何らかの
注視点に対して視線が固定されており、それによって意思を持っている様に見えるからである。
これを実現するためには、アンドロイドに対して外界に注視点を設定し、眼球が常にその方向を向く様に制御
する必要がある。
接客ロボットにおいて、注視点は対話している人間の顔である事が必要であるのでカメラを用いて対話者の
顔の位置を検出しその方向に眼球を向ける様に制御を行なった。
Ⅲ.2.4.2-24
対話者の顔の検出にはステレオカメラを使用し、アンドロイドの原点座標に対する対話者の顔をパターン認識
し座標を 3 次元座標で出力するアプリケーションを外部委託で製作した。この処理は CPU の負担が大変大きい
ため PC を 1 台専用に用意した。動作生成 PC とはソケット通信でデータの受け渡しを行なった。データ更新頻
度は毎秒１０回程度となる。
カメラの設置位置はアンドロイドの眼球がベストであるが、アクトロイドはリアルな等身大の成人女性型アンドロ
イドであり、眼球が小さく頭部には空きスペースが無く、眼球にカメラを内蔵する事は困難であったため、筐体側
にカメラを設置した。このため対話者の顔の座標は筐体に対しての座標で与えられる。
一方で眼球は腰・胴体・首の各動作軸の積み重なった末端に存在するため、筐体に対する位置・角度が常に
変化する。そのため、眼球の筐体に対する座標を常に計算する必要がある。これには機械データを元に、腰前
後軸・胴体前後左右軸・首前後軸・頭部前後左右軸のポテンショメータの値から筐体原点＝アンドロイド原点に
対する頭部の座標を積算する。この頭部の座標に対して、カメラから検出した対話者の顔座標に向くように眼球
のアクチュエータに与える指示値を計算する。
Ⅲ.2.4.2-25
Ｄ－５動作ユニットの切れ目で起こる不自然な挙動の解消方法
動作データの移行について
シナリオの種類は様々なので、基本動作の動作時間に必ず一致するわけではないので、ある動作データから
別の動作データへ移行する場合、各動作軸への指示値が急激に変化する瞬間が発生する。これをそのまま実
行すると、人間の動きとして不自然な挙動となる。
これを回避するために、指示値の移行を緩やかに行なう様に処理を行なった。
ただし、動作軸によって、すばやい対応が可能な箇所と移行に時間がかかる箇所があるので、各動作軸ごと
に個別の移行時間を設定できる様にした。また動作パターンによっても、素早い移行が必要な場合と、ゆっくり
移行した方が良い場合があるので、動作パターン毎にも移行時間の設定が出来る様にした。
Ｄ－６音声認識対話のためのシナリオ作成
6-1 擬似会話を成立させるシナリオフローの構築
会話は、話しかけられた内容に対し、意にあった内容を話し返すという行為を繰り返すことで成立する。人が会
話する場合、通常、話しかけられた内容を理解し、その内容を理解していること含ませつつ意図した回答をする。
話しかけられた内容とかけはなれた回答をした場合、質問が理解できていないと受け取られるためである。会話
の成立には、最低限、話しかけられた内容の理解と、それに合った回答を返すことが必要である。
今回の「アクトロイド」の音声認識対話では、対話者が自由に発言する自由発話での対話システムを研究目標
としている。このシステムは対話者から話しかける言葉を単語単位で認識できる。しかしこれは内容の理解では
なく、あくまで言葉そのものを聞き取るまでのもので、AI などによる知的判断は介在しない。現実的には話しかけ
の内容を理解できない以上、さまざまな話しかけに見合った返事を返すことは不可能である。
今回の「アクトロイド」の会話は、厳密に言うと「擬似会話」である。すべての会話は、莫大な量の「想定会話」に
基づき構築されたプレシナリオによるものである。「アクトロイド」自体は話しかけられた内容を理解しているわけ
ではないし、意図して回答するわけでもないが、シナリオデータベース自体を充実させることで、擬似的でも知
性を感じる対話を実現できると考えた。
まずは知的で矛盾しないシナリオフローの構築である。会話は基本的にはキャッチボールであり、「話しかけら
れたことに答える」を１会話と考えるが、一言言って一言返すだけでは対話としてのボリュームに欠ける。対話者
に満足を与え、かつ万博という多人数をさばけるだけの所要時間を約 1 分と算出し、この中で３会話できるフロー
を基本とした。
会話はプロセスであり、前の話題を理解した上で次の会話に進むものである。例えば特定の固有名があがっ
た場合、次の会話はそれについてさらに詳細に対する質問に及ぶなどである。シナリオフロー（fig. A）では会話
をステージとして段階に分け、プロセス上での矛盾が発生しないよう慎重にフローを構築した。
6-2 擬似会話を成立させる想定会話・話しかけ内容の抽出
前述の通り、擬似的にも知的な会話を印象づけるためには、自由発話環境下で発生するあらゆる会話を想定
しなければならない。これは一見無限にあるように感じされるが、知的さを基本とすることで、意味の通らない話し
かけを無理に拾って続ける必要はない、という考え方もできる。
Ⅲ.2.4.2-26
洗い出しのプロセスは以下のようになる。
・
基本会話の洗い出し
万博という環境、接客という役割、会場のご案内役という立場、設置される場所、などの環境を踏まえて、基本
的にはそのシチュエーション下に於いて妥当な質問の洗い出しである。これは主に、会場内の特定の展示物や
場所、イベントなどの名称の内容や場所を問うもの、時間やサービスなどの情報を問うものであり、実用としての
案内に求められる質問項目である。
コンテンツについては、万博運営へ働きかけ、すべてのパビリオンや施設などのコンテンツ情報と、適切な回
答例を提供していただき、シナリオへと組み込んだ。この部分はフロー上では「one on one」（質問→回答が明確
なもの）として大きなひとまとめとし、的確な情報提供により快い会話になるよう構成した。
・
雑談会話の洗い出し
主に興味味本位から発せられる質問である。「アクトロイド」そのものへのプライベートな質問や、社交辞令的
なあいさつ、個人的な感想などがこれにあたる。これらの質問は本来の「受付嬢」に対してはあまり多く発せされ
るものではないが、「アクトロイド」はロボットであり、万博会場では見せ物という存在である。からかいやひやかし
も含め、その性能を試す意味でわざとプライベートな質問を投げかける可能性は高いと予想できた。（キャラクタ
ー設定については次項参照）
・
もちかけ会話の設定
快い会話にテンポの良さは欠かせない。対話の構成を対話者からの話しかけだけに設定した場合、会話のテ
ンポは対話者に多く依存することになる。初対面のロボットとの会話で、話が途切れぬように次々に話題を発す
るよう、対話者に強いるのは困難である。時にはロボットが会話の主導権を握らなければならない。
会話の中でロボット側へ会話の主導権を移行するために、ロボットから話題を持ちかけるフローを設定した。こ
れは主に、音声がうまく認識できない場合などの会話が滞る部位で発動する。話題を切り替えて、おすすめやク
イズなどの雑談をロボットから持ちかけるのである。人間の自然な会話の中でも話に詰まると別の話題を切り出
すことは話術としてあり、この手法を組み込むことで、対話の滞りを避ける配慮とした。
6-3 キャラクター設定を組み込んだセリフの効果
「アクトロイド」の表出する性格要素としては、幅広い世代で性別を問わずに好感をもたれることを考え、明るさ、
誠実さを第一に考えた。その他、話しかけやすさの演出として、完璧な職業人よりは、幾分ラフな新米的未熟さ
（天然ボケ）を加えている。
この天然ボケ設定にはもうひとつの理由がある。会話が思うように進まない事態も多く想定されるが、その場合
に「アクトロイド」自体の性格上の問題で聞き取れなかったり、はぐらかしたりしているように印象づける効果を意
図した。会話が滞ったとき、その原因が対話者にあることを明確にしてしまうと、対話そのものの不快感が増大す
る。会話不成立の原因を「アクトロイド」にすることで、少しでも対話の不快感を解消できると考えたためだ。
また人間味の演出としても効果が大きい。音声認識上で対話者の話しかけがうまく認識できなかった時、「わ
かりません、もう一度言って下さい」と言った型通りのセリフで応えた場合、聞き取れない原因を、機械的な機能
の問題と思う。また無機質で機械的な反応は不快と感じる人が多いようだ。
しかし同じ聞き返しでも「すいません、暑さでぼーっとしてました。もう一度言ってもらえますか」と言った場合、
聞き取れなかった原因を性格的なものに由来するかのようにすり替えて印象づけられる。これにより機械的故の
不快さを解消できる。もちろん対象物がロボットであることは認識しているので、正確には「ロボットのくせに人間
Ⅲ.2.4.2-27
みたいな振りをしている」と感じるはずだが、これはさらに「人間のようにふるまうロボット」のユニークさとして、好
印象へと転じる可能性も高いと考えた。
この性格設定はかなり印象が強く、「天然ボケロボット」のような異名をいただいたこともあるが、音声対話の不
成立が避けられない以上、回避要素は不可欠だった。機械的ではなく人間的なイメージを強く印象づけられた
ということでは、「天然ロボット」異名は褒め言葉であると思いたい。
この「ロボットのくせに人間のようにふるまう」行為は、対話者からの期待も大きい。前項の雑談会話でも触れた
が、興味本位で「アクトロイド」そのものへのプライベートな質問に及ぶ可能性は多く想定された。例えば、対象
がロボット（食さない存在）と知っていながら「好きな食べ物」を聞いてくる、などである。このような質問で対話者
が求めているのは、ロボットが人間的な反応をするか否かということにあり、ここでの反応により人間味のある自然
さを強く印象づけることができると考えた。
そのため、「アクトロイド」には趣味や好きな食べ物などの架空のプロフィールを細かく設定し、それに基づい
た回答を用意した。また万博というシチュエーションを踏まえ（これは万博＝クライアントへのサービスの意味合
いもある）、万博や愛知県、名古屋に偏ったコンテンツに設定した。
「ご案内役」は本来、職業人らしい美しく正しい言葉遣いに徹するところだが、人間らしさの表現のために、い
くらかラフな話し言葉や感情表現の言い回しを使用した。
Ⅲ.2.4.2-28
音声対話技術の開発
（１）研究概要
開発テーマ E-1 訪問者・来客者の自然発話の音声認識技術
音声認識用の言語モデル･辞書を開発するための学習テキストデータとして、愛知万博のドメイン
で接客・案内のタスクに絞った、受付案内ロボットに対する来客者からの呼びかけ、発話を想定
し、受付案内ロボットと来客者の対話の基本シナリオを作成した。複数名のシナリオライターに
依頼し、上記想定シナリオの各ロボット発話に対して、来客者の発話のバリエーションの作成を
行った。また、愛知万博現地作業開始後は、現場対応者からのヒヤリングを行い、シナリオおよ
び来客者発話のバリエーションの拡張を随時行った。
上記、作成したシナリオと来客者発話のバリエーションを元に、今回使用する不特定話者対応音
声認識エンジン AmiVoice の日本語言語モデル・辞書を開発した。
パビリオン名やイベント名等、実際に愛知万博に関わるキーワードは愛知万博の計画書やパンフ
レットを元に辞書を開発した。これらのキーワードは、クラスマップを用いて作成を行った。ク
ラスマップとは、あるグループに属する単語のグループ化を行う機能であり、グループ化を行う
ことにより、そのグループ（クラス）に属する単語は、前後関係などが同じになる。従って、キ
ーワードの変更や差し替え、あるいは実際の現場の来客者からの声を参考に各キーワードの出現
確率調整などへの対応を、テキストコーパスの変更なしに、可能とする。
平成 17 年 3 月 25 日の愛知万博開催以降には、実際に来客者とロボットとの対話を収録し、書き起こし
を行ったり、現地運営スタッフからの日報など報告により来場者の発話バリエーションの作成を行った。
これら書き起こし結果、発話バリエーションを反映して言語モデルを再開発することにより、より話し
言葉に適した対話が可能となった。
また、音声認識用の音響モデルを開発した。開発のために愛知万博で収録した実発話データを用
いた。収録した実発話データ対しては書き起こしを行って発話データと共に音響モデルの開発に
使用した。実発話音声データは訪問者・来客者の自然発声による音響的発話特徴や周りの雑音特
徴の情報が含まれており、その特徴を音響モデルに適応させ、音声と音響モデルとの音響ミスマ
ッチを軽減した。さらに認識エンジンのデコーダパラメータを調整し、認識性能が最良のものと
なるようにした
開発テーマ F 訪問者・来客者の発話意図確認技術
今回開発した訪問者・来客者の発話意図を確認する技術について説明する。ユーザー発話の内容だけ
では、フレーム駆動型対話制御方式により応答文を生成するための情報が足りない場合は、ユーザーの
再発話を促すような、自然な内容の発話を、現在の状態を保持するスロットと過去の発話履歴から、作
成するようにした。音声認識の信頼度が低い場合は、アクトロイドから認識した語で良いか聞き返すこ
とはせずに、ユーザーにもう一度問いかけを行ってもらえるようにした。信頼度の低い音声認識の結果
を無視し、一定時間、対話の進展がなかった場合は、ユーザーの再発話を促すような応答を行うことで、
ユーザー発話を得られるようにした。再発話に関しても信頼度が低い場合、もしくは応答文を生成する
情報が足りない場合は、現在の状態を保持するスロットと、過去の発話履歴より、当たり障りのない対
Ⅲ.2.4.2-29
話へと誘導するようにし、認識しないユーザーや、対話シナリオ外の発話を行うユーザーにも対応でき
るようにした。また、ユーザーからの問いかけの中で、
「何処」を含む文章が認識されたが、どのシナ
リオにも当てはまらない問いかけだった場合は、「場所をお尋ねですよね？知りたい物の名前をおっし
ゃってください。」と応答することにより、ユーザーに場所の名前の発話を促すようにした。
開発テーマ G 雑音環境下での音声認識技術
単一指向性マイクの選定、音響モデル開発、発話区間検出技術の開発を行った。
単一指向性マイクについては、発話者に対して最良の指向特性を持つマイクの選定を行った。発話者方
向からの音声に対する発話者方向以外の雑音抑圧性能を周波数特性から調査し、雑音パワーの最も低い
マイクを選定した。筐体の設計も考慮してアツデン社製とプリモ社製のマイクを選定した。
音響モデルに関しては、雑音環境下に特化した HMM に基づく統計的確率音響モデルの開発を行った。
音響モデルの開発に必要な音声データは、想定した万博擬似環境下で収録した。静音環境で収録された
既存の音声データベースをスピーカから再生させ、単一指向性マイクを用いて収録した。重畳された雑
音によって埋もれた音声は雑音抑圧技術によって除去した。また、ロボットの音声はエコーキャンセル
技術によって抑圧した。雑音抑圧、エコーキャンセル技術によって抑圧しきれなかった残留雑音情報は、
音声情報と共にアダプテーション技術を用いて音響モデルに適応させた。
発話区間検出技術に関しては、アドバンスト･メディアが保有する、パワー及びピッチ情報ベースの検
出技術に対して雑音環境下に適応した検出技術を開発した。主に、雑音によって平均パワーが上昇する
ために起こるパワー閾値のずれ・発話検出開始漏れ・発話終了検出ミスに対するパラメータチューニン
グを行った。
開発テーマ H, I：他国語（韓中英）の音声認識技術
他国語の音響モデル・言語モデルの開発、4 ヶ国語の言語識別技術の開発を行った。
音響モデルは４ヶ国語共通の静音環境用音響モデルをベースとして開発し、雑音環境下での音響
モデルを開発した。他国語の音響モデルの開発にもそれぞれの言語の音声データベースが必要な
ので、それぞれに対して既存の静音音声データベースを準備し、それを想定環境下で再生して収
録した。
言語モデル開発に必要な他国語テキストコーパスは、日本語のテキストコーパスを翻訳して作成
した。翻訳コーパスを元に単語 n-gram に基づく統計的確率言語モデル及びベース単語辞書を開発
した。また、辞書に未登録な単語を追加するために辞書作成モジュール(単語→音素変換技術)の
開発を行った。
言語識別技術として、キーワードによる４ヶ国語音声識別システムを開発した．各言語に対して
キーワードを決定し、そのキーワードを音声認識させて言語を決定する仕組みを構築した。音声
認識結果のスコアが最も高いキーワードの言語が識別結果となるような文法ベースのエンジンを
構築した。言語キーワードを並列に並べた文法規則をもつ識別用文法ファイルを構築し、それを
文法ベースのエンジンに適用して言語選択を行う技術を開発した。
Ⅲ.2.4.2-30
開発テーマ D,J 4 カ国語（日韓中英）の音声合成技術
4 ヶ国語（日本語、中国語、韓国語、英語）の自然な音声での音声合成を(株)エーアイに委託し、
開発した。開発した音声合成技術についお以下に説明する。
日本語はコーパスベース音声合成エンジン WizardVocie を使用し、テキスト情報より、形態素解
析、韻律予測、単位選択、波形接続を行って音声合成を行う方式で自然な音声合成を実現した。
英語・韓国語・中国語は独自の録音再生エンジンを使用し、固定フレーズ ID にてヒットさせ、該
当する音声の再生を行う技術を開発した。
運用期間中に案内情報の変更があった場合の対応策として、定期的に音声データベースを再作成
をした上で、入れ替えを行う。再作成・入れ替えを行うまでは、日本語は WizardVoice を使用し、
上記と同様の合成を行い、英語・韓国語・中国語は TTS タイプ VoiceText を使用し、テキスト情
報より合成を行う技術を開発した。
開発テーマ K 実運用時に収集した音声データ分析による音声認識精度向上技術の開発
愛知万博開始後、アクトロイドの運用を始めて、実際の対話状況の録音データが収集されたが、実際に
は想定発話とは違った様々な顧客の発話が存在した。日々収集される顧客の発話とそれに対するアクト
ロイドの反応のデータを分析して、音声認識精度の向上、対話モデルの改善を行った。
Ⅲ.2.4.2-31
（２）成果詳細
開発テーマ E-1 訪問者・来客者の自然発話の音声認識技術
E-1-1 対話向け音声認識のための言語モデル作成
E-1-1.1 はじめに
一般的な音声認識技術は「発話した言葉をそのまま文字化する」ことを目的としていることが多く、発
話者の表現（使用した単語、語調など）に対して厳密な正確さが必要となる。しかし、対話システム1で
利用する音声認識では、発話者の「言葉」をそのまま文字化するのではなく、発話者の発話「内容」を
システムがより早く認識し、適切な反応を返すことができるかが重要である。
そのため、通常の音声認識の言語モデルとは異なり、対話システムにおける音声認識では、認識結果を
内部情報としてのみ扱うこととする。
E-1-1.2 対話向け音声認識における言語モデル
(ア) 表記統一の徹底
同じ事物を表す言葉（単語）は表記（文字化したさいに使用される文字）を統一する。
一般的に音声認識における表記の統一は、意味も発音も同じだが表記が異なる表現（表記のゆ
れ）を統一する。表 1 に表記ゆれの例を示す。
表 1 表記ゆれの例
統一後の表記
車椅子
表記のゆれ
車いす
車イス
行う
行なう
おこなう
ヶ国
ケ国
ヵ国
カ国
箇国
また、表記のゆれを統一することによって以下のように効果が得られる。
・
認識結果の統一性。
どの表記が出力されるかは前後関係によって決定されるが、これは学習したコーパス
の統計情報に基づくため、一般的な使用の統計情報とは異なる可能性がある。そのた
1
音声対話」については、【開発テーマ E-2：訪問者･来客者の質問に対する応答技術（㈱アドバンスト･メディア）】およ
び【開発テーマ F：訪問者･来客者の発話意図確認技術（㈱アドバンスト･メディア）】にて詳しく述べる。
Ⅲ.2.4.2-32
め、ある時は漢字で出力され、別の時にはひらがなで出力されるなど、ユーザにとっ
て統一性のない認識結果となってします。
・
認識精度の向上。
同じ意味の表記が複数あると単語数が冗長に増加し、さらに統計情報が分散してしま
うため、認識精度が悪化する。
ここまで、一般的な音声認識技術について説明したが、対話システムにおいては、字体として
の表記のみではなく、助詞の挿入／脱落（例：複合名詞内の「の」）や接頭語の「お」の有無、
意味は同じだが単語として全く異なるもの（表記、読み、の異なりも含む）も統一し、単語の
確率値の正確性のみではなく、対話システムへの入力を統一する。
表 2 に対話システムにおける表記統一の例を示す。
表 2 対話システムにおける表記統一例
統一後の表記と読み
入場者数
実際の単語
にゅーじょーしゃ
入場者数
すー
来場者数
らいじょーしゃす
入場人数
ー
来場人数
にゅーじょーにん
人出
ずーらいじょーに
etc.
んずー
ひとで
…
北ゲート
トイレ
きたげーと
北ゲート
きたでぐち
北出口
きたぐちのげーと
北口のゲート
きたぐち
北口
…
etc.
といれ
トイレ
おてあらい
お手洗い
おといれ
おトイレ
…
etc.
NEDO パビリオ
NEDO パビリオ
ねどぱびりおん
ン
ン
ねどのぱびりおん
NEDO のパビリ
オン
Ⅲ.2.4.2-33
きつえんじょ
きつえんばしょ
喫煙所
きつえんじょー
たばこすーところ
たばこすーとこ
…
お疲れ様
喫煙所
喫煙場所
喫煙場
たばこ吸う所
タバコ吸う所
煙草吸う所
etc.
おつかれさま
お疲れさま
おつかれさまー
お疲れさまー
おつかれ
お疲れ
おつかれー
お疲れー
…
etc.
(イ) 読みにより意味が異なる単語の出力
実際に日本語では同じ表記を用いるが、別の意味を表す言葉（単語）は異なる表記を出力する。
例えば、「何人」は「ナンニン」と「ナニジン」と二通りの読み方があり、それぞれ意味が
異なる。一般に話したことを文字とする目的で音声認識を使用する場合は、いずれの場合も「何
人」と出力する。しかし、対話システムではその意図により異なる応答が必要であるため、認
識結果を区別する必要がある。
今回の愛知万博向けアクトロイドでは、
「ナンニン」の場合は、
「何人」と出力し、
「ナニジン」
の場合はカタカナで「ナニジン」と出力することにより、アクトロイドの応答を制御した。
Ⅲ.2.4.2-34
表 3 異表記での出力例
一般の音声認識出
アクトロイドの認識
力
結果
何人ですか
アクトロイドが解釈した意図
何人ですか
入場者数などを尋ねる質問
ナニジンですか
ロボットがナニジンかを尋ね
る質問
E-1-1.3 まとめ
一般的な音声認識と音声対話システムにおける音声認識とでは、その結果を参照する立場の違いから、
認識結果に求める情報も異なると考えられる。
一般的な音声認識では、「話したことを文字化」することが目的であるため、発話に忠実な表記での認
識結果が求められる。しかし、音声対話システムにおける音声認識では、その結果はあくまでシステム
内部で参照されるものであるため、その後の意図解釈、対話制御などの方式にあわせて最適な表記での
認識結果が求められる。
このように、音声対話システムにおいては、システム全体の構成を考慮した音声認識を考慮する必要が
ある。
E-1-2 想定発話と書き起こし結果による認識率の相違について
E-1-2.1 はじめに
「辞書」と「言語モデル」は認識対象文章から統計情報として学習するため、高度な音声認識を実現す
るためには、愛知万博のドメインでの接客・案内のタスクに絞った大量のテキストデータが必要となる。
しかし、愛知万博開催前の状態では、過去のデータが存在しないし、万博のように特定の大きなイベン
トでの不特定多数の来客者を対象とした音声対話システムを考える場合、開場で実際にどのような対話
が要求されるかを正確に決定することができない。
そこで、実際の来客者に近い立場であると考えられる我々が、愛知万博のドメインで接客・案内のタス
クに絞った、受付案内ロボットに対する来客者からの呼びかけ、発話を想定し、受付案内ロボットと来
客者の対話の基本シナリオを作成した。また、この基本シナリオにおいて、各ロボット発話に対しての
来客者の発話のバリエーションを複数名で作成した。さらに、愛知万博の計画書、ハンドブック、パン
フレット、旅行会社から発行されているカタログなどを入手し、
「辞書」
「言語モデル」作成の元データ
とした。
ここまでの段階では、実際の来客者（年齢性別を問わず不特定多数）との対話データは得られずに言語
モデルを作成しており、あらかじめこちらで用意した「想定発話の言語モデル」とする。
これに対し、
平成 17 年 3 月 25 日の愛知万博開催以降には、実際に来客者とロボットとの対話を収録し、
書き起こし2を行ったり、現地運営スタッフからの日報など報告により来場者の発話バリエーションの作
2
書き起こしの際には、年齢層性別など来客者の属性もデータ化する。
Ⅲ.2.4.2-35
成を行った。これら書き起こし結果、発話バリエーションを反映して言語モデルを作成することにより、
より実運用に適した対話が可能となると考えられる。この実際の対話データを利用した言語モデルを
「書き起こし結果の言語モデル」とする。
本節では、想定発話の言語モデル（以下、想定発話 LM とする）と書き起こし結果の言語モデル(以下、
書き起こし LM とする）による認識率の相違について述べる。
E-1-2.2 言語モデル作成
想定発話 LM と書き起こし LM 作成で使用したコーパスおよび辞書のサイズを表 4 に示す。想定発話
LM 作成時はコーパス量が少なかったためロボット発話も使用したが、書き起こし LM 作成時には除外
している。
表 4 想定発話 LM と書き起こし LM
想定発話 LM
コーパス
辞書サイズ
305 KB
5810 words
書き起こし LM
747 KB
6432 words
E-1-2.3 認識率
上記、「想定発話の言語モデル」および「書き起こし結果の言語モデル」を使用して、実際の来場者と
ロボットの対話を収録した音声の認識率をそれぞれ求める。ただし、使用する音響モデルは共に開催中
の来場者とロボットの対話収録データを元に作成したものを使用することとする。
Ⅲ.2.4.2-36
表 5 書き起こし結果の言語モデル作成および認識率測定に使用した対話データ
約 15 日間(2005 年 3 月下旬、4 月中
収録期間
旬)
収録場所
音声データ
量
愛知万博会場東西北各ゲート
来客者発話時間
11.1 時間 (合計)
ロボット稼動時
202.5 時間 (合計)
間3
本報告書において、認識率は
認識率 = (正解文の文字数-挿入文字数-削除文字数-間違い文字数)
/ 正解文の文字数
として求める。
表 6、表 7 に、想定発話 LM と書き起こし LM による実データの認識率を比較する。調査対象とした
来客者発話のうち約 43%に認識率の変化が見られ、このうち約 73%の認識率が向上した。
表 6 想定発話 LM と書き起こし LM の認識率
発話数
想定発話 LM
書き起こし LM
認識率
RT4
認識率
RT
3182
73.42 %
0.52
85.28 %
0.39
4 月東ゲート
7066
64.96 %
0.59
76.35 %
0.47
4 月北ゲート
6216
64.35 %
0.54
76.39 %
0.42
4 月西ゲート
2666
69.75 %
0.55
81.17 %
0.43
合計
19130
68.12 %
0.55
79.80 %
0.43
3 月 3 ゲート合
計
3
ロボット稼動時間には、ロボット発話待ち時間や来客者の入換え、外国語対応時間、写真撮影時間等も含まれる。
従って、ロボットと来客者の日本語による対話時間はこれよりも短い。
4
RT(Real Time rate)= 認識にかかった時間/音声時間
計測時に使用したコンピュータは CPU:Pentium4
2.60GHz/2.59GHz, メモリ:512MB, OS:Windows XP Pro Ver2002 SP2 である。
Ⅲ.2.4.2-37
表 7 想定発話 LM と書き起こし LM の認識率変化
調査対象来客者発話5
1913
―
―
0
認識率の変化発話数
8１34
42.52% (変化/全体)
―
認識率の向上発話数
5917
72.74% (向上/変化)
30.93% (向上/全体)
認識率の悪化発話数
2217
27.26% (悪化/変化)
11.59% (悪化/全体)
しかし、認識結果が変わっただけで意図した認識結果が得られていない場合でも認識率は変化する。従
って、音声認識結果を対話システムで使用する際には実際の認識結果文字列の向上／悪化を検討する必
要がある。
認識結果に変化があった計 8205 発話について、認識結果が「改善」
「悪化」「どちらとも言えない」の
観点で分類を行った。
・
改善
以下の場合、
想定発話 LM での認識率は 75.00%、書き起こし LM での認識率は 50.00% と
なるが、認識結果は改善していると考えられる。
・
書き起こし
「聞きたい」
想定発話 LM
「行きたい」
書き起こし LM
「聞きたいです」
悪化
以下の場合、
想定発話 LM での認識率は 52.63%、書き起こし LM での認識率は 78.95% と
なるが、認識結果は悪化していると考えられる。
・
書き起こし
「トヨタ館の方にはどう行ったら良いですか」
想定発話 LM
「トヨタ館のコーナーへどう行ってないんですか」
書き起こし LM
「カナダ館の方にはどう行ったら良いんですか」
どちらとも言えない
以下の場合、
想定発話 LM での認識率は 40.00%、書き起こし LM での認識率は 60.00% と
なるが、認識結果は変化していないと考えられる。
書き起こし
「自然の叡智」
想定発話 LM
「自然の叡智のこと」
書き起こし LM
「自然の叡智です」
表 8 想定発話 LM と書き起こし LM の認識結果の変化
認識結果変化発話数
5
8205
(42.89
―
本対話ロボットは「こんにちは」という挨拶により対話を開始します。そのため、同発話がかなり多くなっている。認識結
果調査においては、単独の「こんにちは」は発話数を減らしています。したがって実際に収録された発話数はこの数よりも
多い
Ⅲ.2.4.2-38
%)
改善
3731
45.47 %
悪化
627
7.64 %
どちらとも言えない
3847
46.89 %
E-1-2.4 考察
調査対象発話のうち、約 43%の発話（8205 発話）で認識結果に変化が見られた。さらに、このうち約
45%は改善とも悪化とも言えないものであった。改善・悪化が判断できたもののうち、85.61%が改善で
ある。
この結果より、あらかじめ適したコーパスが存在しないシチュエーションにおける音声認識においては
実運用時にデータを収集し、言語モデルを再構築していくことは有用であることがわかる。
これは、言い換えれば、事前の想定発話が不十分であったとも考えられる。今回の場合、想定発話集の
作成時に「人間に酷似した外見と動作を持つロボット」の想定が難しく、来客者がどのような内容／表
現で対話を行うかを判断しきれなかったことも原因と考えられる。
実際の来客者の発話を聞いてみるとその表現法には、
・
比較的敬語調の発話が多い
・
不要語やいいよどみが多い
・
笑いながらの発話など語頭、語尾がはっきりしない場合が多い
のような特徴が見られる。
また、発話内容については、
・
比較的有名な企業や国の施設への質問が多い
・
報道などで多く取り上げられていたと考えられる施設への質問が多い
・
報道などで実際に行われた対話に基づいた質問が多い
・
現地運営スタッフの誘導による対話が多い
と考えられる。
今回のように事前に想定発話（対話）の作成が必要な場合、上記の要因の考慮が必要であると考えられ
る。
E-1-2.5 まとめ
想定発話 LM（事前に用意した想定発話を用いて作成した言語モデル）と書き起こし LM（実際に万博
会場で収集した音声の書き起こしを用いて作成した言語モデル）による認識率／認識結果の相違につい
てまとめた。
書き起こし LM を用いることにより、全体の認識率は約 12%向上し、RT も約 0.12 改善した。また、認
識結果に変化があった発話のうち、悪化したものは 8%以下である。
この結果から、実運用時にデータを収集し、言語モデルを再構築していくことは有用であることがわか
る。
しかし、今回のようにある程度長期間使用されるシステムにおいては実運用時に収集したデータの反映
Ⅲ.2.4.2-39
が可能であったが、短期間のシステムやデータの収集が難しい場合については、事前に用意する想定発
話に精度が求められる。
このため、以下のことを考慮していくことが今後重要となると考えられる。
・
いろいろなシチュエーションでのデータを収集し、分析、分類し、データベースを充実す
る
・
システム全体の構成／入出力を早い段階で決定し、十分な事前実験を行う
・
上記、データベースを利用して適切な想定対話を構築する
E-1-3 書き起こし結果から算出した出現頻度に基づいたクラスマップのパラメータ調整と
認識率
E-1-3.1 はじめに
愛知万博開催前の段階では、前節「想定発話と書き起こし結果による認識率の相違について」で述
べたように、作成した基本シナリオと来客者発話のバリエーションを元に、日本語言語モデルの作成を
行なった。この際、パビリオン名やイベント名等、実際に愛知万博に関わるキーワードは愛知万博の計
画書やパンフレットを元に辞書を作成している。
愛知万博のドメインでの接客・案内のタスクでは、このキーワードを正しく認識することにより、ロボ
ットに適切な応答をさせることが可能となるため、キーワードの認識は重要な課題となる。
愛知万博向け音声認識用言語モデルでは、キーワードにクラスマップを用いている。本節では、クラス
マップの出現頻度調整に実際に愛知万博開場で収録した対話データを使用した場合の認識率について
述べる。
E-1-3.2 クラスマップ
クラスマップとは、あるグループに属する単語のグループ化を行う機能である。グループ化を行うこと
により、そのグループ（クラス）に属する単語は、前後関係などが同じになり、それぞれのクラスの出
現確率は、任意に設定できる。また、各クラス内に定義された各単語の確率値も任意に設定できる。従
って、キーワードの変更や差し替え、あるいは実際の現場の来客者からの声を参考に各キーワードの出
現確率調整などへの対応が、クラスマップを使用することによりテキストコーパスの変更なしに可能と
なる。
E-1-3.3 書き起こしデータにおけるキーワード出現頻度
愛知万博開催当初における言語モデルでは、任意のクラス内の各キーワードの出現頻度を基本的に均一
とし、一部の大企業、大国等、来客者からの質問が多くなると予想されるものおよび、一般単語との発
音の類似により悪影響が大きいと考えられるものを独断で選択しクラスマップの頻度を調整していた。
これに対し、愛知万博開催中のロボットと来客者の対話をもとにキーワードの出現頻度を算出しクラス
マップの頻度調整を行った。
表 9 に出現頻度算出に用いた対話データを、表 10 に算出した頻度（ただし、頻度 1 以上のもの）を示
す。
また、図 1 に出現頻度によるキーワードの分布を示す。
Ⅲ.2.4.2-40
表 9 キーワード出現頻度調査対象対話データ
収録期間
約 10 日間 (4 月中旬)
収録場所
愛知万博会場東西北各ゲー
ト
音声データ
量
6
来客者発話時間
8.8 時間 (合計)
ロボット稼働時
135 時間 (合計)
間6
ロボット稼動時間には、ロボット発話待ち時間や来客者の入換え、写真撮影時間等も含まれる。従って、ロボットと
来客者の対話時間はこれよりも短い。
Ⅲ.2.4.2-41
表 10 キーワード出現頻度（頻度 1 以上のもの）
頻度 1 以上のクラス登録語：196
頻度 0 のクラス登録語：1185 (85.8%)
class 登録語
出現回数
トヨタ館
133
マンモス
131
モリゾー
99
キッコロ
96
日本館
82
自然の叡智
64
日立グループ館
47
会場
44
おみやげ
35
ゴンドラ
33
瀬戸会場
33
西ゲート
30
見どころ
28
イベント
27
マンモスの展示
27
北ゲート
25
名古屋
24
トヨタグループ館
21
ロボットステーション
21
マンモス展示
20
グローバルハウス
19
大地の塔
19
サツキとメイの家
17
トヨタ
17
氷川きよし
17
三菱未来館
16
リニモ
14
きよし
13
ドイツ
11
観覧車
11
IMT
10
長久手日本館
10
日本
10
アメリカ館
9
Ⅲ.2.4.2-42
class 登録語
出現回数
オーロラ
9
カナダ館
9
ロシア館
9
ワカマル
9
グローバルコモン
8
テーマ
8
リニアモーターカー
8
愛知県館
8
日立
8
EXPO ドーム
7
グローバルコモン 4
7
ビール
7
アフリカ館
6
おまつり広場
6
スイス館
6
モリゾーキッコロメッセ
6
韓国館
6
東ゲート
6
万華鏡
6
EXPO ホール
5
アメリカ
5
イタリア館
5
ナショナルデー
5
モリゾーゴンドラ
5
愛知
5
企業パビリオン
5
喫煙所
5
JR 東海超電導リニア館
4
オーストラリア館
4
ガスパビリオン炎のマジックシ
アター
4
キッコロゴンドラ
4
グローバルコモン 3
4
シンガポール館
4
スイッピー
4
ドイツ
4
ベルギー館
4
ヨルダン館
4
Ⅲ.2.4.2-43
class 登録語
出現回数
ルーマニア館
4
わんパク宝島
4
閉園時間
4
北海道
4
夢みる山
4
郵便局
4
冷凍マンモス
4
アイルランド館
3
インドネシア館
3
エキスポ
3
ショップ
3
トトロ
3
トラム
3
ヨーロッパ
3
リニア
3
ルーマニア
3
営業時間
3
三井東芝館
3
石井竜也
3
仙台
3
大阪
3
長久手会場
3
奈良
3
日本庭園
3
JR 東海
2
アジア
2
アルソックガードロボアイ
2
イギリス館
2
ウクライナ
2
オーストリア館
2
お寿司
2
カメルーン
2
コインロッカー
2
トルコ
2
バス乗り場
2
パペロ
2
パロ
2
ベトナム
2
Ⅲ.2.4.2-44
class 登録語
出現回数
まつり
2
マリ共和国
2
ムジロー
2
メキシコ館
2
ヨーロッパ館
2
ワンダーサーカス
2
ワンダーサーカス電力館
2
ワンダーホイール展覧車
2
愛地球広場
2
茨城県
2
夏川りみ
2
開催期間
2
休憩所
2
佐賀県
2
山車
2
瀬戸日本館
2
地球市民村
2
中国館
2
長崎
2
長野
2
電力館
2
東京
2
東芝館
2
ATM
1
NEDO
1
NEDO パビリオン
1
アクトロイド
1
イエメン
1
イタリア
1
インドネシア
1
エコ
1
オーストラリア
1
オランダ館
1
ガイドブック
1
キノ
1
グローバルコモン 2
1
グローバルトラム
1
グローバルハーモニーコンサー
1
Ⅲ.2.4.2-45
class 登録語
出現回数
ト
グローバルループ
1
こいの池のイベント
1
シンガポール
1
スペイン館
1
チェコ
1
トルコ館
1
はがき
1
フランス館
1
ブルガリア館
1
ブルキナファソ
1
ベビーセンター
1
ポルトガル館
1
マスコット
1
メイ
1
リニア館
1
ワンダーホイール
1
茨城
1
横浜
1
関東
1
休む所
1
京都
1
金のしゃちほこ
1
銀行
1
九州
1
札幌
1
三菱
1
鹿児島
1
車いす
1
手荷物一時預かり
1
水戸
1
水戸市
1
瀬戸市
1
正式名称
1
静岡
1
宅配便
1
中国
1
中部千年共生村
1
Ⅲ.2.4.2-46
class 登録語
出現回数
長久手
1
長野県
1
展覧車
1
藤井フミヤ
1
日本ゾーン
1
飛行船
1
富山県
1
兵庫県
1
豊田市
1
忘れ物
1
名古屋市
1
遊びと参加ゾーン
1
キーワード出現頻度
60
1185
キーワード数
50
64
40
30
20
10
0
上
0以
10 99
～
90 89
～
80 79
～
70 69
～
60 59
～
50 49
～
40 39
～
30 29
～
20 19
～
15 14
～
10
9
8
7
6
5
4
3
2
1
0
頻度
図 1 キーワード出現頻度分布
キーワードの出現頻度を見ると、総キーワード（1381 語）のうち約 85.8%(1185 語)が来客者によって
発話されていないこと。来客者が情報を要求するキーワード（パビリオン名、国名、企業名など）には
かなりの偏りがあることがわかった。このことからも、言語モデルにおいて、各キーワードの出現頻度
を実データに基づいて設定することは有効であると考えられる。
E-1-3.4 言語モデルへの適用
本対話ロボットの音声認識においては、キーワードを「国名」
「パビリオン名」
「人名」
「事物名」
「マス
コット名」５つのクラスに分けて登録している7。
7
クラスマップはキーワードの前後の単語を制御するものであるため、クラス名にとらわれず登録している。このため、一つ
Ⅲ.2.4.2-47
調査対象とした対話データでは一度も発話されていないキーワードについては出現頻度を１とし、出現
していたものは出現数×100 を出現頻度とした。ただし、出現数が突出しているキーワードは各クラス
内で上限を定めて設定した。
E-1-2.5 クラスマップ頻度調整前後の認識率
愛知万博で収録した実際の対話の書き起こし結果を元に作成した言語モデル8と、同言語モデルのクラス
マップ頻度情報にキーワード出現頻度を適用した言語モデルとの認識率の比較を行った。
表 11 に認識率測定に使用した対話データを示す。
表 11 認識率測定に使用した対話データ
収録期間
約 15 日間(2005 年 3 月下旬、4 月中旬)
収録場所
愛知万博会場東西北各ゲート
音声データ
量
来客者発話時間
11.1 時間 (合計)
ロボット稼動時
202.5 時間 (合計)
間9
本報告書において、認識率は
認識率 = (正解文の文字数-挿入文字数-削除文字数-間違い文字数)
/ 正解文の文字数
として求める。
表 12 にキーワード出現頻度適用前後の認識率を、表 13 に適用前後の認識率変化を示す。調査対象と
した来客者発話のうち約 6.7% に認識率の変化が見られ、このうち約 72% の認識率が向上した。
表 12 クラスマップ頻度適用前後の認識率
発話数
調整前
調整後
認識率
RT10
認識率
RT
3182
85.28 %
0.39
85.80 %
0.38
4 月東ゲート
7066
76.35 %
0.47
78.48 %
0.45
4 月北ゲート
6216
76.39 %
0.42
78.02 %
0.41
3 月 3 ゲート合
計
のキーワードを複数のクラスに登録している場合もある。また、キーワード以外にも「地名」などいくつかのクラスを使用して
いる。
8
前節「想定発話と書き起こし結果による認識率の相違について」で「書き起こし LM」としていたもの。
9
ロボット稼動時間には、ロボット発話待ち時間や来客者の入換え、外国語対応時間、写真撮影時間等も含まれる。
従って、ロボットと来客者の日本語による対話時間はこれよりも短い。
10
RT(Real Time rate)= 認識にかかった時間/音声時間
計測時に使用したコンピュータは CPU:Pentium4
2.60GHz/2.59GHz, メモリ:512MB, OS:Windows XP Pro Ver2002 SP2 である。
Ⅲ.2.4.2-48
4 月西ゲート
2666
81.17 %
0.43
83.19 %
0.42
合計
19130
79.80 %
0.43
81.37 %
0.42
表 13 クラスマップ頻度適用前後の認識率変化
調査対象来客者発話
19130
―
―
認識率の変化発話数
1286
6.72% (変化/全体)
―
認識率の向上発話数
921
71.62% (向上/変化)
4.81% (向上/全体)
認識率の悪化発話数
365
28.38% (悪化/変化)
1.91% (悪化/全体)
11
認識結果に変化があった計 1292 発話について、認識結果が「改善」
「悪化」「どちらとも言えない」の
観点で分類を行った。
・
改善
以下の場合、調整前 LM での認識率は 28.57%、調整後 LM での認識率は 0.00% となるり、
悪化している。しかし、調整前 LM の認識結果は意味をなさないが、調整後 LM の認識結果
からは「こんばんは」という挨拶が取れるため、認識結果を比較すると改善していると考
えられる。
・
書き起こし
「はいこんばんは」
調整前 LM
「はい孫いる言語は」
調整後 LM
「はいこんにちはこんばんはです」
悪化
以下の場合、調整前 LM での認識率は 96.15%、調整後 LM での認識率は 88.46% となる。今
回の調査対象中に、認識率は向上しているが、認識結果は悪化している逆転現象はみられ
なかった。
・
書き起こし
「ちょっと聞いて見たいですがお姉さんは知らないのですか」
調整前 LM
「ちょっと聞いて見たいんですがお姉さんは知らないのですか」
調整後 LM
「ちょっと聞いて見たいんですがお姉さんは死なないのですか」
どちらとも言えない
以下の場合、調整前 LM での認識率は 90.00%、調整後 LM での認識率は１00% となり、認
識率は向上している。しかし、認識結果は変化していないと考えられる。
11
書き起こし
「メアドを教えて下さい」
調整前 LM
「メアド教えて下さい」
調整後 LM
「メアドを教えて下さい」
本対話ロボットは「こんにちは」という挨拶により対話を開始する。そのため、同発話がかなり多くなっている。認識結
果調査においては、単独の「こんにちは」は発話数を減らしている。したがって実際に収録された発話数はこの数よりも
多い。
Ⅲ.2.4.2-49
表 14 に結果を示す。
表 14 クラスマップ頻度適用前後の認識結果の変化
―
認識結果変化発話数
1292
改善
660
51.08 %
悪化
95
7.35 %
どちらとも言えない
537
41.56 %
(6.75%)
E-1-2.6 考察
今回調査対象とした発話のうち、約 6.8%の発話 (1292 発話) で認識結果に変化が見られた。さらに、
このうち約 41.56% は改善とも悪化ともいえないものであった。改善・悪化が判断できたもののうち、
約 87% (調査対象発話全体に対しては 3.45%である) が改善である。
上記のように、書き起こし結果から算出した出現頻度に基づいてクラスマップのパラメータ調整を行う
ことにより、認識結果に向上が見られた。しかし、その発話数はあまり多くない。これは、書き起こし
結果から算出した出現頻度による調整前のクラスマップパラメータの設定においても、現地運営スタッ
フからの日報などを元に出現頻度を調整していたことが要因の一つと考えられる。
また、今回の調査では、実際の出現頻度 0 の場合は 1、1 以上の場合は 100 倍として線形に調整したが、
さまざまな倍率、正規化法を用いて実験する必要があると考えられる。
E-1-2.7 まとめ
書き起こし結果を使用しない愛知万博開催当初の言語モデル（キーワードの出現頻度を基本的に均一と
し、一部の大企業、大国等、来客者からの質問が多くなると予想されるものおよび、一般単語との発音
の類似により悪影響が大きいと考えられるものを独断で選択しクラスマップの頻度を調整を行ったも
の：調整前 LM）と、愛知万博開催中のロボットと来客者の対話をもとにキーワードの出現頻度を算出
しクラスマップの頻度調整を行った言語モデル（調整後 LM）による認識率／認識結果の相違について
まとめた。
書き起こし結果から算出した出現頻度を用いることにより全体の認識率は約 6.7% 向上した。また認識
結果に変化があった発話のうち、悪化したものは 7.4%以下であった。
この結果から、実運用時にデータを収集し、言語モデルを再構築していくことは有用であることがわか
る。
しかし、今回のようにある程度長期間使用されるシステムにおいては実運用時に収集したデータの反映
が可能であったが、短期間のシステムやデータの収集が難しい場合については、事前に用意する想定発
話に精度が求められる。
このため、以下のことを考慮していくことが今後重要となると考えられる。
・
いろいろなシチュエーションでのデータを収集し、分析、分類し、データベースを充実す
る
・
システム全体の構成／入出力を早い段階で決定し、十分な事前実験を行う
・
上記、データベースを利用して適切な想定対話を構築する
Ⅲ.2.4.2-50
特に、適切なキーワード出現頻度を算出するためには、事前実験において大量のデータを収集する必要
があり、キーワードの概念／性質分類なども必要になることが考えられる。
E-1-4 来客者音声における自然音声に特化した音響モデル
E-1-4.1 はじめに
万博会場においてのアクトロイド対話システムにおける音声認識性能向上を目的として自然発話に特
化した音響モデルの構築を行った。音響モデルの構築は実際の来客者とアクトロイドとの対話音声を用
いて行った。
E-1-4.2 作業手順
以下の手順で作業を行った。
１．収録音声の書き起こし
収録した来客者音声の発話内容を書き起こした。
２．音響モデルの構築
来客者音声とその発話内容を元に音響モデルの構築を行った。音響モデルの構築は、AmiVoice
の開発元である Multimodal Technologies, Inc.(MTI) に依頼した．
３．認識エンジンのパラメータ調整
音響モデルを認識エンジンに組み込み、認識性能が最良になるように探索パラメータの調整
を行った。
E-1-4.3 送付物及び構築物
MTI へ送付したもの及び MTI から受領したものを以下に載せる。
[送付物]
・来客者音声データと書き起こしテキスト
日本語 163 分
英語
86 分
中国語 62 分
韓国語 18 分
[受領物]
・音響モデル一式(エンジン組み込み用 xml 文書含む)
E-1-4.4 認識性能
受領した音響モデルをエンジンに組み込んだ自然発話特化認識エンジンの認識性能を以下に載せる。比
較対象として、万博環境を想定した読み上げ音声に特化した音響モデルを組み込んだ読み上げ特化認識
エンジンの性能も載せた。（ただし、このエンジンは言語モデルや識別エンジンも多少異なるものを使
用しているので厳密な音響モデルとしての比較結果ではない）
Ⅲ.2.4.2-51
表 15 自然発話特化認識エンジン性能(文字認識率)
日本語
英語
中国語
韓国語
読み上げ音声特化
認識エンジン
自然発話特化
認識エンジン
40.1%
30.8%
13.9%
27.5%
72.5%
65.8%
62.1%
69.0%
表 16 自然発話特化認識エンジン性能(言語識別率)
日本語
英語
中国語
韓国語
読み上げ音声特化
認識エンジン
自然発話特化
認識エンジン
88.3%
33.5%
72.1%
92.7%
92.0%
86.6%
92.0%
95.8%
Ⅲ.2.4.2-52
表 17 自然発話特化認識エンジン性能(Real-Time Rate*)
日本語
英語
中国語
韓国語
読み上げ音声特化
認識エンジン
自然発話特化
認識エンジン
0.72
0.80
0.97
0.78
0.46
0.53
0.53
0.53
(*) 発話時間に対する認識時間の割合
E-1-4.5 まとめ
自然発話に特化した音響モデルの構築を行った。万博会場での来客者とアクトロイドとの対話音声とそ
の書き起こしテキストを用いて音響モデルを構築し、認識エンジンに組み込んだ。構築したエンジンは
構築前の（読み上げ音声かつ想定万博環境に特化した）認識エンジンに比べて高い性能を算出している。
Ⅲ.2.4.2-53
開発テーマ E-2 訪問者･来客者の質問に対する応答技術
概要
質問応答技術にはキーワード・アクションテーブルを用いたフレーム駆動型対話制御方式を用い
た。キーワードテーブルの項目として以下を用意した。
「キーワード、現在の話題、イベント、現在話している言語、設置場所」
これらの状態を保持して、現在の状態よりキーワードテーブルを検索して応答のアクションを生
成する。アクションは以下の項目から定義されるアクションテーブルより検索を行う。
「応答フレーズ、動作番号、次話題、認識辞書」
キーワードテーブルの検索の優先順位としては、話題・キーワードがともに合致しているものを
一番適切な応答とし、片方しか合致しなかった場合、キーワードに合致したものを次に適切な応
答とした。応答したアクションは、応答履歴に記録され、何度も同じ応答を連続して行わないよ
うにした。今回は、現地での来客者の発話内容を元に、キーワードを追加し、より多くのいい回
しにも対応できるようにした。方位マイクについては、風の吹き込みを人の音声に誤った判断を
してしまうため今回はこれのイベントをトリガーとして使用することを見送った。
E-2-1 全般
アプリケーション名：対話制御プログラム
バイナリ名：AmiNEDO.exe
開発／動作 OS：Microsoft WindowsXP
開発言語：Microsoft VisualStudio VC++6.0
データベース：SQLserver（MSDE）
音声認識エンジン：最新バージョンの AmiVoiceDSR
使用するエンジンモード：AmiDictationNEDO
Ⅲ.2.4.2-54
E-2-2 システム概要
このプログラム設計書は、以下の図の「対話制御」部分のプログラム設計書である。
通信制
御
TPCO
外部装置
通知
対話制御
M
セリフ
音声
音声認識
認識結果
アンドロイド
アンドロイド
制御
AmiNEDO.ex
e
応答
Voice.exe
セリフ
DSR サーバが２セット
(上マイク用と下マイク用の 2
つ)
音声合成
E-2-3 機能概要
・人感センサーにて来訪者を認識し、来訪者に対して問いかけを行う。
・音声認識にて来訪者の発話を認識し、来訪者の問いかけに対して応答を行う。
・アンドロイド制御プログラムへ、リクエストを送る。（リクエスト送信は、通信 ActiveX を使用）
・方位マイクにて来訪者を認識し、来訪者に対して問いかけを行う。
Ⅲ.2.4.2-55
E-2-4 状態の遷移
起動処理
タイムアウト
状態：START
日本語認識
言語識別開始
人感センサー
音声入力開始
人感センサー
音声入力終了
日、韓、中、
英
でそれぞれ
応答待ち
音声入力開始
シナリオ終了
Ⅲ.2.4.2-56
方位マイク感知
E-2-5 アクトロイド制御との通信
E-2-5.1 アクトロイド制御（Voice.exe）との通信フロー
タイマー
対話制御
ユーザ発
アクトロイド制
TTS 再生
A:聴く姿勢 S:こんにちは
アクトロイド応
答待ちタイマー
A:お辞儀 S:こんにちは… W
ユーザー発言不可
こんにちは。私は
会場のご案内をし
ています。どうぞ
質問して下さい
発言終了ユーザー発話待
ちタイマー
タイムアウト
アクトロイド応
答待ちタイマー
綺麗ですね
A:はっとして S:あ、ごめんな
あ、ごめんなさい
つい“きよしさん”
のこと考えてぼー
っとしちゃ…
ユーザー発言不可
発言終了
無
A:聴く姿勢 S:ユーザー発話待
ちタイマー
綺麗ですね
A:よろこび S:うれしい！…
アクトロイド応
答待ちタイマー
うれしい！サービ
スしちゃおうか
な！
ユーザー発言不可
発言終了
送信内容 (A：動作 S：再生音 W：割込 )
Ⅲ.2.4.2-57
E-2-5.2 DSR 制御フロー
DSR1
DSR2
PAUSE
Utterance start
Utterance start
先に Utterance start があっ
た DSRCOM を有効としま
す。
VOID
OnCreated
OnCreated
認識開始
VOID
Utterance end
PAUSE
Utterance end
VOID
RESUME
Accept/Reject
DSR1 が有効になっているの
で、ロックが解除されるまです
べてのイベントを無効とします
RESUME
Accept/Reject
VOID
認識終了後は、双方が有効に
なります
PAUSE
Utterance start
Ⅲ.2.4.2-58
E-2-5.3 ステータスの遷移
ACTROID の動作
AMINEDO の状態
START
SPEAK1
(ScenarioID=AA6)
私は、4 ヶ国語で・・・・・
Timmer
FIRST
SPEAK2
(ScenarioID=XXX)
こんにちは、ご質問ですが・・・・・
Timmer
SECOND
SPEAK2
(ScenarioID=XXX)
（シナリオ）・・・・・
Timmer
SPEAK1：待機中シナリオ
SPEAK2：通常シナリオ
SPEAK3：EA10（お礼シナリオ）
SPEAK4：EA1（シナリオ終了）
SPEAK5：SC3（写真のポーズ）
Ⅲ.2.4.2-59
・E-2-6 画面仕様
21
６
22
１
２
３
11
12
13
14
４
15
５
10
8
16
9
17
NO
1
2
3
4
5
6
属性名
タイトルバー
EDITBOX
EDITBOX
EDITBOX
EDITBOX
LISTVIEW
7
BUTTON
8
9
10
AmiVoice DSR Client
AmiVoice DSR Client
EDITBOX
11
12
13
14
15
16
17
18
19
20
21
EDITBOX
EDITBOX
EDITBOX
EDITBOX
EDITBOX
EDITBOX
EDITBOX
COMBOBOX
EDITBOX
COMBOBOX
CHECKBUTTON
22
23
24
25
26
CHECKBUTTON
CHECKBUTTON
CHECKBUTTON
EDITBOX
BUTTON
18
25
20
19
７
26
詳細
アクトロイドが現在発話している内容を表示
現在のステータスを表示
次の状態を表示
応答を待っているコマンド ID を表示
センサーの状態を表示
ログを表示します
一定以上ログがたまった場合には、表示されているログを初期化しま
す（ファイルにも随時ログを出力します）
『終了しますか［はい］［いいえ］』を表示し、『はい』だったらアプリを終
了する
DSR（上のマイク認識用）
DSR（下のマイク認識用）
アクトロイドから最後に受信したコマンド ID を表示。処理対象外の受信
データは無視されます。
現在処理を完了したアクション種別を表示
アクティブな方位マイクを表示
アクティブな COM コンポーネント種別を表示
現在のデフォルト言語を表示
ユーザー発話待ちタイマー発動の有無
アクトロイド応答待ちタイマー発動の有無
現在有効な DSR COM の種別
送受信で使用する文字コードの選択
認識結果
認識モードの設定
アプリ一時停止状態の ON／OFF ボタン
認識一時停止状態の ON／OFF ボタン
認識一時停止中のデバッグボタン（動作コマ送り）
認識一時停止中のデバッグボタン（動作キャンセル）
検索で HIT した正規表現文字列
強制アクセプトイベント発行ボタン
Ⅲ.2.4.2-60
23
24
備考
電源管理ア
プリと連動
デバック用
デバック用
デバック用
デバック用
デバック用
開発テーマ F 訪問者・来客者の発話意図確認技術
F-1 正規表現の作成方法について
F-1-1 はじめに
本システムでは、ユーザー発話の音声認識の結果より、発話意図を抽出する手段として、正規表現によ
るパターンマッチングを使用している。本稿では正規表現の作成方法についてと、注意点について記述
する。
F-1-2 正規表現の作成方法について
正規表現の作成は、以下のような方法で行った。
１．想定発話より、キーワードとなる単語（主に名詞）を抽出する。
２．想定発話の助詞は、ワイルドカードに置き換える。
３．他の正規表現との競合に関して調整を行う。（後述）
４．正規表現の記述順序を調整しながら、想定発話から単語を削ったものを追加（後述）
（例）
■想定発話
「イギリスのパビリオンは何処ですか？」
■正規表現
「イギリス.*パビリオン|イギリス」※１
※１：正規表現の文法に関しては、付録参照
F-1-3 正規表現の競合について
発話意図の抽出には、正規表現によるパターンマッチングを使用している。ただし、単純に正規表現に
一致したシナリオを実行する方法だと、1 つの認識結果に対して、複数の正規表現が一致してしまうこ
とがある。
（例１）1 つの認識結果に複数の正規表現が一致する例
■認識結果
「イタリアのパビリオンは何処ですか」
■一致する正規表現
１．「パビリオン」
２．「イタリア.*パビリオン|イタリア」
３．「何処」
本システムでは、このように複数の正規表現が一致した場合は、「一致した文字列が一番長い」正規
Ⅲ.2.4.2-61
表現のシナリオを実行する仕様になっている。
（例１）の結果を見てみると、
正規表現
一致部分
一致した文字数
パビリオン
パビリオン
５文字
イタリア.*パビリオン|イタリア
イタリアのパビリオン
１０文字
何処
何処
２文字
上記のように、正規表現「イタリア.*パビリオン|イタリア」が、一致した文字列が一番長いので、「イ
タリア.*パビリオン|イタリア」のシナリオが採用される。
正規表現を作成する時には、上記の仕様について留意する必要がある。
F-1-4 正規表現の記述順序について
本システムで使用している正規表現エンジンは、
「VBScript RegExp」である。このエンジンでは、
１つの正規表現の中に一致する条件分が複数記述されていた場合、一番最初の条件で一致した文字列が、
一致文字列として返される。
（例１）一致する条件が複数ある例
■認識結果
「アメリカのパビリオン」
正規表現
一致した文字列
文字数
アメリカ|アメリカ.*パビリオン
アメリカ
4
パビリオン.*説明|パビリオン
パビリオン
5
「アメリカ」と「アメリカのパビリオ
上記の例では、
「アメリカ|アメリカ.*パビリオン」の正規表現が、
ン」で一致する可能性がある。しかし、１つの正規表現の中で複数一致した場合は、一番最初に一致し
た文字列が採用されるので、「アメリカ」が一致文字列として採用される。
上記の例では、
「パビリオン.*説明|パビリオン」のシナリオのほうが一致文字列が多いため、
「アメリカ
|アメリカ.*パビリオン」のシナリオが実行されない。
この認識結果の時の応答シナリオとして、「アメリカ|アメリカ.*パビリオン」が正解である場合は、正
規表現を「アメリカ.*パビリオン|パビリオン」と修正する必要がある。
F-1-5 部分一致の回避
想定発話の単語が短い場合、特に外国語では、正規表現が他の単語に部分一致してしまうことがある。
（例）部分一致の例
■認識結果
「noodles」
Ⅲ.2.4.2-62
■正規表現
「no」
上記の例では、正規表現「no」が、認識結果「noodles」の最初の 2 文字に一致してしまっている。
この問題を回避するために、本システムでは、認識結果の両脇に「」
（半角スペース）を自動的に付与
している。これを利用して、正規表現で記述する単語にも、「」（半角スペース）を付与することによ
り、部分一致を回避することが出来る。
（例）部分一致回避の例
■認識結果
「 noodles 」
■正規表現
「 no 」
上記のように、「no」の後に半角スペースがあるため、「noodles」の先頭２文字に「no」が一致するこ
とは無くなる。
F-1-6 本稿で使用している正規表現について
本稿で使用した、正規表現の文法（メタ文字）は以下の通りである。
正規表現のメタ文字
意味
.
任意の 1 文字
*
直前の文字を任意の回数繰り返し
|
OR 条件
F-2 聞き返しについて
F-2-1 はじめに
本システムでは、挨拶を受け付け、使用言語が決定した後、質問の発話を促すガイダンスを行っている。
最初は「こんにちは私は会場のご案内をしています、質問して下さい。」というガイダンスを行い、こ
のガイダンスに対するユーザー発話がシステムで処理できない場合は、
「ごめんなさい周りがうるさく
聞こえないです。もう一度お願いします。」のように、もう一度ユーザー発話を促すようなガイダンス
を行う。
しかし、このガイダンスではユーザーは前回と同じ言い回しで発話を行い、前回と同じ認識結果になり、
そのためシステムで処理できない可能性が高いと考えた。
そこで、ユーザー発話が場所を問い合わせていると判断できた場合には、
「場所をお尋ねですよね？す
いません、もう一度、知りたいものの名前をおっしゃって下さい」のように、場所のみの発話を促すよ
うなガイダンスを行い、有効なユーザー発話が得られるか調査を行った。
Ⅲ.2.4.2-63
F-2-2 実験方法
1. 東、西、北の各ゲートで、ユーザー発話に「何処」が含まれていて、具体的な場所の名前が認識
できなかった場合に、「場所をお尋ねですよね？すいません、もう一度、知りたいものの名前をお
っしゃって下さい」というガイダンスを行うシナリオを導入する。
（対象となるユーザー発話の例）
「それは何処ですか」、
「あー、何処」、「何処ですか」
2. 「場所をお尋ねですよね？すいません、もう一度、知りたいものの名前をおっしゃって下さい」
のガイダンスが行われた後のユーザー発話を確認し、音声認識結果として場所が得られているかを
確認した。
3. 西ゲートの 2005 年 8 月 6 日～2005 年 9 月 25 日の間の、58572 発話について、集計を行った。
4. 2005 年 3 月 25 日～2005 年 8 月 5 日の間の、聞き返し処理を入れていない期間に関しては、集
計用のログを出力していなかったため、集計を行っていない。
F-2-3 実験結果
全発話数：58572
聞き返しが行われた回数：711
以下は、聞き返し後のユーザー発話の内訳
・場所が認識された回数：238
・違う話題など場所以外が認識された回数：399
・対話不成立（システムが応答できない認識結果だった）回数：74
表 18 聞き返し後のユーザー発話内訳
対話成立(%)
89.6％
（場所発話＋その他話題）
対話不成立(%)
10.4％
表 19 対話成立の中の、場所認識確率
場所発話(%)
37.4％
その他話題(%)
62.6％
聞き返し後、場所以外の話題についてのユーザー発話が多数見られる（年齢やお勧めネタなど）。
それらは聞き返しを行うためのキーである、「何処」の認識自体が誤認識である可能性が高い。
聞き返し後の、対話不成立は全体の 10％なので、聞き返しを行うことによる、システムが応答可
能なユーザー発話への誘導が、有効であると予想できる。（聞き返し未実装の状態の、対話不成立
率を測定していないため断定は出来ない）
Ⅲ.2.4.2-64
F-3 会場・社内アンケート収集・分析
F-3-1 はじめに
本節では愛知万博に設置された受付案内ロボットの日本語対話処理部分に対して愛知万博開催前の事
前対話実験および開催中に実際に来客者へのアンケートについてまとめる。なお、事前実験時にはロボ
ット筺体とは未接続であり、筺体自体の設置もしていない。そのため、マイクとスピーカのみの対話シ
ステムでの実験となった。
F-3-2 対話の流れ
本システムでの対話の流れを簡単に説明する。
待受
来客者発話：こんにちは
言語識別
各言語において対話
対話内容、流れは基本的に言語によらず同じ
来客者（被験者）からの質問、ロボッ
トからのお勧め、クイズなどによる対
話
ロボット発話：次の方ど
F-3-3 事前実験
日本語対話処理部分の事前実験についてまとめる。ロボットの動作および英語・中国語・韓国語は対象
としない。ただし、言語識別機能は組み込まれているため、誤認識により、他言語に切り替わってしま
う現象は発生していた。
（1）実験概要
表 20 に実験の概要を示す。
表 20 実験概要
被験者
ロボットが対応できるシナリオを知らない人
2 つのグループに分ける
グループ A：案内を求める
Ⅲ.2.4.2-65
(男 3／女 2)
10 名
グループ B：自由に話しかける (男 2／女 3)
各人 30 分程度システムと対話を繰り返し続けてもらう
実施日
2005 年 2 月 25 日
教示
愛知万博の案内(公式ハンディブック[1]、旅行会社のパ
ンフレット[2])
本システムの置かれる場所・状況の説明
グループ A：案内して欲しいことをあらかじめ考えても
らう
グループ B：とりあえず話しかけてもらう
実験環境
ノイズを再生した、実際の環境のダミー
音声録音
なし
アンケー
実験直後アンケートを行う
ト
実験者
実験に立会い、対応すべき点などは適時メモしていくこ
と
表 21 被験者情報
性別
年代
人数
万博への興味
グループ
男
20 代後半
3名
1 名無／2 名有
A
女
20 代後半
1名
有
30 代前半
1名
有
20 代前半
1名
有
20 代後半
1名
有
30 代前半
2名
有
40 代
1名
有
グループ
男
B
女
（2）アンケート結果集計
実験前の教示によって、グループを A、B と 2 つに分けていた。しかし、ロボットに聞きたい・話
したい内容は両グループ共通してパビリオンの情報やパビリオンや各施設の場所などの質問であ
った。
また、各人 30 分程度ずつ、何度も対話を繰り返してもらったため、通してみると実際の対話内容
も同じような傾向がみられた。そのため、集計において特にグループ区別はしない。
表 22 アンケート結果／コメント集計
項目
アンケート結果／コメント
聞きたかったこと
何が何処にあるか
話したかったこと
トイレ、ショップ
時間、場所、交通方法等
パビリオンや施設の場所
Ⅲ.2.4.2-66
項目
アンケート結果／コメント
国のパビリオンの簡単な特色とか、、レストランの種類とか、、
よくわからなかった。（ロボットと話す内容、思いつかない）
場所を尋ねる
パビリオンの場所
解決したか
楽しめたか
Y7名
時間や最寄駅以外は大体解決
N3名
インフォメーション頼りが多い
Y9名
面白い
ちょっとした会話が良い
結構面白い、なかなか良い
N1名
また話してみたいか
Y9名
実物を見てみたい
どんな風に答えるのかが楽しみなので、また話したい
N1名
良かったところ
半分ぐらいは求めていた答えが返ってきた
だまっていてもしゃべってくれている
パビリオンの説明
日本語以外の対応
会話がやわらかい
親しみやすい
会話の親しみさ
「まだ勉強不足でごめんなさい！」というコメントがかわいい
話し方がやさしい感じで良かった
地名、単語に反応してくれるのが良い。シンプルでわかりやすい
挨拶＆質問一つで終わるのが歯切れ良いかも
細かく説明してくれている点
反応が敏感
うまく会話が成立した時は面白かった
悪かったところ
たまに意味不明
声を大きくしないと、エラーになる時がある
ロボットの声が聞き取りにくかった
大きな声を出さないと反応しない
細かい場所を教えてくれない
はじめどんな風な事を聞いていいか少し迷う
話しかけてから、答えがくるまで時間がかかる
ロボットの顔が少しこわい
トイレやレストランなどの場所などの案内があれば良いと思います
話しかけても答えが返ってこない時は、少し気恥ずかしいかもし
れません
Ⅲ.2.4.2-67
項目
ご意見・ご感想
アンケート結果／コメント
実際に興味が出ました。面白かったです
いろんなロボットと話せたら楽しいと思います
ちょっとしたことで、このロボットの印象が後で残ると思います
とても楽しかった。行ってみたくなった
行ってみたい
（3）考察・課題
全体的にロボットに聞きたいこと、ロボットと話したいことは、パビリオン／施設などの場所
が多く、システムからの提案を促すことはあまり見られなかった。ただ、10 名中 1 名はロボ
ットと何を話していいのか思いつかないと答えていた。これは、機械に向かって話しかけるこ
とへの抵抗や戸惑いとも考えられる。「何でも話して良い」といわれても実際には話し難いも
のであり、いかに使用者に抵抗なく使用してもらうかは対話システム全体への課題である。
F-3-4 現地アンケート
愛知万博会場において、実際にアクトロイドと対話を行った来客者にアンケートを行った。主に対話部
分に関してのアンケートであるが、事前実験とは異なりアクトロイドとの対話であるため、アクトロイ
ド全体に対する評価となる。
（1）アンケート概要
アンケートは、対話を行った来客者に趣旨を説明した上で少し離れた場所でのインタビュー形
式とした。表 23 にアンケートの概要を示す。
表 23 現地アンケート概要
場所
愛知万博会場各ゲートアクトロイド前
対象
アクトロイドと対話を行った来客者 (71 組)
アンケート実施
7 月中旬・8 月上旬
日
アンケート項目
満足できたか
将来役にたちそうか
もっと話してみたいか
その他感じたこと
その他
① 実験者の主観でいくつかの情報を残す
目的
楽しめているか
会話が成立したか
来客者グループ構成
Ⅲ.2.4.2-68
年齢層
② すべての来客者（組）に対してすべての項目の結果
は得られていない
（2）アンケート結果集計
合計 71 組のグループにアンケートを行った。アンケート各項目について結果集計を表に示す。
まず、表 24 にアンケートの対象となった来客者の性別と年齢層を示す。グループの構成は家族連
れ、年配の友人同士が多くみられた。
表 24 アンケート対象者の性別・年齢層（計 56 組）12
年齢層
男性
女性
合計
子供
－
－
15
10 代
4
8
12
20 代
3
12
15
30 代
10
9
19
40 代
5
1
6
50 代
6
8
14
60 代
3
17
20
70 代
1
7
8
80 代
3
2
5
合計
35
64
114
表 25 表 26 にアンケート各項目の採点結果の集計を示す。ここでは、肯定的な意見を 100 点、否
定的な意見（同右端）を 0 点として集計している13。また、アンケートに答えていただいた来客者
全員に各項目点数をつけてもらっていないため、採点に参加したグループ数も併せて記載している。
「満足できたか」の設問には、平均約 74 点が付いており、実験者から見た主観評価の「楽しめて
いるか」では、平均 81 点が付けられている。会話の目的を見ると、情報収集のために対話を行っ
たグループは少なく、ロボットに対する興味が強いことがわかる。また、会話が成立していたかの
実験者主観評価ではサンプル数が少ないが、6 組中 4 組が成立していなかった。
これらのことから、実際に対話した内容よりも、ロボットを間近に見て “ロボットとコミュニケ
ーションをとる” ことで楽しく満足することができたと考えられる。
さらに、「将来役に立ちそうか」「もっと話してみたいか」の設問では、それぞれ平均約 78 点、83
点が付けられており、ロボットとの対話に対しての期待が大きく感じられる。
12
13
アンケートを行った 71.組中、15 組については性別、年齢の情報が取得できていない。
100 点満点での採点を行ったが、「満足できましたか」の設問で 120 点を付けたグループが 1 組あった。
Ⅲ.2.4.2-69
表 25 アンケート結果集計（計 71 組）
項目
平均点数
採点した組
数
被験者
満足できたか
73.59
63 組
将来役に立ちそう
77.55
49 組
83.04
46 組
81.00
40 組
か
もっと話してみた
いか
楽しめているか
実験者主観
会話の目的
ロボットが見た
30 組
い
会話の成立
情報が知りたい
1組
両方
1組
Yes
2組
No
4組
32 組
6組
表 26 採点の割合（計 71 組）
点数
項目
100
以上
80
60
40
20
1
～
～
～
～
～
99
79
59
39
19
0
採点なし
満足できたか
12 組
24 組
12 組
13 組
1組
0組
1組
8組
将来役に立ちそう
23 組
7組
12 組
4組
3組
0組
0組
22 組
23 組
9組
12 組
2組
0組
0組
0組
25 組
か
もっと話してみた
いか
表 27 にアンケート実施時に得られたコメントを示す。それぞれのコメントを挙げた来客者の採点
も併せて記載する。
各コメントに対して、そのコメントの観点から、
『対話（音声認識、対話）』
、
『全体（アクトロイド
とのコミュニケーション全般）』
、
『ロボット（アクトロイドの容姿、動きなど）』の 3 つに分類を行
った。コメント欄の斜体文字は、別の観点に分類した、同じ来客者からのコメントである。
Ⅲ.2.4.2-70
表 27 アンケート結果コメント集計
満足できたか
項目
分類
対話
コメント
ちゃんと反応した
会話が成立した
点数
100
(2 組)
100
反応が悪い
90
以前は反応が良くなかったが、今回は良かった
90
ロボットが考えている時間が長い
90
音が小さい
90
間が多い
質問に答えられなかった
90
ちゃんと反応してくれたが速度が遅い
85
言ったことが通じていない
85
会話が成立した
80
間が悪く遅い
80
声が小さいが反応は良かった
80
反応悪い
（目がリアル）
80
聞き取り悪い
76
反応が悪い
70
タイムが長すぎた
70
声が少し小さい
70
反応がちょっと悪かった
70
待ちが長い
もっと話したい
60
入場者数を聞きたかったが、答えてくれなかった
60
反応悪い
60
AI じゃない
反応が遅い
50
（じゃんけんがしたい）
対話だけだめ
50
英語モードになった
50
会話だめ
50
質問の答えが変で回答できなかった（ドイツ館に
ついて）
遅い
50
50
反応をもう少し良くしたい
（おもしろい、何処に向かって話したら良いかわ
からない）
Ⅲ.2.4.2-71
40
感度が悪い
40
対話のやり取りが短い
「こんにちは」が「こんばんは」になった
反応が遅い
解答がおかしい
話が通じない
40
40
20
会話が成立しない
反応遅い
（人間っぽい）
0
－
声が小さかったのか、反応してくれなかった
－
通じなかった
－
反応が良い
（声と容姿にギャップがある、表情が良い、目が
－
良い）
答えられなかった
しゃべっていることがおかしい
（手の動きが良い）
全体
すてき
－
－
120
びっくりした
（動作・目がすごい）
微妙
100
95
楽しい
7 回目でやっと見れた
80
ロボットを前に緊張した
70
じゃんけんがしたい
（AI じゃない、反応が遅い）
50
おもしろい
（何処に向かって話したら良いかわからない、反
40
応をもう少し良くしたい）
もっと話したかった
40
いつ話したら良いかわからない
－
びっくりした
（人間に似すぎている）
ロボッ
動作･目がすごい
ト
（びっくりした）
ロボットがリアル
目がリアル
－
100
80
80
（反応悪い）
Ⅲ.2.4.2-72
何処に向かって話したら良いかわからない
（おもしろい、反応をもう少し良くしたい）
人間っぽい
40
－
（反応遅い）
人間に似すぎている
（びっくりした）
－
声と容姿にギャップがある
表情が良い
－
目が良い
（反応が良い）
手の動きがよい
将来役立つか
（しゃべっていることがおかしい）
－
対話
目の不自由な人のために良いかも
－
全体
非常に人間らしく案内には向いているのでは
100
癒し系
100
病院とかで使えそう
100
駅の案内とかで使えそう
100
お年寄りの話相手など
100
インフォメーションの仕事とか使えるかも
100
デパートのインフォメーションで使えそう
100
一家に一台
100
ロボッ
表情が良い
100
もっと話したいか
ト
手の動きや目線がすごい
対話
会話がもっと成り立てば
100
話すことが思いつかない
100
長い発話に反応してくれない
タイムリーな質問に答えて欲しい
全体
その他気づいたこと
対話
しゃべり方が限られている感じがする
－
前より良くなった感がある
80
ちょうど良い
60
感度が悪いので微調整が必要になる
声が大きい方が良い
（動きが人間みたいで本物かと思った）
情報が得られるのであれば話をしたい
反応は正しいが応答時間が長い
ワンテンポ遅い
会話が成立していた
（目の焦点が合っていない）
全体
100
受付の案内嬢
Ⅲ.2.4.2-73
大いに役に立ちそう
質問表があってその中から選びたい
質問を考える時間がもったいないので質問表がほしい
ロボットの置いてある場所がわかりづらかった
ロボッ
ト
見た目目が怖い
目がすごい
目の焦点が合っていない
（会話が成立していた）
動きが人間みたいで本物かと思った
（声が大きい方が良い）
『対話』の観点では、「反応が良い」場合や「会話が成立している」場合に良い評価を得ている。
課題としては、「反応の遅さ」、「間の取り方（アクトロイドでは、特に間を取る設定をしていない
ため、反応が遅いのと同義であると考えられる。）
」、
「声の小ささ」、
「対話コンテンツ（答えを用意
していない質問）」が挙げられる。また、アクトロイドではたくさんの来客者と対応させるため、
一連の対話を短く設定しているが、
「短すぎる」という意見も挙がった。
『全体』の観点では、「すてき」、「びっくりした」、「楽しい」、「もっと話したかった」といった良
い評価を得ている。しかし、
「いつ話したら良いかわからない」、など、システム全体として対話の
進め方を検討する必要があると考えられる。
『ロボット』の観点では、
「人間っぽい」、
「リアル」、
「手の動きが良い」など良い評価を得ている。
ただし、「何処に向かって話したらよいかわからない」、「声と容姿にギャップがある」など、人間
に酷似しているが故に、要求が高まっているとも考えられる意見が得られた。
（3）考察・課題
アンケート結果から、挙げられた課題とそれぞれの対応策等を検討する。
・反応が遅い、間が長い
アクトロイドでは、特に「間」の設定をしていないため、反応の遅さはシステムの遅さが
原因である。システムの遅さは主に音声認識にかかる時間にその原因があると考えられる。
雑音環境下における音声認識では、人の声と雑音とを分離して、クリアな「人の声」を抽出するこ
とが困難であり、音声認識に時間がかかる。
詳細は、「G：雑音環境化での音声認識技術」を参照。
「間」に関しては、さまざまな研究が既になされている[3][4][5]。発話内容のみではなく、
相手の声の音量（パワー、声の大きさ）、ピッチ（声の高さ）など、音声に含められる非
言語情報のみではなく、さらには、発話者の位置、表情、頭の傾きなど視覚情報なども考
慮した手法が提案されている。音声認識技術の課題と平行し、これらの技術も検討してい
く必要がある。
Ⅲ.2.4.2-74
・声の大きさ
声の大きさに関しても、騒音環境下であることがより困難さを増す要因となっていると考
えられる。騒音の大きさは時間、場所などによって常に変化しており、音量を固定したシ
ステムでは柔軟な対応はできない。また、人間同士の対話において相手の声が小さすぎる
（あるいは逆に大きすぎる）場合、自分（この場合アクトロイド）の声を相手（この場合
来客者）の声量に合わせること（つまり、相手の声が小さすぎて聞こえない場合は、自分
の声も小さくする）により相手に気付かせ、相手の声量を制御できるという説がある14。
このようなの理論の検討・利用するなど、周辺の騒音を考慮することにより、相手（人間）に不快
感を与えずに相手の声量を制御することが可能となる。
・対話コンテンツ
アンケート結果の中に、「タイムリーな情報が聞きたい」という意見があった。しかし今
回、愛知万博会場に設置したアクトロイドはインターネットで外部との接続を行っていな
かったため、来場者数、混雑状況、天気などの情報を適時更新することが出来ず、コンテ
ンツとして含めることができなかった。また、じゃんけんや握手といったアクトロイドの
動作およびアクトロイドと来客者の接触が不可欠となる対話も今回は対象外としていた。
音声の利点はその利便性と親しみやすさにあると考えられるが、それらの利点を生かすた
めにも、音声認識、対話制御以外の要素技術を取り入れてよりコミュニケーション能力を
高めていく必要があると考えられる。
・一連の対話の流れ（対話の進め方）
限られた時間内により多くの来客者との対話を行うため、１つの対話の流れを短く設計し
た。このため、若干物足りなさを感じさせてしまったようである。
実際に道案内や受付などタスク（システム／ロボットが対象とする処理分野）を限定とし
たシステムではより簡潔により短時間での情報提供を目標とした対話設計が重要である。
しかし、今回のアクトロイドのように、
「案内タスク」ではあるが、 “人間とロボットと
のコミュニケーション体験” 自体も目的となっている場合には必ずしも簡潔な対話が良
いと評価されるとは限らない。逆に、親しみやすさを強調した人間味のあるキャラクタを
設定することも重要な要素になってくると考えられる。アクトロイドとの対話ではアクト
ロイドからのお勧め情報やクイズの出題、プライベートな質問への対応を織り込みつつ、
1 つの対話を短めに設定したことで、
「短い」という意見が出たが、逆に「もっと話したい」
と思ってもらえたことは成果であると考えられる。
・ロボットの外見と対話能力のバランス
14
ユーザの声の大きさが適切ではない場合、システム側の音声は逆に（ユーザの声が小さすぎる場合は大きく、大きす
ぎる場合は小さく）してユーザがそれにあわせるように誘導するという説もあり（特開 2003-150194）、どちらがより効果が
あるか、実験等で再検討する必要がある。
Ⅲ.2.4.2-75
アクトロイドの評価としては、かなりリアルで人間に近い（似すぎている）という高評価
を得ている。ロボットの外見（容姿）が人間に酷似していることもあり、高度な対話が要
求され、例えば上述のような、「親しみやすさを強調した人間味のあるキャラクタ」との
対話が要求されると考えられる。
この場合、「対話」の観点からいくつかの要件の検討も必要になってくるであろう。
① 対話の開始／終了の検知
愛知万博向けアクトロイドでは、来客者から話しかけられる 4 ヶ国語の「こんに
ちは」など挨拶の言葉から対話を開始し、アクトロイドの「次の方どうぞ」で対
話を終了するよう、対話を設定した。
ロボットの設置場所、対象とするタスクに応じて、人感センサーの利用や、カメ
ラ画像から顔、口の位置、向き、動きを抽出して、対話開始／終了を定義するこ
とも可能である。
また、来客者（ユーザ）からの発話を待つだけではなく、ロボット側から対話を
開始することも併用するよう設計すると、より人間らしくなると考えられる。
② 認識精度の向上および評価尺度の検討
ロボットが対象とするタスク、対象となる来客者（ユーザ）の構成（年齢層など）
によっては、ユーザ発話を想定しきることは難しい。この場合、あまりにタスク
に特化しすぎない汎用的な音声認識が必要になると考えられる。
また、人間同士の会話の場合でも、相手の話していることを一字一句聞き取って
いるわけではなく、特に助詞などの語は脱落した状態で、対話を進めていると考
えられる。従って、認識率そのものよりも、重要なキーワード、肯定否定・受諾
拒否など来客者（ユーザ）の意図を理解するために必要な情報の認識精度の評価
尺度を検討し、認識精度の向上を図る必要がある。
③ 認識成功・不明確・失敗の判定
音声認識では、用意された単語の確率を元に認識結果が出力されるため、認識率
が常に 100%となることはない。従って、認識に失敗した際の対応が必要となる。
これは人間の場合でも同じである。人間の場合は、認識に成功したか失敗したか、
もしくは認識結果の信頼度によってその後の応答は変わってくる。このようなタ
スク実行そのものではなく、「対話」の要素の実現によって人間らしさを表現す
ることができる。そのため、認識に成功したか失敗したかを判定する必要がある。
④ 認識不明確・失敗と判定した際の聞き返し方法
Ⅲ.2.4.2-76
認識に成功している場合はそのまま対話を継続すればよい。しかし、失敗したと
判断した場合、ロボットからの「聞き返し」が必要となる。この際に来客者（ユ
ーザ）に同じことを繰り返させるだけでなく、認識結果を使用したり、もしくは
ユーザの発話を限定するような聞き返しを行うことにより、認識精度を向上させ
信頼度を高めることが可能となると考えられる。
⑤ 想定した対話以外の来客者（ユーザ）発話への対応
想定した対話以外の発話を音声認識することは難しい。しかし、このような「答
えられない」
、
「知らない」などの “対象外” の発話に対して、想定した対話に
誘導していくと、より知的に感じられると考えられる。これは、通常の認識失敗
と同様の聞き返しを行っても実現できるものではない。こういった場合、ロボッ
トが「対応できない」ことを来客者（ユーザ）に伝えたり、ロボットから話題を
転換するなどの対応が必要であると考えられる。
愛知万博向けアクトロイドでは、うまく音声認識が出来なかった場合、アクトロ
イドから何かお勧めをしたり、話題転換を行うように対話を構成した。このため、
対応できない発話がなされた場合でも、対話を続けることができた。
⑥ リアルタイムな情報への対応
機械（ロボット）が人に提供する情報は、その信憑性とリアルタイム性が重要で
ある。不確かな情報や古い情報を提供した場合、その機械は信用を失い、その後
の継続使用は見込めない15。これは人間に酷似した親しみやすいロボットという
形態をとっていても同じことである。
愛知万博向けアクトロイドではインターネットにつながる環境が常設できなか
ったため対応していない。しかし、環境が整っている場合には、ネットを使った
情報収集／提供、情報の更新などをリアルタイムに行えるよう構成するとより有
意な情報の提供が可能になる。その際には、更新される情報を提供するための応
答文の生成や音声合成音の生成をリアルタイムに行う必要がある。
⑦ 応答文／応答発話に人間らしさを反映
対象とするタスク、設置場所によって、ロボットの応答にも適切な文体、使用す
る単語、口調がある。また、来客者（ユーザ）の特徴（大人／子供、性別など）
によっても口調に変化をもたせるとより人間らしさを感じられる。
⑧ ロボットの外見に合った声の合成
15
機能を制限したエンターテイメント向け音声認識ロボットでは必ずしもそうとは言えない。
Ⅲ.2.4.2-77
愛知万博会場でのアンケート結果に「声と容姿にギャップがある」という意見が
あった。愛知万博向けアクトロイドは、4 ヶ国語に対応していたが、各国語の音
声合成はそれぞれ別人の音声を基にした合成を使用していた。そのため、言語に
よりロボットの声が異なり、容姿とのギャップのみではなく、言語によるギャッ
プもあり、違和感があったと考えられる。外見が機械的であれば、できるだけ聞
き取りやすい合成音を選択すればよいが、人間に酷似している場合は、外見から
得られるキャラクタと声質とをあわせることにより、より人間らしさを表現でき
る。
・将来性
将来役に立ちそうかの問いには、さまざまなシチュエーションで受付、案内タスクでの期
待を寄せられた。このようにシチュエーションとタスクを限定して、内容を具体化するこ
とにより、実環境での実用への展開も可能であると考えられる。
また、アクトロイドでは人間に酷似した動作や表情なども表現できるため、病院やお年寄
りの方を対象とし、「癒し」を提供していく展開も考えられる。
・機械としゃべることへの抵抗感／戸惑いの軽減
事前実験／現地アンケートいずれの場合にも、
「何を話していいかわからない」
「話すこと
が思いつかない」「質問表が欲しい」という意見が挙がった。
愛知万博向けアクトロイドでは、 “何を話しても良い” としていたが、実際にロボット
（機械）に対面すると、逆に何を話してよいか戸惑ってしまうようである。
従来のシステムがタスクをかなり限定したものであったり、対応できる単語が少なく表を
提示して体験してもらうようなものがほとんどであったため、対話システム自体に対する
認識が偏っていることも考えられる。また、今回の愛知万博向けアクトロイドでも対話が
成立していない場合が多く、来場者（ユーザ）に戸惑いを与えてしまった可能性もある。
現状の “何を話しても良い” 対話システムは、実際は常にユーザの話を “なんでも理
解してくれる” わけではない。今後は、さらに
⑨ 認識精度の向上
⑩ 認識失敗時の対応
に注力し、「話しやすい」音声対話システムを目指すことが必要である。
F-3-5 まとめ
全般的に、来客者の方々には、会話が成立していたときはもちろん、反応があまりよくない場合でもロ
ボットとの対話自体を楽しんでいただけた。
今後、実環境においての実用にあたっては以下の点を検討していく必要がある。
・
反応の速さ（感度）
Ⅲ.2.4.2-78
・
ロボットの声質、声の大きさ
・
対話コンテンツ
・
一連の対話の流れ（対話の進め方）
・
外見と対話能力のバランス
・
タスク／シチュエーションの設定
これらを検討し、対応しておくことにより、より実用性の高い対話ロボットの実現が可能になる。
また、ユーザに “何を話しても良い” システムを実感してもらえるよう
・
認識精度の向上
・
認識失敗時の人間らしい対応
を課題とし、
「話しやすい」音声対話システムの構築を目指す。
参考文献
[1]
2005 年日本国際博覧会愛・地球博公式ハンディブック (日本語版) 2005 年日本国際博覧会 MOOK，
ぴあ，2004，12．
[2]
[3]
[4]
旅行会社各種パンフレット
水上悦雄，矢野博之：対話における間の構造，AI 学会研究会 SIG-SLUD-A302-08，pp.43-48，1994．
菊池英明：音声対話インターフェースにおけるコミュニケーション調整機構の研究，早稲田大学学位論文，
2002．
[5]
木村大生，橋彌和秀：発話間間隔が発話意図解釈に及ぼす影響， AI 学会研究会
SIG-SLUD-A201-10，2002．
Ⅲ.2.4.2-79
開発テーマ G 雑音環境下での音声認識技術
G-1 マイクの設置方法の検討
G-1-1 概要
プリモ社製マイクを筐体に設置する方法を検討した。設置場所が机程度の高さになるため、デザイン・
強度になるべく影響を与えずにマイク性能を最大限発揮できる方法を模索した。
G-1-2 実験方法
環境
下記のように、話者音声を発するスピーカと、雑音用スピーカを発するスピーカの２つを用意
する。話者の音源は、マイクを中央とした前方と右方の 2 箇所でそれぞれ収録し、マイク横か
ら入力された音声をどの程度抑えられるかを、マイク正面から入力した音声の強さと比較した。
その際、筐体の一部を紙製の箱で模倣し実験を行なった。
マイク
音声
ノイズ用スピーカ
話者音声用スピーカ
覆いの形状
１．まったく覆いのない状態
２．前方のみが空いて、マイク全体が箱の中にある状態(案 2)
140
200
開口面
55
Ⅲ.2.4.2-80
３．箱の上面に穴を開け、マイク全体を箱の中に入れた状態。マイクの仰角は 20°程度(案 1)
50
80
４．覆いの上部にマイク全体を出す。マイクの仰角は 20°程度(マイク下部は箱内部の空間と
繋がっている)
５．４番の図でマイクを水平にしたもの。
６．覆いの上部にマイク全体を出す。マイクの仰角は 20°程度(マイク下部は箱内部の空間と
繋がっていない。ただし、トランジスタ部分は箱の中に入れるための切り込み入れた状態。)
７．6 番の状態でマイクを水平にしたもの。
G-1-3 実験結果
１．まったく覆いのない状態
右からの再生音をきちんとキャンセルできており、マイクの指向特性が十分に機能してい
る事がわかる。
右 90 度から再生
正面から音声再生
Ⅲ.2.4.2-81
２．前方のみが空いて、マイク全体が箱の中にある状態(案 2)
正面の音と右からの音がほぼ同じ大きさになるため、指向特性がなくなっていることが分
る。
３．箱の上面に穴を開け、マイク全体を箱の中に入れた状態(案 1)
２番よりは優れているが、あまりえられていない状態だった。
４．覆いの上部にマイク全体を出す。(マイク下部は箱内部の空間と繋がっている。)
２，３よりは優れた結果が出ている。
Ⅲ.2.4.2-82
４番の図でマイクを水平にしたもの。
4 番とほぼ一緒。
５．覆いの上部にマイク全体を出す。(マイク下部は箱内部の空間と繋がっていない。)
何もないときを除くと一番優れた結果となっている。
６．6 番のマイクを水平にしたもの
90°からの音声が大きく指向性がなくなっている。箱上面の反射による影響があると予想
される。
Ⅲ.2.4.2-83
G-1-4 まとめ
1. ガンマイク同様、なるべくマイクの周りに空間を作ることが指向性を強める。
2. マイクと箱内部とが遮断することが必要。
3. ある程度、マイク下の面から角度をつけて下面から、離すことも必要。(ただし、マイク下の面
がない場合は除く。)
4. 今回は、6 の方法で、設置する。
G-2 アレーマイクとバウンダリーマイク比較結果報告
G-2-1 概要
アレーマイクと市販のバウンダリーマイク(AT9750)の比較を行った。2 つのマイクを使用して同じ環境
下で同時に収録を行い、その SN 比を比較した。
G-2-2 収録方法
環境
下記のように、話者音声を発するスピーカと、雑音用スピーカを発するスピーカの２つを用意
する。雑音用スピーカの音源は、マイクを中央とした前後左右 4 箇所に置いた場合についてそ
れぞれ収録した。
②
アレーマイク
AT9750
④
③
音声
話者音声用スピーカ
①
Ⅲ.2.4.2-84
ノイズ用スピーカ
アレーマイク
アレーマイクにある３つのマイクのうち、両端にあるマイクは話者用スピーカの方向に 45 度
向けて使用した。
話者音声
録音
パソコンの LINE IN を使用し、アレーマイクの音を L チェンネル、AT9750 の音を R チャン
ネルとした、ステレオの音声をソフトウエアで録音した。
G-2-3 結果
雑音用スピーカを、図 1 の①～④に置いた場合の収録音声の波形は以下のとおり。
なお波形の上(L)がアレーマイクの波形であり下が(R) AT9750 の波形である。
¾ 雑音用スピーカをマイク前方に置いた場合
Ⅲ.2.4.2-85
¾ 雑音用スピーカをマイク後方に置いた場合
¾ 雑音用スピーカを右に置いた場合
¾ 雑音用スピーカを左に置いた場合
Ⅲ.2.4.2-86
G-2-4 まとめ
2 つのマイクの SNR を比較すると、ほぼ同一であった。後方からのノイズに対しては、アレーマイク
の方が若干良くはなるが、音声認識が可能になるほど改善されてはいないため、バウンダリー同様、ソ
フトウエアによるノイズ除去が必要となる。
G-3 エコーキャンセラとノイズキャンセラの選定・実験結果
G-3-1 はじめに
対話相手の音声を抑圧するエコーキャンセラツールと周りの雑音を抑圧するノイズキャンセラツール
との組み合わせた場合の音声認識性能について述べる。エコーキャンセラツール・ノイズキャンセラツ
ールそれぞれ数種類のツールを様々な組み合わせパターンで認識性能を見る。
G-3-2 エコーキャンセラとノイズキャンセラについて
案内所などでのマン－マシン音声対話においての問題の一つにマシン音声（機械の発話）と周りの雑音
が発話に重畳されて発話音声がマスキングされることが挙げられる。マスキングされた音声は正確な音
声特徴を推定できないため音声認識エンジンの誤認識を引き起こす大きな要因であり、これらを除去す
るためのツールとしてエコーキャンセラツールとノイズキャンセラツールを用いる。エコーキャンセラ
はスピーカから出るマシン音声が回り込んで収録マイクに入ってくるときのマシン音声の特徴を推定
し、それをマシン音声が重畳された発話音声から引くことを言う。回り込み音声の推定は、音源とスピ
ーカからマイクまでの伝達特性を推定して行う。ノイズキャンセラは雑音区間の音響特徴を推定して雑
音重畳音声から引くことを言う。雑音は音源の特定が出来ないので収録音声のみで推定しなければなら
ない。図 2～図 5 にエコーキャンセラ・ノイズキャンセラを通す前と通した後の音声（サウンドスペク
トログラム）の例を載せる。図の水色の線の間が発話区間である。図 3 はマイクに収録された音声で、
スピーカから出力されたマシン音声（図 2）が回り込んで入力されているのが分かる。エコーキャンセ
ルツールを使用して収録音声からマシン音声を除去した音声が図 4 である。発話区間の音声を残したま
ま、非発話区間のマシン音声が薄く消えかかっているのが分かる。完全に消えないのは回り込みの伝達
経路の推定が完全ではないためである。（完全に推定することは周りの雑音の変化によって特性が変わ
ってくるため難しい。）エコーキャンセルを通したあと、さらにノイズキャンツールを使用してノイズ
を除去したものが図 5 の音声である。雑音部分が薄くなっているのが分かる。
図 2 マシン音声（エコー音）
Ⅲ.2.4.2-87
図 3 収録音声
図 4 収録音声に対するエコーキャンセル後の音声
図 5 エコーキャンセル後の音声に対するノイズキャンセル後の音声
G-3-3 エコーキャンセラとノイズキャンセラの組み合わせによる音声認識評価
エコーキャンセルツールとノイズキャンセルツールそれぞれ２種類を組み合わせて音声認識性能の評
価をした。実験条件は以下の通りである。
表 28 実験条件
エコーキャンセラ
A 社 EchoGate (ハードウェアキャンセラ)
B 社 MagicAcousticEchocanceler(ソフトウェアキャン
セラ)
ノイズキャンセラ
C 社 WaveCom (２チャンネルマイクキャンセラ)
D 社 MagicDenoiser(1 チャンネルマイクキャンセラ)
認識部
認識エンジン
AmiVoice
(雑音なし音響モデル＋2005/04/27 版言語モデル)
認識プログラム
TestsetDecoder(独自プログラム)
認識率
文字認識率
評価音声
擬似環境での想定発話 999 個
Ⅲ.2.4.2-88
エコーキャンセラはハードウェアのものとソフトウェアのものを、ノイズキャンセラは１本のマイクを
使用したものとマイク２本使用したときのものを用いた。
認識結果を表 31 に示す。雑音抑圧強度を 80 にした場合が最良であることが分かった。
表 29 認識結果
認識率
エコーキャンセラ
A社
B社
ノイズ
C社
2.3%
7.27%
キャンセラ
D社
7.72%
16.48%
G-3-4 考察
まず、全体的に認識率が乏しいのは擬似環境が非常に厳しく雑音量が大きかったためである。擬似環境
での発話と雑音のパワー比である SN 比は 0dB を下回っている場合も見られた。そのような場合におい
て雑音除去を行っても改善の度合いが薄かった。雑音量がある程度を超えると発話区間と雑音区間の区
別をつけることができず正しい除去を行えないことが分かった。
次にエコーキャンセラの比較の結果 B 社の精度が高かった。ハードウェアで行う A 社はエコーキャン
セラのパラメータの調整（機器のつまみでキャンセル強度などを調整）が非常に難しかった。ノイズキ
ャンセラの比較の結果、D 社の精度が最良だった。ノイズキャンセラ単体の性能では C 社の性能が上回
っていたがエコーキャンセラと組み合わせたとき性能は落ちた。２チャンネルのノイズキャンセラは各
チャンネルの相関を利用して雑音分離しているが、エコーキャンセラのディジタル処理によってチャン
ネル間の相関がくずれたことが原因と考えられる。
G-3-5 まとめ
エコーキャンセラツールとノイズキャンセラツールとの組み合わせた場合の音声認識性能について評
価した。音声認識率の調査の結果、最良の組み合わせは B 社と D 社であることが分かった。ハードウ
ェアエコーキャンセラはパラメータの調整が非常に難しいのでリアルタイムでの使用に向いていない
こと、２チャンネルのノイズキャンセラツールでは他のディジタル処理との組み合わせが難しいことな
どが分かり今後これらの改善を行うことが必要であると考える。
G-4 ノイズキャンセル強度と認識率について
G-4-1 はじめに
雑音環境下での音声認識に関して、雑音抑圧と音声認識性能の差について述べる。雑音抑圧技術を用い
て雑音重畳音声から音声のみを取り出して認識性能の改善を行うが、そのときの抑圧強度と認識性能の
関係を調査した。
G-4-2 雑音抑圧強度とその音声について
屋外などの環境で収録した音声には、目的の発話音声以外に風の音や周囲の声などの雑音が混じってい
Ⅲ.2.4.2-89
る。雑音混じりの音声は静音環境で構築した音響モデルとのミスマッチを引き起こし音声認識性能が低
下してしまう。そのため、雑音混じりの音声から雑音だけを取り除いて目的音のみを抽出する処理が必
要である。重畳された音声から目的音以外の音を取り除く技術を一般的に雑音抑圧と呼ぶ。雑音抑圧の
一般的な方法としては、非発話区間から雑音の周波数特性（パワー）を推定し、雑音重畳音声から推定
した雑音を引く。
それでも常に特性やパワーが変化する雑音に対して正確な推定を行うことは困難で、雑音の引き残りや
引き過ぎなどが起こってしまう。引き残りは雑音のマスキングにより音声特徴の推定を鈍らせ、引き過
ぎは音声を歪ませてしまうことによりいずれも音声認識エンジンとの適合性が低くなり認識性能を低
下させてしまう。引き過ぎと引き残りのどちらが音声認識エンジンにとって最適なのかは実験的に評価
してみる必要がある。引き算する雑音のバイアスパラメータのことを抑圧強度といい、このパラメータ
の大きさと音声認識率の推移を調査した。図 6～図 9 に雑音除去強度を変えたときのサウンドスペクト
ログラムを載せる。サウンドスペクトログラムは、音声(雑音)スペクトルの時間的パワー変化を濃淡（＋
カラー）図形表示によって見やすくしたものである。横軸が時間（秒）
、縦軸が周波数（Hz）である。
0.2～1.9 秒が発話区間である。全体的に雑音は 0～2000Hz あたりに薄くのっているのが分かる。また、
図２から図４に向かって雑音強度を上げると雑音部分の色が徐々に薄くなっている（雑音のパワーが小
さくなる）のが分かる。雑音強度最大にしたときはほぼすべての雑音が除去されているが、音声部分も
余分に削っている（例えば、5000Hz 以降の音声が消えている）のが分かる。これが音響特徴を消して
しまうため、逆に音響モデルとのミスマッチを起こして認識性能を低下させてしまう。
図 6 スペクトログラム（原音）
図 7 スペクトログラム（雑音除去強度＝最小）
Ⅲ.2.4.2-90
図 8 スペクトログラム（雑音除去強度＝中）
図 9 スペクトログラム（雑音除去強度＝最大）
G-4-3 雑音抑圧強度による音声認識評価
雑音抑圧強度に対する音声認識実験を行った。実験条件は以下の通りである。
表 30 実験条件
雑音抑圧部
雑音抑圧強度
0(最小)～100(最大)で 10 刻み
雑音抑圧はエコーキャンセル後に行う
認識部
認識エンジン
AmiVoice
(雑音なし音響モデル＋2005/04/27 版言語モデル)
認識プログラム
TestsetDecoder(独自プログラム)
認識率
文字認識率
評価音声
万博音声 5502 発話
Ⅲ.2.4.2-91
認識結果を表 31 に示す。雑音抑圧強度を 80 にした場合が最良であることが分かった。
表 31 雑音抑圧強度と認識率
雑音抑圧強度
認識率
雑音抑圧なし
38.00%
0 (最小)
38.81%
10
38.19%
20
38.04%
30
38.86%
40
39.01%
50
40.04%
60
40.76%
70
43.17%
80
48.36%
90
42.66%
100 （最大）
44.56%
G-4-4 考察
雑音抑圧なしに比べて雑音抑圧を行ったほうが認識精度は高い。これは、雑音抑圧によってマスキング
されていた音声が回復され音響モデルに適合されたためと考えられる。雑音抑圧強度を最小から上げて
いくと認識率が概ね上がっていく傾向にあるが、80 を超えると認識性能は逆に下がる。これは図 9 の
ように雑音だけでなく音声スペクトルも抑圧され、その結果逆に音響モデルに不適合なものになってし
まったためであると考えられる。
G-4-5 まとめ
騒音下音声認識の耐雑音技術である雑音抑圧に関して抑圧強度の変化と認識性能の調査を行った。雑音
抑圧強度を上げていくと認識性能は改善されていくが雑音除去強度が 80 以降になると音声も大きく抑
圧してしまい、逆に認識性能が下がることが分かった。以上により、音声認識性能に最適な雑音抑圧強
度は 80 であることが分かった。なお、アクトロイドの音声認識システムに導入された雑音抑圧プログ
ラムの雑音除去強度も 80 であり、音響モデルの学習もこの強度で抑圧した音声に対して行った。
G-5 万博想定環境による音響モデルと実環境による音響モデルによる精度推移
G-5-1 はじめに
万博環境を想定して構築した音響モデルと実際の万博会場で録音した音声で構築した音響モデルとの
音声認識精度の推移を見て、音声認識性能の改善による両音響モデルの有効性と、実環境音響モデルの
優位性と必要性について述べる。
Ⅲ.2.4.2-92
G-5-2 背景
万博会場の音声はオフィス環境などとは違い、周りの雑音が多く入力されていることが容易に予測でき
る。通常使用している音声認識エンジンをそのまま使用することは万博会場音声と音響モデルとの音響
的特徴のミスマッチによる認識性能の低下につながるので、万博環境用の音響モデルを構築する必要が
あった。しかし、最良なのは実環境で録音した音声で音響モデルを構築することである。
以下では、事前に万博会場を想定した環境の音響モデルと、万博会期期間に収録した実際の発話音声
で構築した音響モデルとの比較を行い、想定環境との実環境とのずれや実環境モデルの優位性と必要性
についての実験とその結果について報告する。
G-5-3 想定環境と実環境の差
想定環境の音声は万博と似た環境を選んでその場所で既存の雑音が非常に小さい音声データベースを
使用して、スピーカを使ってその音を再生させて収録した。実環境の音声は万博期間における実際のア
クトロイドとお客との対話におけるお客の音声を収録した。
図 10～図 11 に我々が想定した環境と実際の万博環境での音声を載せる。想定環境は実環境に比べて
雑音パワーが強い。図の低域部分を見たときにはっきり分かる。実環境はそれほど色が濃くないが想定
環境ははっきりした色が現れている。
図 10 万博想定環境の音声サンプル
図 11 万博環境の音声サンプル
Ⅲ.2.4.2-93
G-5-4 認識評価
想定環境の音声で構築した音響モデルと実環境の万博音声で構築した音響モデルでの音声認識実験を
行った。実験条件は以下のとおりである。
表 32 実験条件
音響モデル構築
音声時間
想定環境
実環境
日本語
約 3 時間
英語
約 4.5 時間
中国語
約 3 時間
韓国語
約 4.5 時間
日本語
英語
中国語
韓国語
約
約
約
約
3 時間
1.5 時間
1 時間
0.3 時間
認識実験
認識エンジン
AmiVoice
認識プログラム
TestsetDecoder(独自プログラム)
評価基準
文字認識率
評価音声
万博会場で収集した音声
日本語
213 発話
英語
126 発話
中国語
100 発話
韓国語
50 発話
表 33 実験結果
Clean
想定環境
実環境
英語
50.21%
53.42%
68.61%
日本語
41.56%
56.28%
72.40%
韓国語
11.43%
36.79%
68.21%
中国語
39.60%
29.95%
63.61%
平均
35.70%
44.11%
68.21%
実験結果を表 33 に載せる。表の ”Clean” は雑音が小さい環境の音声で構築した音響モデルを使用した
ときの実験結果で、”想定環境”, “実環境” との比較のために載せた。 “Clean” の平均 35.70% に比べ、”
想定環境” での平均は 44.11% であり、想定環境モデルの認識性能が Clean より良かった。
（※ 中国
語に関しては認識率が低下しているが、これは想定環境の音声の発話内容のバリエーションが少なかっ
たために逆に評価音声に対する想定環境の発話文脈以外の部分と構築した音響モデルとの音響的特徴
の差が広まったため、さらにその効果は雑音の補正効果よりも大きかったためであると考えられる。）”
Ⅲ.2.4.2-94
実環境” の平均は 68.21% で ”想定環境” よりもさらに良い認識性能が得られた。
G-5-6 考察
想定環境の音響モデルは Clean 音響モデルに比べて認識率が高かった。これは、評価音声の環境が
Clean 環境よりも想定環境の方に近かったからであると考えられる。しかし、評価音声の環境と想定環
境の音声は完全にマッチしていないため認識改善率はあまり大きくない。実環境の音響モデルは想定環
境のモデルに比べて大きな認識率の改善を得られている。この理由としては以下のことが考えられる。
・想定環境雑音と実環境雑音との適合率が悪い
・想定環境音声と実環境音声の音響特徴差が大きい
最初の項目に関しては、図 10 と図 11 から想定環境が実環境よりも雑音パワーが大きいため、想定環
境で構築した音響モデルが実環境音声とミスマッチを起こしていると考えられる。特に想定環境の低域
部分は音声が雑音にマスクされていて音響特徴が見えにくいことも認識を難しくしているといえる。
２番目として発話音声そのものの発話者・発話様式による音響特徴差が考えられる。想定環境の音響モ
デルの構築に使用した収録した音声は発話者が成人音声であり、男女同比の時間で構築している。また、
発話様式はテキストの読み上げである。一方、実環境の音声では発話者は女性や子供が多く、発話様式
も自然発話である。話者と発話様式の違いは音響特徴に違いがあり、それが想定環境音声で構築した音
響モデルが実環境音声で構築した音響モデルよりも精度が悪い原因になっている。
音響モデルの構築に使用した実環境音声の発話時間は日本語に比べ他の 3 ヶ国語が非常に少ないため
（日本語以外の来客者が少ないため）、頑健性に乏しいことが推測でき、改善にはさらに多くの音声を
収集する必要がある。
想定環境の音響モデルを精度よくするには、実環境に近い条件での音声で音響モデルを構築することが
当然であるが、万博会場など事前の環境の想定が難しい場合は、想定環境の音響モデルだけでなく適宜
実環境音声で音響モデルを構築しなおしていくことが必要であるだろう。
G-5-7 まとめ
想定環境の音声で構築した音響モデルと実環境の音声で構築した音響モデルとの認識精度差を調査し
た。認識率を調べたところ clean 環境音響モデルの 35.70%に対し、想定環境音響モデルが 44.11%、実
環境音響モデル 68.21%であった。想定環境の音声で構築した音響モデルは多少の認識性能の改善が見ら
れ、想定環境音響モデルの有効性が示すことが出来た。
しかし、想定環境の音響モデルは実環境の音響モデルに比べて Clean 音響モデルからの認識改善精度が
低い。この差は想定環境が実環境に比べて環境差や話者・発話様式の差があったことが原因である。万
博会場のような環境を正解に想定することは難しく、実環境音声で音響モデルを構築することが最良の
手段であることは言うまでもない。
Ⅲ.2.4.2-95
G-6 雑音環境下におけるセグメンターの精度向上
G-6-1 背景と目的
ハンズフリーでの音声認識において重要なものの一つが発話の開始・終了区間を決める音声検
出(以下、セグメンターと呼ぶ)部分である。音声検出を行わないと、非発話部分の湧き出し認識
や常に音声認識エンジンを稼動させることによるシステムの高負荷の問題が発生するからであ
る。本報告では、雑音環境下での音声検出機能の精度向上を目的として、検出パラメータの調
整を行った。
G-6-2 現セグメンターにおける問題点と調整の指針
雑音環境下におけるセグメンターの問題点を以下に述べる
１．
定常雑音パワーの上昇
雑音パワーの増大や音声を雑音がマスキングしてしまうことによって検出が困難になる。
２．
目的音以外の周囲の発話
周囲の発話と目的の音との区別する必要がある。この問題はセグメンターのパラメータ
調整では難しいので別の対策をとる必要がある。（指向性マイクの設置など）
３．
非定常雑音の混入
突発的な雑音は一般的にパワーが大きいので目的音との区別が難しい。
４．
発話様式の変化
自然発話においては区切って発話することがあり、発話の終了検出の難しさが大きくな
る。(雑音環境下における問題とは違うが、然発話におけるセグメンターの問題になるの
で述べておく)
以上のような問題を解決するようにセグメンターのパラメータ調整を行った。
G-6-3 調整後の検出性能
万博会場でのアクトロイドシステム運用 30 分間の音声録音に対し、調整後の検出性能を以下に
示す。比較として調整前の性能も載せる。
表 34 セグメンター調整後の性能
検出ミス(先頭)
検出ミス(語尾)
未検出
検出漏れ
調整前
35
84
14
70
調整後
11
25
13
41
G-6-4 まとめ
雑音環境下におけるセグメンターの精度向上を行うための対策を行った。既存のセグメンター
の検出部のパラメータを調整することで調整前に比べて性能の改善が見られた。
Ⅲ.2.4.2-96
開発テーマ H, I：他国語（韓中英）の音声認識技術
H, I -1 言語切り替えのための挨拶認識における信頼度
H,I-1-1 はじめに
音声認識システムは大きく分けて言語識別と音声認識に分けられる。言語識別は音声認識エンジンの切
り替えを行うためのもので、識別結果が現在の国語エンジンと異なればエンジンを識別結果の国語エン
ジンに切り替える。（図 12 参照）。本部分ではそのうちの言語識別の性能評価結果を示す。
認識処理
音声
言語識別の方が
言語識別
yes
スコアが高い
音声認識(1 カ国語)
エンジン切替
no
図 12 音声認識システム処理フロー
H,I-1-2 言語識別性能
言語識別の性能評価を行った。言語識別はキーワードフレーズ認識を用い、以下の４つの特定フレーズ
に対する音声認識を行った。同時に日本語の認識エンジンによる音声認識も行い、その結果、正解フレ
ーズの発話かつ日本語の認識エンジンによる結果よりもスコアが高い場合正解とした。評価は正解率の
他に誤識別率も用いた。誤認識率は、キーワードフレーズ以外の発話に対して誤って特定フレーズに認
識してしまいかつ日本語の認識エンジンによる音声認識結果よりもスコアが高かった割合のことを示
す。
表 35 言語識別のためのキーワードフレーズ一覧
こんにちは（日本語エンジン切替）
Hello（英語エンジン切替）
你好（中国語エンジン切替）
안녕하세요（韓国語エンジン切替）
性能評価結果を表 36～表 38 に載せる。表の“万博開始時”は万博開催当初に組み込まれた音声認識エ
ンジンでの性能結果、“万博終了時（最終版）”は 2005 年 8 月に入れ替えた音声認識エンジンでの性能
結果、“万博終了時（最終 kids 版）は”万博終了時（最終版）“に子供音声に特化した音響モデルを組
み込んだ音声認識エンジンでの結果である。また、正解率と誤認識率を統合した統合認識率は以下の式
で算出した。英語、中国語、韓国語の誤認識率が”万博開始時“に比べ高くなっているのは、”万博開
始時“の音響モデルが乏少なため、音声ではなく雑音に認識されやすくなっているからであると考えら
れ、そのため、正解率も低いと考える。
Ⅲ.2.4.2-97
統合認識率＝識別正解率＋(100％－誤認識率)／２
表 36 識別正解率
正解率
万博開始時
万博終了時
万博終了時
(最終版)
(最終 Kids 版）
日本語
87.0%
91.0%
82.0%
日本語（子供）
75.0%
81.3%
87.5%
英語
41.8%
85.1%
88.1%
中国語
72.1%
100.0%
100.0%
韓国語
62.5%
95.8%
93.8%
表 37 誤認識率
正解率
万博開始時
万博終了時
万博終了時
(最終版)
(最終 Kids 版）
日本語
26.3%
13.5%
17.2%
日本語（子供）
23.3%
9.3%
14.0%
英語
20.7%
40.8%
39.0%
中国語
6.4%
11.8%
10.7%
韓国語
1.5%
9.8%
8.3%
表 38 統合認識率
正解率
万博開始時
万博終了時
万博終了時
(最終版)
(最終 Kids 版）
日本語
80.3%
88.8%
82.4%
日本語（子供）
75.9%
86.0%
86.8%
英語
60.5%
72.1%
74.5%
中国語
82.9%
94.1%
94.6%
韓国語
80.5%
93.0%
92.7%
H,I-1-3 まとめ
音声認識システムの言語識別部分の性能評価を行った。識別は特定キーワードフレーズによる識別方法
を用いた。統合認識率が万博開始時に比べ大幅に拡大されていることが分かり、識別性能は大幅に改善
した。
H,I-2 言語切り替えのための挨拶認識における信頼度
H,I-2-1 はじめに
本システムは、4 ヶ国語の認識を行うのに、各国の挨拶を認識したことをトリガーとして、言語のモー
ドを切り替えて、以後、別の国の挨拶を認識するまでその国の言語を認識する。そのため、ある国の言
Ⅲ.2.4.2-98
語を誤って別の国の言語に誤認識することをなるべく防ぐために、その認識結果の信頼度を調べある閾
値を超えた場合にのみ、挨拶として言語を切り替えるような仕組みになっている。本文書はここでの、
閾値の決定方法について報告する。
H,I-2-2 実験条件
現地で収録した音声を、主に以下の 2 つのグループに分ける。
¾ 挨拶(日英韓中)の発話
¾ 上記以外
4 ヶ国語のエンジンそれぞれについて挨拶を認識するルールグラマを使用して、上でグループ分け
した音声の認識結果と単語の信頼度を算出する。
信頼度(0.0～1.0)についてそれぞれのグループごとに以下の確率を計算する。
グループ１：音声が正しく挨拶(言語別)として認識された確率
グループ２：挨拶で無い発話で、挨拶に認識されたとき正しくリジェクトした確率
グループ１とグループ２の確率が同等となる信頼度を閾値として採用する。
H,I-2-3 実験結果
実験結果は以下の図の通りである。なお、図の X 軸は信頼度、Y 軸は確率である。
[日本語エンジンの場合]
日本語(日本語エンジン)
120
100
日本語の挨拶を正しく
認識した
日本語への誤認識を
正しくリジェクトした
80
60
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ⅲ.2.4.2-99
英語(日本語エンジン)
120
100
英語の挨拶を正しく認
識した
英語への誤認識を正し
くリジェクトした
80
60
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
中国語(日本語エンジン)
120
100
中国語の挨拶を正
しく認識した
80
60
中国語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
韓国語(日本語エンジン)
120
100
韓国語の挨拶を正
しく認識した
80
60
韓国語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
[英語エンジンの場合]
Ⅲ.2.4.2-100
日本語(英語エンジン)
120
100
日本語の挨拶を正し
く認識した
日本語への誤認識
を正しくリジェクトした
80
60
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
英語(英語エンジン)
120
100
英語の挨拶を正しく
認識した
英語への誤認識を
正しくリジェクトした
80
60
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
中国語(英語エンジン)
120
100
中国語の挨拶を正
しく認識した
80
60
中国語への誤認識
を正しくリジェクトし
た
40
20
0
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ⅲ.2.4.2-101
韓国語(英語エンジン)
120
100
韓国語の挨拶を正
しく認識した
80
60
韓国語への誤認識
を正しくリジェクトし
た
40
20
0
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
[中国語エンジンの場合]
日本語(中国語エンジン)
120
100
日本語の挨拶を正
しく認識した
80
60
日本語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
英語(中国語エンジン)
120
100
英語の挨拶を正しく
認識した
英語への誤認識を
正しくリジェクトした
80
60
40
20
0
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ⅲ.2.4.2-102
中国語(中国語エンジン)
120
100
中国語の挨拶を正
しく認識した
80
60
中国語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
韓国語(中国語エンジン)
120
100
韓国語の挨拶を正
しく認識した
80
60
韓国語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
[韓国語エンジンの場合]
日本語(韓国語エンジン)
120
100
日本語の挨拶を正
しく認識した
80
60
日本語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ⅲ.2.4.2-103
英語(韓国語エンジン)
120
100
80
英語の挨拶を正しく
認識した
英語への誤認識を
正しくリジェクトした
60
40
20
0
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
中国語(韓国語エンジン)
120
100
中国語の挨拶を正
しく認識した
80
60
中国語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
韓国語(韓国語エンジン)
120
100
韓国語の挨拶を正
しく認識した
80
60
韓国語への誤認識
を正しくリジェクトし
た
40
20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ⅲ.2.4.2-104
H,I-2-4 考察
前節で得られた値を、下記表にまとめた。これにより、エンジン・認識言語ごとに、適切な信頼度(閾値)
が異なることがわかる。
エンジン/認識言語
日本語
英語
韓国語
中国語
日本語
0.5
0.55
0.55
0.2
英語
0.2
0.45
0.35
0.3
中国語
0.2
0.45
0.5
0.3
韓国語
0.5
0.6
0.55
0.2
ここでの数値が高いほど、その認識言語は誤って認識されてしまうことが多いため、高い閾値を設定す
ることが必要となる。日本語エンジンを例に挙げると、日本語のエンジンを使用しているときは、英語、
韓国語に誤認識しやすいため、その部分の信頼との閾値が高くなっている。
このように、プログラムに、取得された閾値による発話の有効性を判断させるロジックを加えた。
H,I-3 来客者音声による他国語音声認識エンジンの構築
H,I-3-1 はじめに
万博会場環境での音声認識を行うことを目的として、万博期間中において実際にロボットと対話を行っ
た他国籍人の音声とその発話内容を用いて音声認識エンジンを再構築した。
H,I-3-2 構築手順
以下の手順で再構築を行った。
１．収録音声の書き起こし
収録された音声の発話内容をテキストに書き起こした。
２．音響モデルの構築
収録音声と発話内容から音響モデルの再構築を行った。
３．言語モデル及び辞書の構築
テキスト化したデータから言語モデルと単語辞書の構築を行った。
４．認識エンジンのパラメータ調整
構築した音響モデル・言語モデル・辞書を認識エンジンに組み込み、探索パラメータ
の調整を行った。
音響モデルの構築と言語モデル・辞書の構築は、AmiVoice の開発元である Multimodal Technologies,
Inc. 社に依頼した．
H,I-3-3 構築物
以下のものを構築した。
１．4 ヶ国語音響モデル
日本語以外の 3 ヶ国語（英語・中国語・韓国語）の部分の再構築を行った。
２．英語言語モデル及び辞書
Ⅲ.2.4.2-105
３．中国語言語モデル及び辞書
４．韓国語言語モデル及び辞書
H,I-3-4 認識性能
実際の来客者音声を認識エンジンに入力し、その性能を検証した。結果は以下の通りである。比較対象
として、擬似万博環境を想定した音声データと発話テキストで構築した認識エンジンの性能を追加した。
表 39 万博認識エンジン性能(文字認識率)
英語
中国語
韓国語
擬似万博環境
認識エンジン
万博環境
認識エンジン
30.8%
13.9%
27.5%
65.74%
62.13%
68.93%
Ⅲ.2.4.2-106
表 40 万博認識エンジン性能(言語識別率)
英語
中国語
韓国語
擬似万博環境
認識エンジン
万博環境
認識エンジン
33.5%
72.1%
92.7%
86.6%
92.0%
95.8%
（識別ロジックに多少の差があるので厳密に比較はできないが参考として載せた）
表 41 万博認識エンジン性能(Real-Time Rate*)
英語
中国語
韓国語
擬似万博環境
認識エンジン
万博環境
認識エンジン
0.80
0.97
0.78
0.53
0.53
0.53
(*) 発話時間に対する認識時間の割合
H,I-3-5 まとめ
来客者音声とその発話テキストを用いて他国語音声認識エンジンの構築を行った。構築したエンジンは、
万博を想定した環境の下で構築したエンジンに比べて高い認識性能と認識速度を持つ。
Ⅲ.2.4.2-107
開発テーマ D,J 4 カ国語（日韓中英）の音声合成技術
D,J-1 音声合成エンジン API の開発
音声合成エンジンＡＰＩの開発を行うにあたり、当初はケンウッド社の HB-TTS およびペンタックス社の
VoiceText を用いて音声合成エンジン API の開発を行った。
HB-TTS および VoiceText の特徴は下記の通りとなる。。
＜HB-TTS>
HB-TTS は、音片合成と素片合成から構成されている。音片合成では、正確に発話させたい単語やフ
レーズを音声データとして辞書登録することが可能です。テキスト情報を解析し、自動的に登録した
音片単語を選択してきれいに合成することができます。しかし、音片辞書に登録されていない単語もしくは
フレーズが発生した際には、素片合成にて補完する。素片合成は、信号処理にて音声を生成する為、音片合
成に比べて音質の劣化が発生します。従って、あるテキスト情報より合成を行った場合、音片合成部分と素
片合成部分とのの音質の差が目だってしまう。そこで、当プロジェクトにおいては、固定フレーズ（４ヶ国
語）に限って、HB-TTS の音片合成を使用することとした。
＜VoiceText>
VoiceText は、コーパスベース音声合成エンジンで、ナレータによる収録音声をもとに作成された音声データ
ベースにより音声の合成をうので、比較的自然な音声に近い音質を維持している。また、日本語・英語・中
国語・韓国語に対応したエンジンを提供している為、４ヶ国語のテキスト情報を合成するエンジンとして使
用することとした。しかし、合成に使用する音声データベースについては、エンジンに付属のものに限定さ
れ、自由に好みの声にてデータベースを作成することができないというデメリットがある。
HB-TTS および VoiceText を用いた音声合成処理の流れは、下記のイメージとなります。
Ⅲ.2.4.2-108
① 来客の話す内容を音声認識エンジン AmiVoice にて認識。
② 認識した結果をもとにアクトロイドが話す内容を確定し、固定フレーズもしくは任意のテキスト情
報を音声合成エンジン API へ渡す。
③ －１（固定フレーズの場合）
固定フレーズを HB-TTS へ渡し、合成音声を作成。
③ －２（任意のテキスト情報の場合）
予め想定されていない任意のテキスト情報の場合は、テキスト情報を VoiceText の該当するエンジ
ンへ渡し、合成音声を作成。
④ 合成音声をアクトロイドより発話。
しかし、VoiceText については、付属のデータベースでの合成処理となる為、下記の課題が発生した。
＜課題＞
「文言の修正が発生した場合、再収録し HB-TTS 用音片辞書を再作成するまでの間、VoiceText での合成に
切り替えるが、その場合音質が変わってしまい、品質の低下となってしまう。」
そこで、
① 好みのナレータにて音声データベースの作成を行うことができる
② フレーズの変更が入った場合でも、極力品質を低下させない
を実現する為、当社のコーパスベース音声合成エンジン「AIVoice」を使用することとした。コーパスベース
音声合成エンジン「AIVoice」は、下記の処理から構成される。
形態素解析：入力されたテキスト情報を解析し、
読み、アクセント情報を付与する。
韻律予測：韻律知識ベースを基に、合成したい
音素系列の韻律パラメータを予
測する。
単位選択：韻律パラメータを基に最適な韻
律情報を持つ音素を選択し、波
形接続に必要なインデックス
を求める。
波形接続：選択された音素を、ひとつずつ
音声波形ファイルから切り出し
て、ひとつの波形として接続する。
しかし、「AIVoice」は、日本語の合成のみとなります。検討した結果、最低限日本語の音声に関する品質
を低下させないこととし、下記イメージにて再構築を行った。
Ⅲ.2.4.2-109
最終的には、上記の構成にて、下記関数を提供する合成エンジン API を構築した。
① 固定フレーズの音声出力（英語・中国語・韓国語）
int SpeakStaticPhrase(const char Mode,const char *Code);
Mode e:英語 k:韓国語 c:中国語
Code 固定フレーズ番号
② テキスト情報からの合成音声出力（日本語・英語・中国語・韓国語）
int SpeakData(const char Mode, LPWSTR Text);
Mode j:日本語 e:英語 k:韓国語 c:中国語
Text テキスト文字列（UTF-8）
③ リップシンク制御データ出力
char* LipSync(LPWSTR Text);
Text テキスト文字列（UTF-8）
④
音声出力強制停止
int StopSpeak()
⑤
発話状況確認
BOOL IsSpeaking()
Ⅲ.2.4.2-110
D,J-2 音声データベースの作成
音声データベースを作成する手順は、下記の通りとなる。
①
収録原稿の作成
②
収録原稿の翻訳（英語・中国語・韓国語）
日本語の原稿に対して、英語・中国語・韓国語の翻訳を行う。
③
音声収録
４ヶ国語のネイティブのナレータにて収録を行いました。収録時間は、
日本語：２２時間
英語
：１３時間
中国語：１３時間
韓国語：１３時間
となっている。
④
音声データベースの作成
外国語については、収録した音声に対して固定フレーズ番号の付与を行う。
日本語については、収録された音声を
・
単語単位
・
シラブル単位
・
音素単位
に分割し、それぞれの音に対して、Pitch・Duration 等の情報を付与する。
音声を分割する際には、機械的に分割しただけでは、それぞれの境界の精度が完全ではない為属人的に
補正を行う。この補正作業の精度が、合成の精度に大きく影響してくる。
単語単位
シラブル単位
音素単位
今回収録した音声から作成された音の数は、
単語単位：
約 7,400
シラブル単位：
約 31,500
音素単位：
約 68,000
となる。その結果、作成されたデータベースの大きさは、
日本語：１７０MB
英語・中国語・韓国語：合計５７０MB
Ⅲ.2.4.2-111
となる。
⑤
評価
作成された音声データベースより、合成された音声の評価およびチューニングを行う。
データベースの中には、同じ音が複数存在する。例えば、単語単位で「ａ」という音は、8,896 件存在
する。また、単語単位で「chikyuu」という音は 39 種類存在する。それぞれの音は、前あるいは後ろに
接続する音、Pitch、Duration が異なる。
前音素
後音素
Duration
Pitch
当プロジェクトにて使用した音声は、比較的抑揚の激しい音声の為、同じ音でも、Pitch、Duration が大き
くことなる為、合成した際の聞いた感じの違いとなって顕著に出てしまう。従って、なるべく単語単位で合
成を行う様にし、また意図しない音を選択してしまう場合には、意図的に特定の音を選択する様、パラメー
タのチューニングを行っている。
Ⅲ.2.4.2-112
開発テーマ K 実運用時に収集した音声データ分析による音声認識精度向上技術の開発
K-1 話し言葉音響モデルの強化
K-1-1 はじめに
本報告では自然発話音声に対する音声認識性能の改善のために話し言葉音響モデルの強化を行いその
有効性を示す。内容は次の 2 点である。
１．女性オペレータ話し言葉音響モデルの改善
２．汎用話し言葉音響モデルの改善
１．では音響モデルを女性オペレータに特化して構築し、認識性能が改善されたことを報告する。２．
では別タスクの自然発話音声に対しての性能を改善するため、学習データにそのタスク音声を追加して
音響モデルを再構築し、認識性能が改善されていること報告する。
K-1-2 女性オペレータ話し言葉音響モデルの改善
K-1-2.1 はじめに
現状での自然発話音声認識の性能改善を目指す。不特定話者の音響モデルの限界を超えるべく、特定話
者化を行って性能評価を行った。このアプローチによってエンジンに複数特化音響モデルを持たせてお
いて適宜音響モデルを切り替えながら認識を行って不特定話者音響モデル以上の性能を持つシステム
構築を行うことが一つのねらいである。今回は、タスクを女性オペレータに限定して音響モデルを構築
し、不特定話者音響モデルとの音声認識性能比較を行いその効果を示す。
K-1-2.2 実験条件
不特定話者音響モデルと女性オペレータ特定音響モデルを用いて音声認識評価を行う。音声認識は
AmiVoice 、評価プログラムは弊社独自のものを使用する。以下に実験条件を載せる。
音響モデル構築に使用したデータ：
○
不特定話者音響モデル（構築済）
社内話し言葉音声データベース（80 人／約 65 時間）
○
女性オペレータ特定音響モデル
女性オペレータ音声（19 人／約 40 時間）
サンプリング周波数 16kHz
言語モデル：
○
コールセンター薬品取引タスク
評価音声：
Ⅲ.2.4.2-113
○
女性オペレータ同一話者音声
50 セット
合計 1956 発話（19 名）
音響モデル構築に使用した音声と同じ話者
○
女性オペレータ相違話者音声
2 セット
合計 500 発話（2 名）
音響モデル構築に使用した音声と異なる話者
サンプリング周波数 16kHz
評価基準：
評価音声のセットごとに以下の基準で算出
○
認識率
認識率＝（正解文字数－置換誤り文字数－削除誤り文字数－挿入誤り文字数）／正解
文字数*100（％）
○
認識速度
認識速度＝実認識処理時間／実発話時間
K-1-2.3 実験結果
実験結果は以下の通りである。
表 42 女性オペレータ同一話者音声での認識率
不特定話者音響モデル
女性オペレータ特定音響モデル
認識率
65.34%
81.65%
認識速度
0.30
0.35
*数値は認識率・認識速度共にセットごとに求めた数値の平均
表 43 女性オペレータ相違話者音声
不特定話者音響モデル
女性オペレータ特定音響モデル
認識率
72.18%
83.22%
認識速度
0.27
0.31
*数値は認識率・認識速度共にセットごとに求めた数値の平均
認識率は女性オペレータ同一話者音声の場合不特定話者音響モデルの 65.34%に比べ女性オペレータ特
定音響モデルが 81.65%に性能改善されている。また、女性オペレータ相違話者音声の場合不特定話者
音響モデルの 72.18%に比べ女性オペレータ特定音響モデルが 83.22%に性能改善されている。以上から、
特定話者音響モデルの効果が確認できる。不特定話者音響モデルでぼやけてしまった男性と女性の音響
的特徴差が改善されたと考えられる。また、女性オペレータの発話は発話様式がやや固定化しており、
その分一般の話し言葉に比べて音響特徴差が大きくないことも性能改善の理由と言える。認識速度もほ
Ⅲ.2.4.2-114
ぼ変わらない。
K-1-3 汎用話し言葉音響モデルの改善
K-1-3.1 はじめに
自然発話音声の認識性能向上のため、話し言葉音響モデルの性能改善を行う。現在の音響モデルは学習
データ量（発話時間）や学習話者数が不十分であるため、別話者別タスクでの認識性能が十分ではない。
今回、別話者別タスクの音声を学習データに追加して音響モデルの再構築を行い、その認識性能の向上
を行うと共に、現状のタスク（話者）においてもある程度の認識性能を持たせることによる音響モデル
の頑健性を示す。今回使用するタスクは議会である。
K-1-3.2 議会音声について
今回使用するタスクは市議会音声である。議会音声は発話様式がやや書き言葉に近い。一方、現在の話
し言葉音響モデルに用いられている学習データは話し言葉に近いため、この間の音響的ミスマッチが起
こっている。また、学習データは社内会議タスクであり、市議会のタスクと多少異なりを持つ。音響モ
デルの学習はタスク依存性もあるため、これもミスマッチの要因となっている。この音響的ミスマッチ
を解消するため、学習データに市議会音声を追加することで市議会音声の認識率向上を行う。
K-1-3.3 実験条件
今回音響モデル（以後、改良音響モデルと呼ぶ）の構築に使用したデータは以下の通りである。比較と
してこれまでの話し言葉音響モデル（以後、改良前音響モデルと呼ぶ）の構築に使用した学習データも
載せる。
【改良音響モデルの学習データ】
社内会議音声データベース：約 65 時間、80 名
市議会音声データベース：約 42 時間、30 名
【改良前音響モデルの学習データ】
社内会議音声データベース：約 65 時間、80 名
もう一つ比較として、議会のみに特化した音響モデル（以後、議会音響モデルと呼ぶ）を用いる。これ
は、改良前音響モデルに対して市議会音声データベースを用いて音響モデル適応を行ったものである。
評価音声は以下の通りである。
[a] 議会タスク
① 本会議
310 発話
② 委員会 A
541 発話
③ 委員会 B
133 発話
[b] 社内会議タスク
① ミーティング A
77 発話
Ⅲ.2.4.2-115
② ミーティング B
138 発話
ただし、[b]－①に関しては close 音声（話者が音響モデルの構築に使用されたデータベースに含まれ
る）である。
評価基準は音声認識率である。認識エンジンは AmiVoice を用い言語モデルは以下の通りである。
[a] 議会タスク
議会タスク適応言語モデル
社内会議言語モデルを議会議事録作成コーパスで構築した言語モデルで適応
[b] 社内会議タスク
社内会議言語モデル
社内会議音声データベースを書き起こしたコーパスで構築
K-1-3.4 実験結果
実験結果は以下の通りである。
実験結果は以下の通りである。表のエラー改善率は以下のようにして求める。
エラー改善率＝{(100%－改良音響モデルの認識率)－(100%－改良前音響モデルの認識率) }／
(100%－改良音響モデルの認識率)
社内会議タスク
議会タスク
表 44 認識率
改良前
議会
改良
音響モデル
音響モデル
音響モデル
本会議
87.13%
90.10%
88.79%
委員会 A
61.05%
67.94%
65.81%
委員会 B
47.66%
57.60%
57.77%
平均
67.46%
73.52%
71.96%
エラー改善率
N/A
N/A
13.85%
ミーティング A
65.27%
58.92%
62.47%
ミーティング B
55.41%
50.46%
52.75%
平均
58.94%
53.49%
56.23%
エラー改善率
N/A
N/A
-6.60%
* 「平均」の数値は各セットを発話数で重み付き平均した結果である。
Ⅲ.2.4.2-116
議会タスクにおいては、
改良前音響モデルに比べて改良音響モデルが平均で 4.5%の認識率が向上した。
議会音響モデルとの平均認識率の差は 6.06%から 1.56％に縮まった。社内会議タスクにおいては改良前
音響モデルに比べて改良音響モデルが平均 2.71%悪くなった。議会音響モデルに比べると 1.74%上回っ
ている。改良前音響モデルと比べた改良音響モデルのエラー改善率は議会タスクで 13.85%改善したの
に対し社内会議タスクにおいては 6.60%悪くなったが、議会タスクの改善に比べれば悪くなった比率は
小さく悪影響が抑えられていることが分かる。
K-1-4 まとめ
K-1-4.1 女性オペレータ話し言葉音響モデルの改善
自然発話音声認識の性能改善を目的とし、女性オペレータ特定話し言葉音響モデルの性能評価を行った。
不特定話者音響モデルと比較したところ、認識率が約 10～15％改善され、女性オペレータ特定音響モ
デルの効果が確認できた。以上により、話者・タスクを特定した音響モデルの構築の有意性を示すこと
ができた。残っている課題として、男性に特定した場合の効果や、特定話者モデルの頑健性を大きくす
る（話者数を増加するなど）ことが挙げられる。
K-1-4.2 汎用話し言葉音響モデルの改善
自然発話音声の認識性能向上のため、話し言葉音響モデルの改良を行った。学習データに議会音声を追
加して音響モデルを再構築し、音声認識評価を行った。その結果、議会タスクにおいて平均 4.5%認識
率が改善した。エラー改善率に換算すると 13.85%改善している。社内会議タスクにおいては、エラー
改善率 6.06%悪くなったが議会タスクのエラー改善率に比べて低く、悪影響が抑えられていることが分
かった。今後は別タスクでの評価を行う必要がある。また、学習データを別タスクなどからさらに追加
して音響モデルの頑健性を高めていく必要がある。
K-2 性別・世代識別技術の開発
K-2-1 はじめに
現在の音響モデルは不特定話者・不特定年齢のものが主流であり、話者や年齢による音響的特徴差はあ
る程度吸収できているが特定話者音響モデル以上の性能を算出することは難しく、認識性能を極限に高
めるためには特定話者モデルの用意が不可欠である。特定話者モデルはその話者以外の音声では著しく
認識性能が低下することが多い。よって、特定話者モデルを複数用意し、その話者にあったモデルを使
用しなければならない。しかし、特定話者モデルを準備するとなると膨大な量になり現実的ではない。
よって、ある程度音響的特徴の似た話者でクラスタリングされたモデルを準備することが必要であり、
例えば、男性と女性、子供と大人でグルーピングする。また、このシステムを自動化するためにはどの
モデルを使用するか決めるための識別エンジンが必要である。本報告ではその第一段階として話者の性
別・世代を選定するための性別・世代識別エンジンの開発を行い、性能評価を行った。
K-2-2 性別・世代識別エンジン構成
以下に性別・世代識別エンジンの構成を示す。
Ⅲ.2.4.2-117
特徴量
音声
結果
スコア計算
30 代男性
40 代女性
30 代女性
40 代男性
…
識別モデル
図 13 性別・世代識別エンジン
まず、事前にいくつかの性別・年代でグループ化されたモデル（これを識別モデルと呼ぶ）を準備する。
これはグループごとの多数話者音声から構築されたモデルである。性別・世代識別エンジンは、入力音
声に対して音響特徴量を抽出し、その音響特徴量と各々の識別モデルとのスコア計算を行い、最もスコ
アの高かったもの（音響特徴量に最も近かったもの）を結果として算出する。
K-2-3 性能評価
性別・世代識別エンジンの評価を行った。評価条件は以下の表の通りである。
表 45 評価条件
識別モデル数
25 (具体的には以下の通り)
幼児 7 歳 8 歳 9 歳 10 歳 11 歳 12 歳 13 歳 14 歳
20-29 歳女 20-29 歳男 30-39 歳女 30-39 歳男
40-49 歳女 40-49 歳男 50-59 歳女 50-59 歳男
60-64 歳女 60-64 歳男 65-69 歳女 65-69 歳男
70-74 歳女 70-74 歳男 75-79 歳女 75-79 歳男
評価音声数
231
1 発話 30 秒程度
発話性別・世代は以下の通り
(※ 各性別・世代ごとに 5～27 発話)
6 歳女 6 歳男 7 歳女 7 歳男 8 歳女 8 歳男 9 歳女 9 歳男
10 歳女 10 歳男 11 歳女 11 歳男 12 歳女 12 歳男 13 歳女
13 歳男 14 歳女 14 歳男 20-29 歳女 20-29 歳男 30-39 歳女
30-39 歳男 40-49 歳女 40-49 歳男 50-59 歳女 50-59 歳男
60-64 歳女 60-64 歳男 65-69 歳女 65-69 歳男 70-75 歳女
70-75 歳男 75-79 歳女 75-79 歳男
評価基準
世代識別率
性別識別率(6～14 歳に関しては、結果が幼児～14 歳の
どちらかモデルであれば正解とする)
世代識別率と性別識別率は表 46 の通りである。
Ⅲ.2.4.2-118
表 46 世代識別率と性別識別率
世代識別率
37.2%
性別識別率
99.6%
K-2-4 考察
性能評価の結果、世代識別率は低かったが、概ねその世代の近くに識別しているようである。このこと
から音響特徴はその概ね年齢を重ねるごとに変化しているが正確な年齢で変化をしているわけではな
いため識別することが非常に難しいと考える。ただし、年代を広く分類すれば識別率が向上すると考え
る（例えば子供と大人の２グループで識別するなど）。識別結果を見ると特に子供と大人での識別は可
能であると考えられる。性別識別率は高かった。男性と女性では音響特徴の違いが大きいためと考える。
よって、音響モデルを男性・女性別々に作成すれば認識性能が大きく改善する可能性があるということ
が言えるだろう。
K-2-5 まとめ
性別・世代識別エンジンを開発し、その性能評価を行なった。世代識別率は低く、世代での識別は難し
いことが分かった。ただし、子供と大人など、大きく分類すれば識別は十分に可能であると考える。ま
た、性別識別率は非常に高く、性別での識別は可能であることが分かった。これは、性別での音響特徴
の違いがはっきりしているためであると考えられ、音響モデルを複数準備する必要性もあると考えられ
る。今後は評価音声の発話秒数を短くした場合の評価とこのエンジンを実際の音声認識システムに組み
込んで統合的に評価することが必要である。
K--3 話し言葉言語モデルの強化
K-3-1 はじめに
愛知万博開始後、アクトロイドの運用を始めて、実際の対話状況の録音データが収集されたが、実際に
は想定発話とは違った様々な顧客の発話が存在した。日々収集される顧客の音声を一字一句書き起しを
して、そのテキストを言語モデルに追加学習をして、話し言葉言語モデルとしての強化を行った。
その詳細内容は、報告書としての構成の都合上、言語モデルに関して記述している「E-1-2 想定発話と
書き起し結果による認識率の総意について」と「E-1-3 書き起こし結果から算出した出現頻度に基づい
たクラスマップのパラメータ調整」で述べているので、ここではそのまとめのみを記述する。
K-3-2 まとめ
話し言葉言語モデルの強化として、平成 17 年 3 月 25 日の愛知万博開催以降には、実際に来客者とロボ
ットとの対話を収録し、書き起こしを行ったり、現地運営スタッフからの日報など報告により来場者の
発話バリエーションの作成を行った。これら書き起こし結果、発話バリエーションを反映して言語モデ
ルを再開発することにより、より話し言葉に適した対話が可能となった。想定発話を用いた言語モデル
Ⅲ.2.4.2-119
では認識率が約 68.1%であったのに対し、書き起し結果を反映した結果、認識率は約 79.8%まで向上し
た。さらに音声認識にかかる時間も大幅に短縮した。また、ロボットと人間との対話に使用しているキ
ーワードを考慮すると、認識結果に変化のあった発話のうち、約 46.9%は改善悪化どちらともいえない
ものであったが、約 45.5%が改善、悪化したものは、約 7.6%であった。さらに、クラスマップを用い
て作成してパビリオン名などのキーワードに対して、上記書き起し結果を用いて各キーワードの出現確
率調整を行った。この結果、認識率は約 79.8%からさらに、約 81.4%まで向上した。認識結果に変化の
あった発話のうち、約 41.6%は改善悪化どちらともいえないものであったが、約 51.1%が改善、悪化し
たものは、約 7.4%であった。
（注：これらの実験では、全て、愛知万博会場で実際に収録した音声をもとに作成した音響モデルを使
用している。19130 発話を使用。）
K-4 音響モデル適応技術の開発
K-4-1 はじめに
音声認識システムにおいて、実環境の音声データによる音響モデルの適応は非常に有効である。より効
果的に適応させるためには、適応させる音声データに対応した教師テキストが必要であるが、テキスト
への書き起こしには膨大な時間がかかる。一方で、議会や会議などの議事録などの作成として、音声認
識結果を利用した書き起こしが行われ始めており、書き起こしデータが集めることが可能な環境も増え
てきている。ただし、これらの書き起こしの目的は、議事録の作成であり、要約されることが多く、音
声とは完全に対応していない。本レポートでは、このような教師データとしては不完全なテキストを用
いて、音響モデル適応を行う方法とその評価結果について述べる。
K-4-2 不完全なテキストからの教師データ作成
議事録の作成などを目的とした音声認識を用いた書き起こしの場合、音声に忠実に書き起こす必要はな
く、ある程度要約して分かりやすくするのが通常である。そのため、このような議事録として書き起こ
されたデータを教師データとして使用する場合、音声とテキストが合致している部分のみを抽出して、
適応データとして利用する必要がある。まず、このようなデータの場合、実際の発話内容に対して、表
現を変えたり、内容自体を省略したりすることが考えられるが、具体的には、以下のような点が挙げら
れる。
♦
♦
♦
♦
「えー」
「あのー」などの間投詞の削除
言い淀みや言い直しといった言い間違い箇所の削除
「～ですからねぇ」などの口語表現の修正
カッコや矢印といった記号や未知語の挿入
これらの修正は、音声と教師テキストのアラインメント（対応付け）に悪影響を及ぼし、適応精度の低
下の原因となることが考えられる。そこで信頼できるデータのみを適応させることにより、適応の効果
が得られるかどうかの実験を行った。
Ⅲ.2.4.2-120
K-4-3 評価条件
表 47 に評価条件を示す。評価タスクとして、市町村の議会議事録作成タスクとロボット（アクトロ
イド）による愛知万博の会場案内タスクを用いた。議会タスクに関しては、教師テキストとして、実際
に音声をもとに議事録として作成（要約）されたテキストと、音響モデル適応用に完全に書き起こされ
たテキストの２種類について評価を行った。万博タスクに関しては、議事録などを作成する目的がない
ため、完全書き起こしのテキストによる適応のみの評価を行った。また、議会タスクのうち、本会議は、
読み上げに近い発話が多く、委員会は、質疑応答など自由発話に近い発話が多いタスクである。
表 47 評価条件
音響モデル適応
適応データ
[a] 議会（本会議、委員会）
音声
約 20 時間
テキスト
① 完全書き起こし
② 要約（＝議事録）
[b] 万博会場案内
適応方法
音声
約９時間
テキスト
完全書き起こし
MAP 適応（最大事後確率推定法）
認識
認識エンジン
AmiVoice （2005/02/20 バージョン）
音響モデル
16kHz 自由発話用音響モデル
言語モデル
[a] 議会議事録作成用
単語数
約 50000 単語
[b] 万博会場案内用
単語数
約 7000 単語
テストセット
評価データ
不特定話者による発話データ
[a] 議会
① 本会議
310 発話
② 委員会 A
541 発話
③ 委員会 B
133 発話
[b] 万博会場案内
541 発話
K-4-4 評価結果および考察
表 48、表 49 に評価結果を示す。完全書き起こしデータを教師テキストとして用いた場合、エラー改
善率が議会タスクで 20%前後、万博タスクで 38%となった。一方で、議事録という不完全な教師テキス
トを用いた場合、エラー改善率は 15%前後と完全書き起こしデータの場合より、若干劣るものの、かな
りの効果が見られた。
Ⅲ.2.4.2-121
¾
議会議事録
表 48 評価結果（議会議事録）
¾
適応前
不完全書き起こし
完全書き起こし
本会議
87.13%
89.17%
90.10%
委員会 A
61.05%
66.68%
67.94%
委員会 B
47.66%
57.25%
57.60%
万博会場案内
表 49 評価結果（万博会場案内）
万博案内
適応前
不完全書き起こし
完全書き起こし
52.15%
N/A
75.37%
K-4-5 まとめ
実環境音声による音響モデル適応に関して、教師テキストとして、完全に書き起こされたデータではな
く、議会や会議の議事録などのように、すでに目的に合わせて編集、要約されたテキストを使用した場
合の認識性能の評価を行った。信頼できるデータのみを適応させることにより、適応の効果が得られる
ことがわかった。
K-5 マルチチャンネルによるノイズ除去技術の開発
K-5-1 はじめに
音声認識性能を劣化させる要因の一つである雑音を抑圧するための技術開発及び音声認識評価を行う。
はじめに、今回構築した雑音抑圧技術であるマルチチャンネルによる遅延和ビームフォーミングについ
て説明し、その後遅延和ビームフォーミングによる音声認識評価を行う。
K-5-2 マルチチャンネルによる遅延和ビームフォーミング
今回開発したマルチチャンネルによる遅延和ビームフォーミングについて述べる。遅延和ビームフォー
ミングは音声の到来方向へ指向性を作る一つの技術である。マイクを複数もたせることで到来方向を検
地することが可能であり、また、マイクの個数を多くすればするほど鋭い指向性を持つことができる。
（ただし、当然ながら処理量も多くなる。）
図 14 にマルチチャンネル遅延和ビームフォーミングの構成図を載せる。
Ⅲ.2.4.2-122
遅延器
遅延器
d1
＋
d2
Mic channels
図 14 遅延和ビームフォーミング
遅延和ビームフォーミングでは到来音声信号に対してマイクごとに同相化を行って音声信号を加算す
る。これにより、目的方向からの音声信号が強調される。逆に目的音声以外の方向の信号（雑音など）
は同相化されないため相殺されて大きくならない。同相化のための遅延時間は到来方向に基づいて目的
チャンネルに対する距離差（例えば図の d1, d2）と音速により計算される。
τ =d/c
τ：遅延時間
d：目的チャンネルに対する到来距離差
c：音速
遅延時間を付加して同相化した音声を加算するときの式は以下のようになる。
y(t) = x1(t) + x2(t-τ1) + x3(t-τ2)+….
y(t)：出力信号
x1(t), x2(t), x3(t)：入力信号
τ1, τ2：遅延時間
到来方向が未知の場合の遅延時間の算出方法に音声の相関を用いる。音声の相関が最も高くなるポイン
トがその遅延時間であり、到来方向が検知できる。
K-5-2 実験条件
遅延和ビームフォーミングの評価を行った。評価基準は音声認識率である。比較として１チャンネルの
みの音声と指向性マイクを用いた。以下に実験条件を示す。評価音声及び遅延和ビームフォーミングは
事前にエコーキャンセル(ツール)を行っている。指向性マイクは収録後にエコーキャンセル(ツール)・ノ
イズキャンセル（ツール）を行っている。音響モデルはキャンセル音声にマッチした音響モデルにする
ため、それぞれに対して音響モデルを構築しなおした。
Ⅲ.2.4.2-123
遅延和ビームフォーミング
無指向性マイク
マイク個数
3個
マイク素子間隔
20cm, 40cm
（マイク位置に関しては図 15 を参照）
20cm
40cm
M1
M2
M3
M4
マルチチャンネルマイク
指向性マイク
図 15：マルチチャンネルマイクの位置
音響モデル
1. 指向性マイク音響モデル
（指向性マイクで収集した万博会場の音声から構築）
2. 遅延和ビームフォーミング音響モデル
（遅延和ビームフォーミング処理済万博会場音声から構築）
言語モデル・辞書
万博タスク(想定発話コーパス＋実発話コーパス)から構築
デコーダ
TrsDecoder (弊社独自プログラム)
評価音声
万博会場で収録した 500 発話
1. 指向性マイク音声
（指向性マイク、図 15 の M4 で収録した音声）
2. 遅延和ビームフォーミング音声
（無指向性マイク、図 15 の M1～M3 で収録した音声に遅延和ビームフォーミング処理を施し
た音声）
Ⅲ.2.4.2-124
K-5-3 実験結果
実験結果を表 50 に示す。
表 50 実験結果
指向性マイク
遅延和
音響モデル
ビームフォーミング
音響モデル
指向性マイク音声
66.55%
N/A
遅延和
N/A
71.26%
ビームフォーミング音声
結果の表から、指向性マイクに比べて遅延和ビームフォーミングの認識率が 5%程度高いことが分かっ
た。しかし、改善率はあまり高くない。これはマイク数が少なく鋭いビームが作成できてないことと、
マイク間隔が広いため高域周波数での指向特性が悪いことが考えられる。
K-5-4 まとめ
周囲の雑音を抑圧するためにマルチチャンネルによる遅延和ビームフォーミングを行った。遅延和ビー
ムフォーミングは目的到来方向の音声を強調するために目的方向の音声に対して遅延音声を同相化し
加算する手法であり、目的方向以外からの雑音を抑圧する効果がある。音声認識実験の結果、1 個指向
性マイク音声に比べて認識率が 5％改善することが分かった。今後は、マイク数を増やしてさらに音声
強調を行うことや他の雑音抑圧手法と組み合わせて認識率の向上を図ることが考えられる。
Ⅲ.2.4.2-125
K-6 音声対話プログラムの改善
K-6-1 はじめに
本報告では、音声対話プログラムの性能向上のための変更内容について記述する。
K-6-2 万博会期中の変更点
万博会期中に、対話の精度向上の為に行ったプログラム修正について列挙する
（バグ修正などについては、特に記述しない）
表 51 対話精度向上のためのプログラム修正一覧
NO
修正目的
修正内容
効果
１
待機状態のとき、ガイダンスを
３０分の休憩の時、信号を受けてガイダ
休憩中にガイダンスを
とめたい
ンスをとめるように機能を追加
行わなくなった
誤認識でシナリオが進んでし
特定の発話（呪文）を認識したら、初期
誤認識発生時、ユーザー
まった時、運営スタッフにてシ
状態に戻るような機能を追加
の待ち時間の軽減
誤認識しやすい単語をプログ
音声認識の信頼度を単語単位にてチェッ
誤認識の低減。特に言語
ラム内にてチェックしたい
クを行い、信頼度が低い物を削除する
判定処理に失敗する確
２
ナリオを初期状態に戻したい
３
率の低下。
４
５
音が入りづらいときがある
言語によって認識しやすさに
音声の切り出しプログラムを更新
音声の切り出しの精度
（SegmenterG3）
向上
言語毎に信頼度の設定を可能にした
言語による、認識精度の
ばらつきが有る
６
－
ばらつきの低下
音声切り出し設定の反映
音声の切り出しの精度
向上
７
８
シナリオを開始しやすくする
3 台あるアクトロイド毎で、シ
シナリオが開始された後から、単語単位
言語判定処理の精度向
の信頼度チェックを行うように変更
上
場所情報を導入
アクトロイドに個性を
ナリオを変更したい
持たせた対話が可能に
なった
９
１０
アクトロイドが喋っていると
アクトロイドがガイダンスを行っている
ユーザーの「ありがと
きも、特定のシナリオを実行し
時、割り込みでのユーザー発話の処理に
う」に反応できるように
たい
対応
なった
シナリオが勝手に進む
アクトロイドが喋り終わってから一定時
雑音や周囲の笑い声に
間の認識結果は、処理せずに無視する
よって、シナリオが勝手
に進む確率の低下
１１
シナリオが勝手に進む
シナリオ単位にてユーザー発話のタイム
ユーザーが考え込むシ
アウトの設定に対応
ナリオなどで、対話が成
立しやすくなった
Ⅲ.2.4.2-126
１２
シナリオが勝手に進む
ユーザーが発話した場合は、タイムアウ
対話が成立しやすくな
トが発生してもタイムアウト処理を行わ
った
ず、ユーザー発話の完了を待つ。
１３
「こんにちは」が認識しないユ
特定の発話（呪文）によって、どの状態
言語に失敗したユーザ
ーザーが居る
にあっても、日本語の案内を行う状態に
ーの救済
戻す機能を追加
１４
１５
１６
１７
誤認識で意図しないシナリオ
特定の発話（呪文）によって、言語判定
誤認識したユーザーの
に進む
後のシナリオ開始に戻す機能を追加
救済
特定の単語に誤認識しやすい
文章内の単語に関しても、信頼度をチェ
対話が成立しやすくな
ックできるように修正
った
何度も対話したいユーザーが
「もう一つ質問があります」という呪文
ユーザーの満足度向上
居る
により、シナリオ開始に戻す機能を追加
声が届いたか判りにくい
音声認識開始のタイミングで、アクトロ
レスポンスの向上
イドに対して首をかしげるような動作を
行う指示を送信するように、機能追加
１８
うるさい場所では認識率が低
マルチチャンネル音声認識プログラムに
い
対応
Ⅲ.2.4.2-127
認識率向上
まとめ
愛知万博が開催されてから、入場ゲートで案内ロボット・アクトロイドの運用を始め、収集されたデー
タは、より自然な音声対話を実現するために非常に貴重なデータである。我々はそのデータを分析し、
音声認識精度の向上やより自然な対話モデルの開発に活用した。
話し言葉音響モデルの強化においては、話者特化音響モデルの構築と汎用音響モデルの強化の２つを行
った。話者特化音響モデルの構築では、音響モデルをある特定タスク・特定話者に特化した音響モデル
を構築し、音声認識実験結果から認識性能が改善したことを確認した。汎用音響モデルの強化では、現
在の汎用音響モデルの構築に使用したタスク音声とは別タスクの音声に対する性能改善を目的として
そのタスク音声を学習データに追加してモデルを再構築することでその認識性能の向上を行うと共に、
現在の音響モデル構築に使用したタスクにおいてもある程度の認識性能を持たせることを確認した。
音響モデル適応技術の開発においては不完全な書き起こしでも認識性能が改善できる音響モデル適応
技術の開発を行った。
マルチチャンネルによるノイズ除去技術の開発では複数マイクによる遅延和ビームフォーミング技術
を開発した。これは、複数マイクから収録した音声を同相化加算させることで目的方向の音声を強調す
る技術である。音声認識実験の結果、１つの指向性マイクに比べて 5％ほど音声認識率が改善すること
が分かった。
話し言葉言語モデルの強化では、愛知万博開始後のアクトロイドの実運用で日々収集される顧客の音声
を一字一句書き起しをして、言語モデルの追加学習と各種パラメータの調整を行った。その結果認識精
度の大幅な改善、約 13%の向上を確認した。
性別・世代識別技術の開発は性別・世代ごとに特化した複数音響モデルでの認識を将来的な目標とし、
その第１段階として性別・世代識別エンジンの開発を行った。実験の結果、性別識別と子供と大人など
割と大きなグループでの世代識別は可能であることが分かった。
音声対話プログラムの改善に関しては、季節・万博イベントの話題の応答を行うシナリオ及びキーワー
ドの追加・変更を月に一回程度、会期を通じておこない、より自然な接客応対が出来るように改善した。
今後も更なる音声認識精度向上とより自然な対話モデルの開発に努力したい。また、本システムを企業
化するために、各種ドメインやタスクにカスタマイズするコストを下げることが出来るような汎用化の
技術開発も必要であると考えている。
Ⅲ.2.4.2-128
（３）成果の意義
成果は、アンドロイドというロボットの存在を世界に向けて発表できたことがひとつ大きな事としてあげることができ
る。人間そっくりの外見と、人間そっくりの動作を実現は、ロボットと人のコミュニケーションにおいて、最初から人
間と行っているいつもどおりの方法でできることを明示している。それを実現・実証試験を行い確認がとれたこと
が大きな成果といえる。
訪問者・来客者の自然発話の音声認識技術に関しては、愛知万博のドメインで接客・案内のタスクに絞った言
語モデル・音響モデルを開発することにより、自然発話の連続音声認識精度が 81.4%であったことは意義があ
る。
訪問者･来客者の質問に対する応答技術については、質問応答技術としてキーワード・アクションテーブルを用
いたフレーム駆動型対話制御方式の技術を開発した。対話制御の方式としては特別ではないが、対話シナリオ
やテーブルに登録するデータ（コンテンツ）を工夫することにより、ロボット実機でのタスク達成率が 70%以上を実
現できたことは、音声対話のタスク達成率としては意義がある。
訪問者・来客者の発話意図確認技術については、音声対話においては誤認識やユーザーの言葉不足のため、
ユーザーの発話意図がわからずに対話が進まないことがこれまでの問題であった。
ユーザーとの対話を進めるためにはユーザーの再発話を促すような、自然な内容の発話を、現在の状態を保持
するスロットと過去の発話履歴から、作成する技術を開発した。本技術により、聞き返し後に対話が成立した確
率は 89.6%の高確率であったため、本技術成果には意義がある。
雑音環境下での音声認識技術については、S/N の高いマイクの設置方法の工夫や、雑音が重畳した実環境音
声で学習した音響モデルや、雑音環境下における音声区間検出技術により、万博会場の雑音環境下での日本
語音声認識精度が 41.6%から 72.4%に改善したことは改善率の大きさに意義がある。
他国語（韓中英）の音声認識技術については、他国語（韓中英）の音声認識エンジンを開発し、特定キーワード
フレーズによる言語自動識別技術を開発した。他国語のユーザーが少なかったため、実音声が万博実施期間
中に多く取れなかったことにより、音声認識精度をそれほど高く出来なかったことは残念であるが、言語識別機
能を実現して、4 ヶ国語の不特定話者連続音声認識をリアルタイム処理で実現したことは意義がある。
4 カ国語（日韓中英）の音声合成技術については、日本語はコーパスベース音声合成エンジン WizardVocie を
使用し、テキスト情報より、形態素解析、韻律予測、単位選択、波形接続を行って音声合成を行う方式で自然な
音声合成を実現した。英語・韓国語・中国語は独自の録音再生エンジンを使用し、固定フレーズ ID にてヒットさ
せ、該当する音声の再生を行う技術を開発した。人間そっくりなロボットの発話として録音音声に近い品質の音
声合成を実現したことに意義がある。
実運用時に収集した音声データ分析による音声認識精度向上技術の開発については、性別･世代識別技術の
開発、話し言葉言語モデルの強化、音響モデル適応技術の開発、マルチチャンネルによる雑音除去技術の開
発を行って、音声認識精度の向上を図った。実環境の音声データを大量に入手するチャンスは少ないが、今回
のような万博での実運用から得られたデータは非常に貴重なものである。音声認識精度が向上できたことに加
え、データを収集できたことも大きな意義と価値がある。
女性型接客ロボット「アクトロイド」は 2005 年 3 月 25 日から 9 月 25 日まで愛知県で開催された万国博覧会「愛・
地球博」で人気キャラクターとして北ゲート，東ゲート，西ゲートに設置された会場案内ブースで 3 人の案内嬢と
して活躍した。また，ロボットステーションにおいては 1 名の「アクトロイド」が司会アシスタントとして活躍した。これ
まで，ロボットといえば機械的なキャラクターが中心であったが，外観や動作，発話等を限りなく人間に近づける
ことによって表現力豊かなコミュニケーション媒体としての能力を発揮できるようになったことは大きな意義がある。
Ⅲ.2.4.2-129
人間と同様のコミュニケーションを行うためにはまだまだ技術開発が必要であるが，目的を絞った特定の用途に
対しては十分に実用化できることが今回の実証実験で示すことが出来たことも意義があった。
（４）特許の取得
特になし。
（５）成果の普及
2007 年 11 月国際ロボット展出展
2007 年出雲市科学館出展展示
2008 年日本科学未来館エコテク未来展出展
他取材など多数。
成果品のうち接客タイプの 2 台は
科学技術館 NEDO コーナーにて常設展示
国際児童年記念館にて常設展示
Ⅲ.2.4.2-130
2.5 次世代インテリジェント車いす
2.5.1 自律走行機能を持つ次世代インテリジェント車椅子の開発
【アイシン精機株式会社、富士通株式会社】
（１）研究概要
本事業は、「愛・地球博」会場において実験運用可能な試作機を開発することで、早期実用化に向けての技
術実証を目的として、GPS、RFID 等を用いた移動体の高精度位置認識技術を高度化することにより、屋外及び
屋内環境で自律的に移動する次世代インテリジェント車椅子を開発するものである。障害物検出・回避、本体
の小型・軽量化、画像・音声等による安全情報提示等の、実環境における使用に不可欠な安全性向上に関す
る技術開発も行う。
（２）成果詳細
表 1 に研究開発項目毎の目標の達成度を示す。
表 1 目標の達成度
基本計画
研究項目
目的
目標
成果
達成度
研究課題
評
価
自動走行
自律走行制
自己位置認識
介助者なしで目的
GPS,RFID 等のセン
目標軌道への追従や
能力
御システム
技術及び走行
地まで安全に到達
サ情報を融合し、
目的地での位置決め
の開発
制御技術を開
する走行制御技術
高精度位置推定を
を精度良く（半径
発する。
を開発する。
行い、それに基づ
0.5[m]以内）実現でき
いて走行制御を実
た。
○
現するシステムを
開発した。
障害物検
障害物を確実
前方にある障害物
レーザレンジセンサ
前方 2[m]、幅 1[m]の
出・回避技
に検出し、停
を確実に検出し、未
情報の処理ソフトウ
範囲内の障害物を確
術の開発
止・回避を行う
知障害物に対して
ェアを開発し、未
実に検出し、緊急時
技術を開発す
は停止し、既知障
知・既知障害物の
以外には使用者に違
る。
害物に対しては安
判別を確実に行う
和感を与えることなく
全に回避する技術
システムを構築し
停止・回避できるよう
を確立する。
た。
にした。
測位システ
自己位置認識
屋内外でのシーム
GPS,RFID の組合
位置決定精度＜
ムの開発
の技術を開発
レスな高精度測位
せによる屋内外シ
50cm を実現し、目標
する。
を実現する。
ームレス測位の技
を達成した。
○
○
術を確立した。
安全性
安全情報提
情報提供により
位置に応じて適切
サーバと端末の連
６か月間のデモで有
供システム
安全走行をサ
な情報を提供でき
携により適切なタイ
効性を実証し、目標
の開発
ポートする技術
るシステムを実現
ミングで情報提供
を達成した。
を開発する。
する。
できるシステムを実
現した。
Ⅲ.2.5.1-1
○
耐久性、
小型・軽量
小型・軽量なイ
現状の簡易型電動
本体重量４０ｋｇ、寸
制御部分は量産では
信頼性
化に関する
ンテリジェント車
車椅子に対して制
法９４ｃｍ×６４ｃｍ
専用基板化される
研究開発
椅子を開発す
御部分増分を２ｋｇ
×８７ｃｍ（ＧＰＳア
為、実質の重量増は
る。
重量ＵＰに留める
ンテナ部は１５０ｃ
１．５４ｋｇと目標を達
総重量２５ｋｇ及び
ｍ）の車椅子本体
成できた。また、寸法
同じ寸法サイズを
を開発した。
もＧＰＳアンテナを除
実現する。
○
き目標を達成した。
※ ◎：目標を上回る ○：目標を達成 △：目標を未達成－：該当せず
① 自律走行制御システムの開発
① －１自律走行制御法
本研究開発の対象であるインテリジェント車いすは、アイシン精機（株）製簡易型電動車いす TAO LightⅡの
改造版であり、２輪独立駆動型移動ロボットと同じ運動学を持つ。ステアリングは左右車輪の回転差によって実
現できるタイプである。本車いすに自律走行を実現させるにはいろいろな方法が存在するが、良く用いられてい
る方法の１つであるライン追従制御方式を採用し、研究開発を行った。この方法は、設定軌道と自己位置間の
距離や方角のずれを検出し、その誤差を０にするよう時々刻々左右車輪の回転角速度差を修正する方法で、
概念は図１のように表される。
Target Path
Wheelchair
図１ライン追従制御法
図１において、V は設定した車いす並進速度、VR、VL は左右車輪回転速度、L は設定軌道と車いすの最短距離、
Φは設定目標軌道と車いすの方向のずれ角である。車いすの現在位置と方位が検出できれば、それに従って
L とΦが算出できる（車いすの現在位置と方位の算出法については、①－２で述べる）。式(1)-(3)を用いて VR、
VL を算出し、両車輪の速度を制御することで軌道追従が実現できる。
V R = V + ΔV
(1)
V L = V − ΔV
(2)
ΔV = K L L + K LD L + K Y Φ + K YD Φ (3)
KL, KLD,KY,KYD:軌道追従ゲイン
Ⅲ.2.5.1-2
目標軌道は L とΦを算出し易いように直線と円弧の組み合わせにより設定することにした。また、走行開始時
及び走行停止時の加減速がスムーズ行えるように、加減速時の速度パターンをランプ状に変化するように設
定した。
① －２高精度位置・方位推定法
前述のように車いすを設定軌道に追従させるには、車いすの位置を精度良く算出しなければならない。車い
すの位置・方位を算出するためには、車いすの両車輪に取り付けられたロータリエンコーダにより得られる回
転角度（角速度はソフトウェア上で差分を取ることにより計算）、GPS・RFID により算出される絶対位置情報、方
位センサにより検出される方位情報（詳細は④－１、④－２、④－３にて説明）を利用して、精度良く計算するこ
とが必要になる。
本研究開発では、両車輪に取り付けられたロータリエンコーダにより計算される角速度を積分することにより
得られる位置（x,y 座標）と方位に関する相対的な情報をベースに、GPS、RFID、方位センサの絶対位置情報を
その精度を考慮してカルマンフィルターにより適宜融合することで、高精度の位置・方位推定を行う方法を提案
する。①－１で述べた制御手法と本位置・方位推定法のブロック図を図２に示す。
目的地設定
目的地データ
GPS
統合測位
装置
安全情報提供装置
安全情報
提供装置
統合測位装置
レーザレンジセンサ
自律走行制御コントローラ
データ処理
RFID
方位
センサ
設定並進速度
V
+
GPS,RFID,
モータ駆動
車輪回転角速度ﾚｰｻﾞﾚﾝｼﾞｾﾝｻ
電圧
+
VR
モータ
ω R ,ω L デッド
ドライバ
+
レコニング
ﾌｨﾙﾀ
ﾘﾝｸﾞ
L
KL
．
L
（左右）
VL
φ
目標軌道
データ
-
方位センサ，
ﾚｰｻﾞﾚﾝｼﾞｾﾝｻ
K LD
ﾌｨﾙﾀ
ﾘﾝｸﾞ
．
φ
KY
K YD
+
+
+
+
+ +
図２高精度軌道制御法のブロック図
図２に示すように、統合測位装置では GPS、RFID、方位センサからの情報を処理し、それらの信号は RS232C
によるシリアル通信により車いすの両車輪回転を制御する自律走行制御コントローラに送られる。GPS と方位
センサ情報については１秒毎に、RFID による位置情報については車いすが RFID 上を通過すると即座に送られ
る。後述の自律走行制御コントローラに搭載されているボードパソコン上で図２に示すシーケンスにて軌道追従
を実現するためのモータ出力計算が行われ、その結果高精度な軌道追従が実現できる。
①－３自律走行制御コントローラの開発
自律走行制御コントローラの構成を図３に、写真を図４に示す。
Ⅲ.2.5.1-3
CPU、I/O ボード
統合測位装置
RS232C
レーザレンジ
センサ
CPU ボード
(RT-Linux)
AD ボード
バッテリ電圧
カウンタ
ボード
右車輪エン
コーダ
右車輪駆動
モータ
左車輪エン
コーダ
左車輪駆動
モータ
DA ボード
モータドライバ
モータドライバ
図３制御コントローラのシステム図
モータドライバ
CPU ボード
IO ボード
図４制御コントローラの写真
CPU にはソフトウェアの開発を容易に行えるようにシリコンディスクを搭載した PC104 規格のボードパソコン
（ADVANTECH, PCM-3350）を採用し、AD ボード（テクノシステム（株），TP4AD812）、DA ボード（テクノシステム
（株），TP4DA412）、カウンタボード（テクノシステム（株），TP4CNT）を IO ボードとして採用した。OS には
RT-Linux を採用し、C 言語により制御ソフトウェアを開発し、応答性の良い制御システムを実現するため、制御
サイクルは 5ms とした。制御ソフトウェア上で走行軌道や走行速度を設定すると、各種センサ情報により高精度
な位置・方位を計算し、設定軌道との誤差を修正する制御が施され、その結果自律走行制御が実現できる。
Ⅲ.2.5.1-4
② 障害物検出・回避技術の開発
② －１障害物検出センサ
本インテリジェント車いすには環境に存在する障害物を検知するためのセンサとして、北陽電機(株)製のレ
ーザレンジセンサ（URG-X002S）を採用した。これは、①通常走行時には車いすは前向きに走行するため、前
方障害物が１つのセンサで検出可能であること、②小型であるため車いす前方のフレームに取り付けても乗り
降りの邪魔にならないこと、③静音性が良く使用者が気にならないこと、④ソフトウェア上で検出領域の設定が
柔軟に行えること、⑤障害物の形状も認識可能であることなどの理由からである。
本レーザレンジセンサの概観、構造を図５、図６に、仕様を表 2 に示す。URG-X002S は波長 785[nm]赤外レー
ザに変調をかけ投光し、投光光と対象物からの反射光の位相差を求め、これから距離を演算する。その構造
は内部の赤外レーザを発光する発光素子より水平角 45°に取り付けられたミラーを介しセンサ外部に投光し、
測定対象物体に照射する。そして、対象物体から拡散反射された光線の一部を受光素子側の水平角 45°に
取り付けられたミラーを介し受光素子で受ける。また、内部のミラーをモータにより回転させ、レーザを走査させ
ることで、図７に示す検出範囲のように前方 240 度（左右 120°）の水平面上の空間を 0.36 度ピッチでスキャン
し、検出物体までの距離と方向を検出する。検出可能範囲は 0.02[m]から 4[m]までであるが、鏡などの光を拡
散してしまうような物体は検出エラーとなるか、信頼性の低い値が得られる。また、黒い物体は素材により光が
吸収されてしまうので、検出可能距離が短くなることがある。
本レーザレンジセンサは RS232C によるシリアル通信により制御コントローラと情報のやりとりを行い、制御コ
ントローラ内で専用の処理ソフトウェアを走らせることで、障害物の検知や形状の判断等を行うことができる。
図５ URG-X002S の概観
図６ URG-X002S の構造
Ⅲ.2.5.1-5
表 2 URG-X002S の仕様
光源
半導体レーザ
波長
785[nm] レーザ安全クラス１ (IEC60825-1)
電源電圧
DC 5[V] ±5%
消費電流
500[mA]以下
検出距離
0.02～4[m]
測距分解能
1[mm] 単位
走査角度
240°681 ステップ
角度分解能
0.3515°(360° / 1024 分割)
インターフェイス
RS-232C (19.2k、 57.6k、 115.2k、 500k、 750k[bps])
USB Ver2.0 FS mode (12M[bps])
走査時間
100[ms/scan]
外形寸法
50[mm]×50[mm]×70[mm]
（W×D×H）
質量
約 160[g]
検出範囲
240deg
4m
図７ URG-X002S の検出範囲
②－２障害物検出の考え方
レーザレンジセンサや超音波センサなどの外界センサで障害物の存在を検知するのは比較的容易であるが、
未知の物体が何であるかを認識するのはカメラなどを使って画像情報処理を行ったとしても、その後に高度な
判断を要するため、現在の技術では困難である。そのため、通常は検出物体を限定することにより予め障害物
に関する情報を持つことで、判断を容易にしている。そのため、本研究開発でも同様の考え方で障害物検出を
行うこととした。
URG-X002S は図７のように検出範囲が４ｍであるため、検出範囲の中で前方の近い距離で検出したもの（未
知障害物）については形状の如何に関わらず即座に停止し、遠い距離で検出したもの（既知障害物）について
はその形状を判断して、例えば回避などの停止以外の行動を取るという障害物検出システムを構築した。図８
に本研究開発にて設定した検出エリアの概略を示す。図８に示すように、既知障害物としては円筒状のものを
設定し、それを確実に検知する方法について提案する。
Ⅲ.2.5.1-6
円筒状の既知
障害物
既知障害物
検出エリア
未知障害物検出
エリア
図８障害物検出範囲の設定法
②－３既知障害物検出法
円筒形状物体の検出法として、以下の２つの条件を設け、両者を同時に満たした場合、それを既知障害物と
して検出する方法を考案した。まず、図９のようにレーザレンジセンサのビーム発進位置を A とし、円筒形状の
物体に点 B,C,D,E,F でビームが当たるものとする。その際、ビーム衝突点までの長さを sL,1L,L,2L,eL と定義する。
円筒形状物体の半径を R としたとき、センサ情報からは線の長さ sL,1L,L,2L,eL とφが得られる。その値を使っ
て、幾何学的に計算した R と 1L、2L の値とを比べ、計測誤差を含めたある一定以上の一致が確認できたもの
を１つ目の条件として設定した。
図９既知障害物検出法（その１）
Ⅲ.2.5.1-7
次に図１０のように点 B から点 C までのスキャンした線の長さを順に 1,2,・・・(n-1),n とした時、隣合う線の長さ
の差の合計を計算する。円筒形状のように線分 AG 対して左右対称な形状をしている場合は足した結果がほ
ぼ 0 となるため、これを２つ目の条件とした。
以上の２つの条件を同時に満足した場合、既知障害物と判断し、その後の車いす動作のトリガとして応用す
ることとした。
図１０既知障害物検出法（その２）
②－４未知障害物検出法
未知障害物検出については、図８のように設定した車いす前方のエリアで障害物が検出された場合は、即
座に停止することとした。レーザレンジセンサは前述のように制御コントローラとシリアル通信により情報のやり
とりを行うが、通信にかかる時間などの影響により 100[ms/scan] の仕様が、実際にはその倍の約
200[ms/scan]でセンサ情報が伝達される。例えば、何らかの外乱（例えば雨など）により瞬間的に障害物以外
のものを障害物と検出した場合、それを除去することが必要になる。そのため、連続して検出する回数の下限
を設け、それ以上連続して検出した場合、障害物を検出したと判断するようにした。人間の歩行速度と同じくら
いの時速 4[km]（1.1[m/s]）で走行することを仮定すると、1scan で 20cm 走行することが想定されるため、３回連
続して障害物を検出した場合、即座に車輪モータの電磁ブレーキを作動し、その場で止めるようなアルゴリズ
ムを構成した。その場合、障害物を検出した後、最悪約 60cm 走行することになるが、未知障害物検出範囲を
1m～2m に設定することで、障害物に衝突することなく安全に停止する。
Ⅲ.2.5.1-8
③ 小型・軽量化に関する研究開発
③－１フレーム設計
フレームは Tao-LightⅡのフレームを制御機器搭載の為、折り畳み機能を排除し固定式とした。材質
は軽量化の為、アルミによる構造設計を行い略量産品とＧＰＳアンテナによる高さＵＰを除き同サイズ・
同重量となるよう設計した。図１１に開発したフレーム、及び制御部を搭載した写真を示す。
開発品（フレーム）
開発品（制御部搭載状態）
図１１開発フレーム
③－２軽量駆動ユニットの開発
量産品の Tao-LightⅡの駆動部は電流による速度制御をしているが、自律走行制御の為に出力軸
に日本電産ネミコン製ＮＯＣ－ＨＰエンコーダーを取り付けた。それによってハウジングのフレームとの
取付部に負荷が増大することに対して図１２に示すハウジングのＦＥＭを実施し、最小限の肉厚ＵＰとＲ
増大にて同荷重で４３％の応力低減を図れ図１３に示す駆動ユニット開発品はエンコーダーを含み片
側約２７０ｇという最小限の重量増に留めた。
現状量産品
開発品
図１２ＦＥＭ解析結果
開発品駆動ユニット
使用エンコーダＮＯＣ－ＨＰ（日本電産ネミコン製）
図１３開発駆動ユニット
Ⅲ.2.5.1-9