Comments
Description
Transcript
映像情報メディア学会ワードテンプレート (タイトル)
社団法人映像情報メディア学会技術報告 インターフェースとしての役割をもった CG キャラクタの設計 道家 †日本放送協会 E-mail: 守† 浜口 斉周† 林 正樹† 放送技術研究所 〒157-8510 東京都世田谷区砧 1-10-11 †{douke.m-eq, hamaguchi.n-go, hayashi.m-hk}@nhk.or.jp あらまし 我々は視聴者であるユーザー個人の好みの番組をテレビ受信機で自動生成し,ユーザーが番組を見た いときにいつでも視聴できる TV4U(TV for You)システムの研究を行なっている.本システムでは上述した特長に加 えて,ユーザーが視聴中に番組に割込み,出演者である CG キャラクタと対話し,さらに欲しい情報を取得するこ とができる.このように CG キャラクタは番組出演者としての役割に加え,システムとユーザーとのインターフェ ースとしての役割も担うことになる.本稿では人間とコンピュータの関係に関する心理学的知見をもとにした,CG キャラクタの望ましい振る舞いについて述べる.さらにこれを実装したプロトタイプ・アプリケーションを作成し, インターフェースとしての役割を持つ CG キャラクタの設計はどうあるべきかについて検討した. キーワード TV4U,TVML,CG エージェント,ユーザー・インターフェース,自動番組制作 A Design of CG Character Having a Role as User Interface Mamoru DOKE† Narichika HAMAGUCHI† and Masaki HAYASHI† †Science & Technical Research Laboratories, NHK 1-10-11 Kinuta, Setagaya-ku, Tokyo, 157-8510 Japan E-mail: †{douke.m-eq, hamaguchi.n-go, hayashi.m-hk}@nhk.or.jp Abstract We are studying the TV4U (TV for You) system which generates personalized TV programs automatically for individual user. In addition to this feature, this system enables the user to brake into the running TV program at any timing and to have a conversation with the CG broadcaster in the program so that the user can get more information in an interactive way. In our system, the CG character needs to act as an user-interface besides the role as a TV presenter. In this paper, we describe “desirable behavior of CG character” based on psychological knowledge and study how we should design CG character with the role as an user-interface. Also we introduce a prototype system which implements the behavior based on our study. Keyword TV4U, TVML, CG Agent, User Interface, Automatic Program Production 1.はじめに プレゼンターとして,番組内容をユーザーに提示する 我々はテレビ受信機に番組を自動制作する機能を 他に,システムとユーザーの対話型インターフェース 持たせることにより,視聴者であるユーザーがテレビ と し て の 役 割 を 担 っ て い る . そ の 際 「 番 組 内 の CG キ の視聴という馴染み深い情報取得スタイルを用いたま ャラクタは,視聴者であるユーザーに対しどのように ま,そのユーザーが本当に欲しい情報を,自分だけの 振る舞えば良いのか」が大きな課題となってくる.こ テレビ番組を視聴することで取得出来る仕組み れ は 言 っ て み れ ば , ユ ー ザ ー は CG キ ャ ラ ク タ と い う TV4U [ 1 ] ( TV for You) の 研 究 を 行 な っ て い る . TV4U 「他人」と対話を行なうことに等しい.このような状 では視聴している情報に関連する情報や,視聴中理解 況 に お い て , CG キ ャ ラ ク タ が ど ん な 振 る 舞 い を す れ できなかった事柄などに対し,情報を提示している番 ば,ユーザーはその対話が快適なものであると感じる 組 内 の CGキ ャ ス タ ー ( CGキ ャ ラ ク タ ) に 直 接 話 し 掛 の か . そ の よ う な CG キ ャ ラ ク タ の 振 る 舞 い を 実 現 す けて対話し,さらに欲しい情報や必要な情報を,その ることは,望ましいヒューマン・インターフェースを ままテレビの視聴というスタイルで取得することが出 実現するのに大変重要なことである. 来る. 対話エージェントの分野では,様々な研究が行われ この仕組みの中で,ユーザーは更に欲しい情報の取 て い る .そ の 中 で 我 々 の CGキ ャ ラ ク タ の 振 る 舞 い に 関 得 を , 番 組 内 の CG キ ャ ラ ク タ と の 対 話 に よ り シ ス テ する研究は,擬人化対話エージェントの範疇に属する ム に 要 求 を 伝 え て 行 う . つ ま り CG キ ャ ラ ク タ は 番 組 と思われるが,これまで擬人化エージェントは,より リアルな人間に近づけることが主な目的となっており, 認 す る た め , そ の 一 部 ( 表 1) を , プ ロ ト タ イ プ ・ ア 技術的にいかにリアルな表現が可能かについて,さま プリケーションを作成し実装した. ざまな研究が行われてきている [2][3] .し か し な が ら 対 話の相手である人間から見た,そのエージェントに対 表 1 する印象から対話エージェントを設計したアプローチ 大きな目で,ユーザーをまっすぐ に見ること 微妙な表情(微笑,少し悲しいな ど)が表現できること 3等身ほどの体のバランスが望ま しい セットアップ項目 喋る内容にあわせたリップシンク が可能なこと 喋る内容にあわせ,声のトーン, スピードが変えられること マンガライクなキャラクタを使用す る CGキャラクタ側から自己紹介を行 なう 提示コンテンツと関係無い内容で システムスタート後 ある程度の対話が可能なこと ユーザーに入力をせかす動作をし ないこと いつでもアクセスを待っていること システム終了時 をユーザーに伝える はほとんど無い. 今 回 こ の よ う な CG キ ャ ラ ク タ の 振 る 舞 い 方 に つ い て,主に既存の心理学的知見を元に「望ましい振る舞 い方」を検討した.またそれらの一部を実装したプロ トタイプソフトウエアを作成し,インターフェースと し て ユ ー ザ ー が 好 感 を 持 つ CG キ ャ ラ ク タ の 振 る 舞 い はどうあるべきかについて検討を行なった. 2 . 心 理 学 的 知 見 に 基 づ く CG キ ャ ラ ク タ の 振舞い TV4U シ ス テ ム で は , ユ ー ザ ー は 番 組 の キ ャ ス タ ー で あ る CG キ ャ ラ ク タ と の 対 話 に よ り , シ ス テ ム に 対 し入力を行なう.システムのユーザー・インターフェ ースを考えた場合,対話がユーザーにとって負担とな ら な い も の で ,か つ 長 く 使 う 気 に な る も の が 望 ま し い . こ の よ う な 場 合 CG キ ャ ラ ク タ が ユ ー ザ ー に 対 し , ど のような言葉をどのような調子で話すか.またどのよ 実 装 し た デ ザ イ ン ・ガ イ ド ラ イ ン 尚今回作成したアプリケーションは,以下のような う な ジ ェ ス チ ャ ー を す る か と い っ た , CG キ ャ ラ ク タ 動作を行うものである. の所謂「振る舞い」の設計が課題となってくる. ■自然言語による対話 Stanford大 学 Communication学 科 の Reeves, Nassら の ユーザーはキーボードからのテキスト入力により, グループでは,人がコンピュータと接する際,コンピ 自 然 言 語 で PC モ ニ タ 上 に 登 場 す る CG キ ャ ラ ク タ と ュータに対しどのように振る舞うかについて,様々な 対 話 す る . 尚 CG キ ャ ラ ク タ は , ユ ー ザ ー に 対 し て 合 心 理 学 的 実 験 を 行 な っ て い る [ 4 ] .彼 ら に よ る と ,人 は 成音声による喋りで対話する. 人と接するときと同様に,コンピュータに対しても振 ■コンテンツ る舞うことが分かっている. アプリケーション上のコンテンツの流れを以下に示す. そこで今 回 彼 ら の 心 理 学 的 知 見 を 基 に し て ,ユ ー ザ ー (1) ア プ リ ケ ー シ ョ ン を 開 始 す る と ,CG キ ャ ラ ク タ が か ら 好 感 を 持 た れ る CG キ ャ ラ ク タ の 振 る 舞 い を 検 討 アプリケーションウインドウ内に登場し自己紹介 した.彼らの心理学的実験に基づく知見をベースとし を行って,次にユーザーに名前を尋ねる. た も の を CG キ ャ ラ ク タ の 振 る 舞 い へ 応 用 し , イ ン タ (2) ユ ー ザ ー が 自 分 の 名 前 を 伝 え る と ,CG キ ャ ラ ク タ ー フ ェ ー ス と し て の 役 割 を 担 う CG キ ャ ラ ク タ を 作 成 がユーザーの名前を喋りながら挨拶をする.次に する上でのデザイン・ガイドラインを作成した.以下 ユーザーに 3 項目のニュースヘッドラインを紹介 にその一例を示す.今回作成したガイドラインは,容 姿 ,ジ ェ ス チ ャ ー ,喋 る 内 容 な ど 38 項 目 に 渡 っ て い る . する. (3) ニ ュ ー ス ヘ ッ ド ラ イ ン 紹 介 後 , ど の ニ ュ ー ス 項 目 が詳しく知りたいかユーザーに尋ね,ユーザーの デザイン・ガイドラインの一部 希望したニュース項目について詳しく説明し,更 ■微妙な表情(微笑,少し悲しいなど)が表現出来る にニュースの内容に対しコメントする. こと.そしてそれら表情は連続的に可変出来ること. (理由)人間は極端な表情は簡単に表現できるため, それが本心からの表情なのか判別が難しい.そのため 相 手 の 極 端 な 表 情 を 信 用 し に く い .一 方 微 妙 な 表 情 は 簡単に表現することが難しく,相手の本心から出てい るものと感じられ,その表情の示す意味を信用する. (4) 上 記 の 流 れ に お い て ユ ー ザ ー に 入 力 を 求 め る シ ー ンで,コンテンツの目的となる返答以外に,自然 言 語 に よ る あ る 程 度 の「 世 間 話 」的 な 対 話 が 可 能 . アプリケーションの構成を図 1 に示す.このアプリ ケ ー シ ョ ン は そ れ ぞ れ 後 述 す る Mind Engine [5 ] , CG キ ャ ラ ク タ・コ ン ト ロ ー ラ ,TVML Player [ 6 ] か ら 構 成 されている.それぞれの動作の仕組みについて以下に 3.プロトタイプの作成と実験 前章で述べたデザイン・ガイドラインの有効性を確 述べる. 専用のスクリプトに記述しておくことで,限定された ユーザ 対話テキスト 入力 動作タグ トピックスにおける自然言語による対話を実現する. 質問:どのニュースを詳しく知りたいですか? CGキャラクタ コントローラ Mind Engine 対話内容 & 動作 入力 テキスト ユーザーからの入力 ・First one. ・Please tell me the first news. ・Could you explain the first one. ・ など TVML スクリプト TVML Player あらかじめ定義してあるパターンと一致 図1 3.1 アプリケーションの構成 最初のニュースの詳細を説明 TVML TVML(TV program Making Language)は ,テ レ ビ 番 組 図3 Mind Engine に よ る 対 話 処 理 の 概 要 の台本を記述するためのコンピュータ言語であり, TVML で 記 述 さ れ た 番 組 台 本 を , ソ フ ト ウ エ ア で あ る 3.3 CG キ ャ ラ ク タ ・ コ ン ト ロ ー ラ TVML Player に 入 力 す る こ と に よ り ,CG や 音 声 合 成 な CG キ ャ ラ ク タ ・コ ン ト ロ ー ラ は , Mind Engine の 出 どを使ってリアルタイムにテレビ番組を生成するもの 力する対話スクリプトを解析し,スクリプトに応じた で あ る .図 2 に TVML ス ク リ プ ト の 例 を 示 す .こ の ス TVML に よ る CG キ ャ ラ ク タ の 動 作 ス ク リ プ ト を 生 成 ク リ プ ト を TVML Player に 入 力 す る と ,カ メ ラ が BOB す る も の で ,今 回 新 規 に 開 発 し た .そ の 具 体 的 方 法 は , と い う 名 前 の CG キ ャ ラ ク タ に ク ロ ー ズ ア ッ プ し , 前 述 し た コ ン テ ン ツ の ス ト ー リ ー に お い て ,各 シ ー ン BOB が お じ ぎ を し た 後 ,笑 顔 で「 こ ん に ち は 」と 喋 る に お け る CG キ ャ ラ ク タ の 振 る 舞 い を 実 現 す る の に , 映 像 を 出 力 す る . TVML Player は TV4U シ ス テ ム の プ シ ー ン を 表 現 す る タ グ を 定 義 し ,そ れ ら を Mind Engine レゼンテーションエンジンとして使われている. の ス ク リ プ ト 中 に 挿 入 し た . こ れ ら を CG キ ャ ラ ク camera: closeup( what = BOB) character: bow( name=BOB) character: expression (name=BOB, type=happy ) character: talk (name=BOB, text=“こんにちは”) タ・コントローラ側で解析して,各シーンにおける適 切な振る舞いを実現している.例えば図 4 に示すよう に , ア プ リ ケ ー シ ョ ン の ス タ ー ト 直 後 に CG キ ャ ラ ク タが自己紹介するシーンでは,自己紹介文に挨拶のシ 図2 TVML ス ク リ プ ト の 例 ー ン で あ る こ と を 示 す <GREET>タ グ を 付 加 し て い る . こ の タ グ の シ ー ン に お け る 適 切 な CG キ ャ ラ ク タ の 表 3.2 Mind Engine 情 と そ の 程 度 , 喋 り の 調 子 を , TVML で 表 現 す る の に CGキ ャ ラ ク タ と の 対 話 は ,一 般 的 に 特 定 の キ ー ワ ー 必 要 な パ ラ メ ー タ の 値 を 振 舞 い DB か ら 取 得 し ,CG キ ドやコマンドを用いて行なうことが多いが,対話型エ ャラクタの応答文と合わせて,振舞いコントロールに ージェントとしては自然言語を用いた対話の方が望ま 必 要 な TVML ス ク リ プ ト を 生 成 す る .こ れ ら の TVML しい.そこで自然言語による対話を実現するため,今 ス ク リ プ ト を TVML Player に 入 力 す る こ と に よ り ,CG 回 Extempo社 [ 4] の Mind Engineと い う ソ フ ト ウ エ ア を 用 キャラクタは,にこやかな表情と声の調子で自己紹介 い た .Mind Engineで は ,ア プ リ ケ ー シ ョ ン の ス ト ー リ を 行 う 言 葉 を 喋 る .尚 各 シ ー ン で の 表 情 の 種 類 や 程 度 , ー に 沿 っ た ,専 用 の ス ク リ プ ト を 作 成 す る こ と に よ り , 声 の 調 子 を 表 現 す る た め に TVML ス ク リ プ ト で 用 い る 自然言語による対話を実現することが出来る.その仕 パ ラ メ ー タ 類 の 値 は , 別 途 CG キ ャ ラ ク タ の 表 情 と 声 組みは,想定される入力表現のパターンをあらかじめ の調子を連続的に可変できるソフトウエアを制作し, 用意しておき,ユーザーからの入力がいずれかのパタ こ れ を 使 っ て 主 観 的 に 決 定 し た . ま た CG キ ャ ラ ク タ ーンにマッチすれば,所定の動作や応答文を返すとい からユーザーに対し入力を促す質問をした後は,デザ うものである.例えば図 3 に示すようにユーザーに対 イン・ガイドラインにあるように,ユーザーが入力を し ,「 ど の ニ ュ ー ス の 詳 細 が 知 り た い で す か ? 」と 尋 ね 急 か さ れ て い る と 感 じ な い よ う , CG キ ャ ラ ク タ は ユ た場合に,最初のニュースの詳細が知りたいのでそれ ーザーに対し質問した後一定時間経過すると,画面内 を 説 明 し て く れ る よ う 頼 む に は ,「 first one」 ,「 Please の椅子に座ってリラックスした態度を取る.そしてユ tell me first news」,「 Could you explain the first one」 な ーザーから入力がありそれに対して応答する際は,ユ ど,文言や単語の出現パターンを多数用意しておくこ ーザーに対し失礼とならないよう椅子から立ち上がり, とで,いずれの場合も最初のニュースの詳細を説明す ユーザーを見て喋り始める. る動作を行なう.これら入力表現パターンと応答文を 対話スクリプトの例 (挨拶) <GREET>Hello, I’m Ai. I’m an navigator…. タグ 応答文 「 少 し 嬉 し い 」「 嬉 し い 」「 と て も 嬉 し い 」 程 度 の 表 現 は出来るが,ニュートラルな表情から「少し嬉しい」 や「少し嬉しい」から「嬉しい」表情への遷移が滑ら か で な い た め ,突 然 表 情 が 変 わ る よ う に 感 じ て し ま う . CGキャラクタコントローラ キャラクタは悲しい表情をするが,その次に内容が理 振舞い生成 エンジン デー タ ま た ユ ー ザ ー の 入 力 し た 内 容 が 理 解 で き な い 場 合 ,CG TVMLスクリプト生成 解出来かつにこやかに喋るシーンの場合,悲しい表情 振舞い 振舞い DB から一転してにこやかになるため,表情の遷移に違和 挨拶シーンでの各パラメータ 然 言 語 に よ る 対 話 を Mind Engine を 用 い て 実 現 し て い 感を覚えてしまう.またこのアプリケーションは,自 ・表情タイプ:happy ・表情の程度:0.5 ・喋りのトーン:2.0 ・喋りの速さ:2.0 る た め , Mind Engine が 扱 え る 英 語 の み の 対 話 に 限 定 されている. 生成されたTVMLスクリプト character: expression (name=Caster, type=happy, degree=0.5) character: talk (name=Caster, text=“Hello, I’m Ai….”, rate=2.0, pitch=2.0) TVML Player 出力映像 図 4 対 話 ス ク リ プ ト か ら の TVML ス ク リ プ ト 生 成 の流れ 3.4 実験と考察 図5 ア プ リ ケ ー シ ョ ン の GUI と 出 力 例 4.まとめと今後の課題 図 5 に ア プ リ ケ ー シ ョ ン の GUI と TVML Player に よ 本 稿 で は 心 理 学 的 知 見 に 基 づ き , CG キ ャ ラ ク タ の る 映 像 出 力 例 を 示 す .ユ ー ザ ー は GUI 上 の テ キ ス ト 入 望ましい振る舞いについてデザイン・ガイドラインを 力ウインドウから、自然言語による対話内容の入力を 作成し,その一部をアプリケーション上に実装し,表 キーボードにより行う.今回作成したアプリケーショ 示実験を行ない,これが親しみの持てるインタラクシ ンでは,ユーザーとの対話の途中各シーンに応じて, ョンとなることを述べた. CG キ ャ ラ ク タ が 微 妙 な 表 情 を し た り , 口 調 を 変 え た 本稿で述べたものはプロトタイプであり,今後 りする.例えば図 5 の出力例は,ユーザーの入力をア TV4U シ ス テ ム へ の 実 装 , よ り 多 く の 気 の 利 い た 振 舞 プリケーション側が理解できなかった場合を示してい い,対話内容にマッチした感情表現の実現等の課題に る . こ の 時 CG キ ャ ラ ク タ は 少 し だ け 悲 し い 表 情 と , 取り組んでいく必要がある. トーンを少し落とした声でユーザーに謝り,ユーザー の要求に応えられないと言う.このシーンに引き続い 文 [1] 献 浜 口 , 道 家 , 林 「 TV4U テレビセット内で作ら て,更にユーザーがアプリケーション側の理解できな れ る 自 分 だ け の テ レ ビ 番 組 」 信 学 技 報 い言葉を入力した場合は,先ほどより悲しい表情とト PRMU2002-29,pp.63-68(2002.6) ーンをさらに落とした声で,ユーザーの入力が自分の [2] このような振る舞いをすることで,ユーザーの要求 を 理 解 出 来 な い 場 合 で も ,に べ も な く 「あ な た の 言 っ て 土 肥 ,石 塚「 Face-to-face 型 擬 人 化 エ ー ジ ェ ン ト・ インターフェースの構築」情報処理学会論文誌, 理解の範疇を超えていると言う.などである. Vol40,No.2,pp.547-555,Feb.1999 [3] 嵯 峨 山 他 「 擬 人 化 音 声 対 話 エ ー ジ ェ ン ト ツ ー ル キ い る こ と は 理 解 で き ま せ ん 」と CG キ ャ ラ ク タ に 言 い ッ ト 放たれてしまうよりも,ユーザーはアプリケーション 2002-SLP-45-10, pp.57-64, Feb. 2003. に対して不満を抱きにくい.また自然言語による対話 [4] は,ユーザーにこの対話が自然なものであると感じさ Galatea 」 情 報 処 理 学 会 研 究 報 告 , Reeves,Nass「 The Media Equation」Cambridge CSLI Publications ISBN1-57586-053-8 せ る . 一 方 こ の ア プ リ ケ ー シ ョ ン で は , CG キ ャ ラ ク [5] http://www.extempo.com/ タのスムーズな感情表現の遷移が出来ておらず,違和 [6] http://www.nhk.or.jp/strl/tvml/ 感がある.現段階では例えば「嬉しい」表情の場合,