Comments
Transcript
Page 1 成跨委大学理工学研究報告 J. Fac SciTech.、Seikei Univ Vol
成 瞑 大 学 理 工 学 研 究 報 告 J.Fac.Sci.Tech.,SeikeiUniv. Vol.52No.2(2015)pp.5-10 株式市況音声合成 システム 世木 寛 之*1 AnAutomaticBroadcastSystemUsingSpeechSynthesisfbrtheStockMarketReport HiroyukiSEGI*1 ABSTRACT:The`KabushikiShikyo'programbroadcastonNHKRadio2reportsonthedailyclosing pricesandnetchangesofabout830stockslistedontheTokyoStockExchange.Readingoutthenumerical valueswithoutmakingmistakeswithintheallottedbroadcasttimecanbeextremelydifficultfbrthe announcers.Wehavetherefbredevelopedanautomaticbroadcastsystemfbrstock-pricebulletins,which usesnumericalspeechsynthesisandautomaticspeech-rateconversion.Oursystemhasbeenusedin experimentaldigitalterrestrialradiobroadcastssinceOctober2006andalsousedinNHKradio2since March2010.Thisarticledescribesthegenerationoftextstobuildthespeechwaveformdatabase,the mechanismusedtosynthesizenumericalspeechviathedatabase,andtheevaluationofnaturalnessfbrthe synthesizedspeechsamples. Keywords:text-to-speech,speechrateconversion,stockmarketreport,broadcasting,concatenativespeech synthesis (ReceivedOctober5,2015) 1.は た。 本 報 告 で は,研 究 ・開発 を行 っ た株 式 市 況 の 音 声 合 じめ に 成 シ ス テ ム の し くみ に つ い て紹 介 す る。 NHKの 「 株 式 市 況 」 は,1925年3.月23日 か ら ラ ジオ で放 送 を 開 始 し[1],現 在 で は ラ ジオ 第2放 2.放 送 で 平 日17 送 用音 声 合 成 の 歴 史 と本 シ ス テ ム の 特徴 時 か ら放 送 され て い る超 長 寿 番 組 で あ る。 放 送 時 間 は 約 1時 間 で,主 に 東 証 一 部 に 上 場 して い る銘 柄 の うちの 約 音 声 合 成 は20年 ほ ど 前 か ら放 送 で 利 用 さ れ る よ うに 800銘 柄 の 終値 と前 日比 を 伝 えて い る。1時 間 近 く もの な っ た[2]。 読 み 手(ア ナ ウ ン サ ー)が 問,連 続 して1人 の ア ナ ウ ンサ ー が 読 み 続 け る こ とは 難 伝 え られ る こ と は,放 送 局 に とっ て 非 常 に利 便性 が 高 い しい た め,2人 か らで あ る。 の ア ナ ウ ンサ ー が 途 中で 交 代 して 読 み 上 げ て い た。そ れ で も,1)数 値 を 間違 えず に読 む こ と,2)限 い な くて も情 報 が 放 送 局 で 使 わ れ て き た 音 声 合 成 シ ス テ ム と し て は,天 られ た 時 間 内 に 収 ま る よ うに,読 み な が ら時 間 配 分 を調 気 予 報 の 自動 送 出[2-5],交 整 す る こ とが 要 求 され,ア ナ ウ ンサ ー に と って 非 常 に難 ッ プ の 読 み 上 げ[7]が 挙 げ ら れ る 。 ま た,文 度 の 高 い 業務 で あ っ た。 っ て い な い が,実 この た め,2003年 秋 頃 か らNHK放 送 技 術 研 究 所(以 下 通 情 報[6],ス ポ ンサ ー名 テ ロ 献 と して は残 際 に使 用 され た 音 声合 成 シ ス テ ム も数 多 く あ り,例 え ば,テ レ ビ埼 玉 で は1998年4月1日 か ら 技研)で,株 式 市 況 の音 声 合 成 化 の検 討 を行 い,細 か な 経 現 在 ま で 天 気 予 報 を 音 声 合 成 で 放 送 し て い る。 ま た,「 株 緯 は3章 式 市 況 」 に お け る株 価 情 報 の 一 部(銘 で述 べ る が,2010年3.月29日 よ る放 送 を 開 始 した。 ま た,2014年3Hか か ら音 声 合 成 に らは2代 目の 値,前 株 式 市 況 音 声 合 成 シ ス テ ム が リ リー ス され る こ と にな っ 日比)は,1990年 柄 名,株 台 半 ば か ら2004年 な 日 時 は 不 明),ラ ジ オNIKKEI(当 価 の引 け 頃 ま で(正 確 時 の ラ ジ オ た ん ぱ)に て 放 送 され た 。 さ ら に,「 い つ で も ニ ュ ー ス 」は,2003年10 *1:情 報 科 学 科 准 教 授(segi@stseikei 月10日 .acjp) 一5一 か ら2007年3H20日 ま で,NHKデ ジ タル ラジ 成 践 大 学 理 工 学 研 究 報 告 Vol.52No.2(2015.12) オ 実 用化 試 験 放 送 で 放 送 され た 。 こ の番 組 で は,NHKの 特 定評 価 者 で約4.5,音 声 の専 門家 で 約4.7,ネ ホ ー ム ペ ー ジ に 掲 載 され た ニ ュー ス 文 を,波 形 編 集 の 音 ス ピー カ ー で 約4.4と 評 価 され た こ と を考 慮 す る と, 声 合 成 ソフ トで 合 成 し放 送 を行 っ て い た 。 任 意 文 を合 成 HMM音 す る際 に,ア て い な い こ とが分 か る。 クセ ン トや 読 み 仮 名 の 推 定 に間 違 い が 生 じ る可 能性 が あ るた め,放 送 前 に人 手 で修 正 を行 っ て い た。 そ して,「 多 言 語 天 気 予 報 」 は,2004年2月16日 2011年3月31日 ま で,NHKデ イ テ ィブ 声 合 成 方 式 で は,肉 声 と同 等 の 自然性 は 実 現 で き 波 形 接 続 ・波 形 編 集 の 自然 性 評 価 は文 献[9]で行 わ れ て から い る。 この 文 献 で は,2つ の 評 価 実 験 が 行 わ れ て い る。1 ジ タル ラジ オ 実 用 化 試 験 つ 目の 評 価 実 験 で は,市 販 の10製 品 と提 案 法 で あ る 放 送 に て 放 送 され た 。 デ ジ タル ラジ オ の サ ブ チ ャ ンネ ル XIMERAで を 活 か し,リ ス ナ ー は 日本 語 ・英 語 ・中国 語 ・韓 国 語 の 行 っ た。そ の結 果,波 形接 続 ・波 形 編 集 の他 の10製 品 に 4つ の 言 語 か ら選 ん で 天 気 予 報 を聞 く こ とが で き る。 こ 対 して,提 案 法 で あ るXIMERAが の他,番 組 の 中 で の 演 出 や 効 果 と して 使 わ れ た もの ま で い る こ とが 分 か っ た 。2つ 含 め る と,相 当 数 あ る と考 え られ る。 な お 海 外 で は,空 の音 声 デ ー タベ ー ス の 大 き さを10段 階 変 化 させ た上 で, 港 や 駅 で の案 内,高 速 道 路 で の 交 通 情 報 の 放 送 な ど に音 5段 階 の 自然 性 評 価 を行 っ て い る。 そ の 結 果,自 然 音 声 声 合 成 を 用 い て い る例 は い くつ か 見 られ るが,い わ ゆ る に対 して約4.8と い う評 価 が 得 られ て い るの に対 し約3.4 テ レ ビや ラジ オ に お い て,合 成 音 で 放 送 した 例 は 見 当た とい う評 価 が得 られ て い る。1つ らな い。 性 の発 話 者 に よ る47時 上 記 の 音 声 合 成 シ ス テ ム は,収 録 した 音 声 を無 音 部 分 お り,2つ 作 成 した 合 成 音 を7段 階 の評 定 尺 度 で 評価 を 統 計 的 に 有意 に優 れ て 目の 評 価 実 験 で は,XIMERA 目の評 価 実 験 で は,女 間 の音 声 デ ー タベ ー ス を 用 い て 目の評 価 実 験 で は,男 性 の発 話 者 に よ る63時 で 接 続 して 再 生す る方 式(録 音 編 集 方 式)が ほ とん どで あ 間 の音 声 デ ー タベ ー ス を用 い て い る とい う条件 の 違 い は る[2-7]。録 音 編集 方 式 で株 式 市 況 の 音 声 合 成 シス テ ム を あ るが,XIMERAも 構 築 し よ うとす る と,現 在 の 最 高 値 で あ る数 百 万 円ま で 集 で は,肉 声 と同等 の 自然 性 は 実 現 で き て い な い こ とが の 数値 を 全 て 録 音 す る必 要 が あ るが,膨 大 な 時 間 と コス 分 か る。 ま た,こ れ ま で に筆 者 らは,ニ トが か か り難 しい 。 更 に,録 音 編集 方 式 で は,録 音 した 録 音 声 を音 声 波 形 デ ー タベ ー ス と して利 用 した 波 形接 続 音 声 デ ー タ の 接 続 部 分 に 適 当 な 長 さの 無 音 が 必 要 で,こ 型 音 声 合 成 方 式 を 開発 し,良 好 な 結 果 を 得 て い る[11]。し れ が な い と不 自然 な接 続 音 に な る。「 株 式 市 況 」で は,ア か し,こ の方 式 で も放 送 に 耐 え うる よ うな 十 分 な 自然性 ナ ウ ンサ ー とい え ど も容 易 で は な い ほ どの 早 口で 読 み 上 が得 られ る わ け で は な い。 げ な け れ ば な らな い た め,録 音 編 集 方 式 で 必 要 とな る長 ュー ス番 組 の 収 この た め,新 た に 開発 した株 式 市 況 音 声 合成 シ ス テ ム さの 無 音 を は さむ こ とは で き な い 。 で は,波 形 接 続 型 音 声 合 成 方 式 を応 用 して,1か 録 音 編集 方 式 以 外 の 音 声 合 成 方 式 も存 在 す るが,肉 声 と同 等 の 品 質 を 実 現 で き て い な い 。HMM音 含 め,従 来 の波 形 接 続 お よび 波 形 編 未 満 の整 数 の数 値 音 声 に つ い て,桁 単 位 の接 続 を想 定 し, 声 合 成 の 自然 性 評価 は 文 献[8]で行 われ て い る。こ こ で は,HMM音 ら1億 調 音 結 合(例 え ば 「あ い う」と発 声 した とき の 「い 」には, 声合 前 に発 声 した 「あ 」 の 口の 形 と舌 の位 置 の影 響 と,後 に 成 シ ス テ ム を含 む14種 類 の音 声 合 成 シ ス テ ム につ い て, 発 声 す る 「う」 の 口の形 と舌 の位 置 の影 響 が 表 れ て い る 同 じ音 声 デ ー タ ベ ー ス を 用 い て 同 じ評 価 テ キ ス トか ら合 現 象)を 考 慮 して 音 声 波 形 の接 続 を行 っ た 。 これ に よ り, 成 音 を 作 成 し,イ ンタ ー ネ ッ トに よ る不 特 定 評 価 者,音 音 声 の途 中 で の つ な ぎ合 わせ が 可能 に な り,約4000個 声 の 専 門 家,ア メ リカ 英 語 を話 す 大 学 生 に よ る評 価 を行 数 値 を収 録 す るだ け で,1億 っ て い る。評 価 は5段 階 で 行 われ,HMM音 っ た。 声 合 成 は,イ ンタ ー ネ ッ トに よ る不 特 定 評価 者 で は 約3.0,音 声 の 専 門 家 で は約3.1,ア の ま で の数 値 が 合成 可 能 に な ま た,こ の音 声 合 成 シ ステ ム の も う一 つ の特 徴 と して, メ リカ 英 語 を話 す 大 学 生 で は約3.4と い 放 送 用 の音 声 合 成 シ ス テ ム と して は 世 界 で 初 め て,合 成 う評 価 を 受 け て い る。 そ の 他 の 音 声 合 成 シス テ ム に よ る 音 の しゃべ る速 度 を 変 え る こ とに よ り時 間 尺 を調 整 した 評 価 結 果 も公 開 され て は い るが,一 番 自然 性 が 高 い と評 こ とが挙 げ られ る。 機 械 で あ れ ば株 価 デ ー タ を受信 した 価 を 受 け た 合 成 音 で も,イ ン ター ネ ッ トで の 不 特 定 評 価 時 点 で,再 生 に必 要 な 時 間 を 計 算 で き るの で,音 声 と音 者 で は約3.5,音 声 の 間 に均 等 に無 音 を は さむ こ とで,あ 声 の専 門家 で は約3.7,ア メ リカ 英 語 を る程 度 の 時 間 調 話 す 大 学 生 で は約3.7と い う評 価 を受 け て い る。(各 音 声 整 をす る こ とが で き る。 しか し,無 音 で調 整 で き る時 間 合 成 シ ス テ ム の 評 価 値 は 匿 名 で 公 開 され て い るた め,一 に は 限 りが あ る し,「株 式 市 況 」で 必 要 とな る話 速 で 元 の 番 評 価 が 高 か っ た 合 成 音 が,ど の よ うな 音 声 合 成 方 式 で 音 声 を録 音 す るの は,読 み 間違 いや 発 声 の 安 定性 の 面 で 実 現 され た か は 不 明 で あ る。)自然 音 声 が,ネ ッ トで の 不 難 しい。 そ こで,話 速 変換 を 用 い て,発 声 部 分 の 長 さ を 一6一 成 践 大 学 理 工 学 研 究 報 告 変 え る こ と で,調 Vol.52No.2(2015.12) 構 成 で あ っ た が,デ ジ タル ラジ オ の放 送 に ア ナ ウ ンサ ー 整 で き る 時 間 の 範 囲 を よ り広 く す る こ が配 員 され る 予 定 は な か っ た た め,最 初 か ら各銘 柄 の株 とを行 っ た。 価 と前 日比 を45分 3.株 式 市 況 音 声 合 成 シス テ ム の 開 発 の 経 緯 と現 状 に わ た り伝 え る完 全 自動 放 送 の構 成 に な っ た。 この放 送 は2008年3月 に つ いて ま で行 わ れ た が,特 に 大 きな 不 具 合 もな く,放 送 事故 もな く,安 定 に 運 用 す る こ とが NHK技 研 で は過 去 に音 声 合 成 の 研 究 を行 っ て い た が で き た。 運 用 が しに くい部 分 に つ い て は,運 用者 に感 想 頃か ら を 聞 い て 改 善 点 を列 挙 し順 位 付 け を して,半 年 に1度 シ 音 声 合 成 の研 究 を 再 開 した 。 再 開 後 の 研 究 で は,大 規 模 ス テ ム の 改修 を行 う こ とに よ り,改 善 を行 っ て い っ た。 音 声 デ ー タ ベ ー ス を利 用 した 波 形 接 続 型 音 声 合 成 方 式 の これ に よ り,音 声合 成 で放 送 を 出 す こ とが 可 能 だ と関 [10],そ の 後 長 い 間研 究 を 行 っ て お らず,2001年 開発 を行 い,「 自然 で あ る」 か ら 「非 常 に気 に な る」の5 係 者 に認 知 され,3回 段 階 で 合 成 音 の 自然 性 を 評 価 した 結 果,平 る こ とに な り,ラ ジ オ第2放 均評 定値 で 4.01を 得 る合 成 音 を実 現 で き る よ うに な った[ll]。 しか 目の 予 算 申請 で よ うや く認 め られ 送 の株 式 市 況 の 音 声 合 成化 が決 定 した。 し,平 均 評 定値 で4.01が 得 られ た と して も,合 成 音 の 自 決 定 して か ら も,関 係 す る部 局 の 担 当者 が 何 度 も変 わ 然性 は発 話 内 容 に 大 き く依 存 して お り,放 送 に利 用 す る っ た り,シ ス テ ム整 備 の担 当 会社 は入 札 で 決 定 され るた レベ ル に は 到 達 して い な か っ た 。 め,落 札 会 社 が必 ず し も技 研 の 技術 を使 うか ど うか は 決 そ の よ うな 状 況 で,2003年6E頃 にNHKの ア ナ ウ ンス ま っ て お らず,試 作 は した もの の別 の 方 式 で 実 用化 され 室 か ら株 式 市 況 の 自動 化 が で きな い か 検 討 して ほ しい と る 可能 性 が あ っ た り して,や き もき させ られ る こ とは た の 非公 式 の 依 頼 が あ り,技 研 で は 同 年 の 秋 頃 か ら株 式 市 び た び あ っ た が,最 終 的 に 技研 で 開発 した 技 術 が 本 運 用 況 の 音 声 合 成化 の 検討 を 開 始 した(な お,株 式 市 況 音 声 合 機 に も搭 載 され る こ とに な っ た。 シ ス テ ム が整 備 され た 成 シ ス テ ム の 実 用 化 後 に 取 り組 ん だ 気 象 通 報 音 声 合 成 シ 後,運 用 テ ス トを何 度 か行 っ て リス ナ ー の 反 響 に 問題 が ス テ ム[12]に つ い て も この 時 に依 頼 が あっ た)。 研 究 は 順 な い こ とを確 認 した後,2010年3月29日 調 に進 み,2004年6.月 開始 した。 のNHK技 研 公 開 で は,大 規 模 音 声 デ ー タ ベ ー ス を利 用 した 波 形 接 続 型 音 声 合 成 シ ス テ ム の ラ ジ オ第2放 か ら本 運 用 を 送 で 運 用 され た シ ス テ ム に つ い て も,大 隣 で,株 式 市 況 音 声 合 成 シ ス テ ム の 展 示 も行 った[13]。し き な事 故 を起 こす こ とが な か っ た た め,2014年3.月 た が っ て,株 式 市 況 音 声 合 成 シ ス テ ム の 骨 格 は,ほ ぼ こ 2代 の 半 年 の 間 で 完 成 す る こ とが で き た 。 とに な っ た。 しか も,2代 2005年 のNHK技 研 公 開 で は,合 成 音 の 高 品 質 化 を さ ら から 目の株 式 市況 音 声合 成 シ ス テ ム が リ リー ス され る こ 目の シ ス テ ム で は,気 象 通 報 の音 声 合 成 シ ス テ ム も搭 載 され,2つ の番 組 を音 声 合 成 に 図 り,運 用 イ メ ー ジ に よ り近 づ けた 試 作 機 の 展 示 を行 で放 送 す る こ とが 可能 で あ る。 現在 の と こ ろ,気 象 通 報 っ た。 しか し,2004年,2005年 の音 声 合 成 シ ス テ ム は ま だ放 送 に 用 い られ て い な い が, と施 設 整 備 の 予 算 申請 を 行 っ た と ころ,本 当 に 安 定 して 運 用 可 能 か ど うか 明 らか 株 式 市況 の音 声 合 成 シ ス テ ム に つ い て は,2014年3H31 で な い との 理 由 か ら予 算 の 申請 は 却 下 され て しま う。 こ 日か ら放 送 を行 っ て い る。 の た め,地 上 デ ジ タル 音 声 放 送 実 用 化 試 験 放 送(通 称 デ ジ タ ル ラジ オ)で 実 際 に放 送 を出 す こ とで,運 用 が 可 能 で あ 4.数 値音 声合成 る こ とを 証 明 して みせ る こ とに な っ た 。 4.1数 デ ジ タ ル ラジ オ は,当 時 受 信機 もほ ぼ 販 売 され て お ら 値 音 声 合 成 の概 要 ず,施 設 整 備 す るた め の 予 算 もつ い て い な か っ た こ とか 数 値 音 声 合 成 の 概 要 を 図1に ら,技 研 の機 材 を そ の ま ま 持 ち込 み,株 式 市 況 の デ ー タ 数 値 音 声 合 成 エ ン ジ ン は 数 値 が 入 力 され る と,4.2節 示す。 を 自動 的 に 取 得 す るた め に 必 要 な 敷 線 工 事 ・デ ー タ供 給 述 べ る 音 声 波 形 デ ー タ ベ ー ス の 基 本 単 位"ク 元 の ソフ トウェ ア 改 修 工 事 な ど も技 研 の 主 導 で 行 っ た 。 グ され た 前 後 の 値 を 考 慮 し た 桁"に に か け て行 い,2006年10Hか 分 割 す る。 例 え ば, 二 百(三 十)」,「(百)三 十 四 円 」 に 分 割 す る 。 こ こ で,「(千) ら毎 週 金 曜 日に 放 送 を 行 っ た[14]。ラ ジ オ第2放 送 の 株 式 市 況 は, 二 百(三 十)」 は,前 当 時 の番 組 構 成 で は,最 初 に1分 程 度 概 況 を伝 えて,そ な れ か ら各銘 柄 の株 価 と前 日比 を44分 ラス タ リン 「1234円 」 が 入 力 され た 場 合 に は,「 一 千(二 百)」,「(千) これ らの 工 事 や 運 用 に 必 要 な 改 修 は,主 に2005年10E か ら2006年4月 で 程 度 伝 え る とい う 「二 百 」 を 意 味 す る。 次 に,音 一7一 が 「千 」 で 後 ろ が 「三 十 」 で あ る よ う 声 波 形 デ ー タベ ー ス の 中に は 目的 の数 値 を実 Vol.52No.2(2015.12) 成 践 大 学 理 工 学 研 究 報 告 響 ⇒纒 一 千(二 百)(千)二 ⇒lr籍欝 響 騰⇒ 鵬 百(三 十)(百)三 十四円 音 声 波 形 デ ー タ ベ ー ス 一干 三互 七十八円 一 万 三 壬 二 百 三 チ八 円 一干 三百 八十五円 四 壬 二 百 三 チー 円 一千 四百 九十四円 九 一Zf二百 三if円 音声波形デー タベー ス構 築のための 読み上 げ文章 の抽出 五千 二亘 三十四円 百 三十 五円 五千 〇 三十六円 音峯 謝 前後 の桁読み の ;灘 ⇒強鮮 旛 申 脚 数 値 図1数 値 音 声 合 成 の概 要 現 で き る音 声 波 形 の 組 み 合 わ せ が 複 数 存 在 す るた め,分 ① 前 の 桁 が 十 で 終 わ る桁(十,二 割 した桁 を 表 す 音 声 波 形 デ ー タの す べ て の 組 み 合 わ せ を 十)。 こ れ と 同 様 に,前 探 索 し,隣 二 百,三 り合 う各 音 声 波 形 デ ー タの 音 響 的 な 特 徴 が な 百 … 十,三 の 桁 が 千 で 終 わ る 桁(一 千,二 千,三 千 … 九 千),前 体 で 類似 度 の 和 が 最 大 とな る音 声 デ ー タの 組 み 合 わ せ を 桁(一 万,二 万 … 九 万,十 選 択 し,接 続 す る こ とで,合 成 音 と して 出 力 す る。 じ桁 と し て ク ラ ス タ リ ン グ す る。 4.2音 声 波 形 デ ー タ ベ ー ス の 構 築 と基 本 単 位 九 の 桁 が 百 で 終 わ る 桁(百, 九 百),前 るべ く類 似 す る組 み 合 わ せ を 選 択 す る。 そ の 結 果,文 全 ② 十 … 後 ろ の 桁 が 十 で 始 ま る桁(十 の桁 が 万 で 終 わ る 万 ・ ・な ど)も 一,十 二,十 同 三 … 十 九)や 二 十 で 始 ま る 桁(二 十,二 十 一,二 十 二 ・… 二 十 九),同 数 値 音 声 合 成 の 音 声 波 形 デ ー タベ ー ス を構 築 す る際, 文 献[11]の よ うに 目的 の 番 組 の放 送 音 声 を利 用 す る こ と 八 十,九 が 考 え られ る。 しか し,株 式 市 況 の 放 送 音 声 で 使 わ れ る 様 に 三 十,四 十,五 十,六 十,七 十, 十 で 始 ま る桁 は そ れ ぞ れ 同 じ桁 と し て ク ラ ス タ リ ン グ す る。 終値 ・前 日比 の 数値 に は 偏 りが あ り,放 送 音 声 を収 録 す 上 記 の よ う に ク ラ ス タ リ ン グ を 行 う こ と で,1か るだ け で は,現 在 の 放 送 を1年 分 収 録 した と して も,例 億 未 満 の 整 数 に 含 ま れ る基 本 単 位 の 数 を5330に え ば1千 万 の 音 声 は 存 在 しな い た め,将 来1千 万 を含 む る こ とが で き る。 ら1 削減 す 高 額 な 終値 ・前 日比 が 存 在 す る よ うに な った 場 合 に音 声 を 合 成 す る こ とが で き な い 。 さ らに,放 送 音 声 は,な る 4.3音 べ く早 口で 読 み 上 げ よ うとす るた め 発 声 が 安 定 して い な 声 波 形 デー タ ベ ー ス構 築 の た め の 読 み 上 げ 文 章 の抽 出 い。 この た め,試 作 した株 価 音 声 合 成 シ ス テ ム の 音 声 波 音 声 波 形 デ ー タベ ー ス を構 築 す るた め の 読 み 上 げ テ キ 形 デ ー タ ベ ー ス は,数 値 の 偏 りが な い 文 章 をア ナ ウ ンサ ー に別 途 読 み 上 げ て も らい 構 築 した 。 この 読 み 上 げ 文 章 ス トの作 成 方 法 に つ い て述 べ る。 音 声 の 収録 を効 率 よ く 行 うた め に は,読 み 上 げ テ キ ス トは で き るか ぎ り少 な い の抽 出 法 に つ い て は4.3節 こ とが望 ま しい。 しか し,本 研 究 の タス クで は,各 基 本 で 述 べ る。 そ の 際,発 声 が 安 定 す る よ うに,株 式 市 況 の 番 組 と比 較 して ゆっ く り読 み 単位 が音 声 波 形 デ ー タベ ー ス に1個 以 上 存在 しな い と, 上 げ る よ う指 示 した。 そ の基 本 単位 を含 む音 声 が合 成 で き な くな るた め,読 み 上 げ テ キ ス トに は必 ず1個 ま た,目 的 は数 値 の合 成 で あ る た め,"各 桁"(下 二 桁, 百,千,万 下 二 桁,百 万,千 万)を 音 声 波 形 デ ー タベ ー ス 以 上 各 基本 単位 を含 ま せ る必 要 が あ る。 の 基 本 単位 と した。但 し,単 純 に"各 桁"と す るの で は, この た め,読 み 上 げ テ キ ス トの 中に 各 基 本 単位 が 一 個 無 音 を は さめ な い た め 合 成 音 の 自然 性 が 劣 化 して しま う。 以 上含 まれ,か この た め,調 音 結 合 を 考慮 す る 必 要 が あ り,"前 後 の 値 を が な るべ く少 な くな る よ うに,以 下 の よ うな ア ル ゴ リズ 考 慮 した桁"に ム で抽 出 を行 っ た。 した い が,こ の 場 合,基 本 単 位 の 数 が 約 4万 と多 くな る問題 が 生 じる。 した が っ て,下 記 の 条 件 ① あ らか じめ 定 め られ て い る,1文 の桁 は 同 じ桁 とみ な し,"ク ラス タ リン グ され た 前 後 の 値 を 考 慮 した桁"と つ 大 量 の テ キ ス トか ら読 み 上 げ テ キ ス ト 章 に含 ま れ る基 本 単 位 の最 大数 の初 期 値 を0と す る。 して扱 うこ とに す る。 ② 大 量 の テ キ ス トか ら順 に1文 章 ず つ選 択 し,そ の 文 章 一8一 成 践 大 学 理 工 学 研 究 報 告 Vol.52No.2(2015.12) に含 ま れ て い る各 基 本 単位 の 数 を カ ウ ン トす る。 で は,合 成 音 の 品 質 評 価 に対 す る ガ イ ドライ ン[15]の よ 但 し,す で に採 用 が 決 ま っ た 文 章 に 含 ま れ て い た 基 本 うに7段 階 の 両極 尺度 で評 価 す る手 法 もあ る。 しか し, 単位 に つ い て は カ ウ ン トしな い 。 本 論 文 で は合 成 音 の 自然 性 の レベ ル を 具 体 的 に 知 りた か ③ カ ウ ン トされ た 基 本 単位 の 数 が,1文 っ た た め,文 献[8]で行 われ て い る よ うな5段 階 で評 価 す 章 に含 ま れ る基 本 単位 の 最 大数 以 上 の 場 合,こ の 文 章 を採 用 す る。 る こ と と した。 評 価 に先 立 ち,音 声 波形 デ ー タベ ー ス 内 さ らに,1文 の音 声 を3文 章 聞 かせ て,こ の程 度 の 自然 性 の場 合 に は, 章 に 含 ま れ る基 本 単位 の 最 大 数 をカ ウ ン トされ た 基 本 単位 の数 に 置 き 換 え る。 評 価5の 「自然 で あ る」 と見 な す よ うイ ンス トラ クシ ョ ④ ② か ら③ を 大 量 の テ キ ス トに 含 ま れ る全 て の 文 章 につ ン を 与 え た。また,各 音 声 の 受聴 は 一 回 の み に限 定 した 。 い て 逐 次繰 り返 し,採 用 す る文 章 を 増 や して い く。 な お,評 価 は,適 度 な 時 間 間 隔 で休 憩 を は さみ な が ら行 ⑤ ④ の 操 作 を 行 っ た 後 で も,1文 っ た。 章 に 含 ま れ る基 本 単 位 の 最 大 数 が0で あ れ ば,採 用 され た文 章 の基 本 単位 は, 図2に 各合 成 音 のMeanOpinionScore(MOS)と 標 準偏 大 量 の テ キ ス トの 基 本 単位 と一 致 す るた め終 了 す る。 差 を示 す 。 自然 音 声 の評 価 が4.97で あ るの に 対 し,合 成 そ うで な け れ ば,採 用 した 文 章 をそ の ま ま 保 持 し,① 音 の 平均 評 価 値 は4.94と な っ た。 一 方,市 販 音 声 合 成 ソ の 初 期化 を 行 い ② か ら③ を 再 び繰 り返 し行 う。 フ トの評 価 は最 も良 い もの で3.44と な り,提 案 法 で 作 成 され た合 成 音 の 自然 性 が 十 分 に 高 い こ とが 分 か る。 市販 4.4合 の音 声 合 成 ソフ トよ り も提 案 法 に よ る合 成 音 の 自然性 が 成音 評価 実験 合 成 音 の 自然性 を5段 階 で 評 価 す るた め,作 成 した 合 成 音 に,3つ 高 い と評 価 され た理 由 は,市 販 の 音 声合 成 ソ フ トが 音 響 の 市販 の 音 声 合 成 ソ フ トで 作 成 した 合 成 音 (CAI,CA2,CA3と 的 な特 徴 量 の 目標 値 に音 声 デ ー タ を 変形 す る こ とに よ り, 合 成 音 の 自然 性 が低 下 して しま う一 方,提 案 法 で は,そ 表 記)と,読 み 上 げ 音 声 を録 音 した だ の よ うな音 声 デ ー タ の変 形 をす る必 要 が な い 点 に あ る。 け の 自然 音 声 を加 え 品 質 評 価 実 験 を行 っ た 。3つ の 市 販 の 音 声 合 成 ソフ トの 音 声 合 成 方 式 は 明 らか で は な い が, 5 るた め,市 販 の音 声 合 成 ソフ トと して は一 般 的 で は な く, 声 合 成 方 式 も市 販 の音 声 合 成 ソフ トに は ほ とん どな い こ とか ら,波 形 編集 方 式 で あ る可 能性 が 高 い 。 ら1億 未 満 の 整 数 を音 声 合 成 で き る よ うに,4.3節 の 手 法 で 抽 出 した テ キ ス トを 音 声 波 形 デ ー タ ベ ー ス は,1か り づ (のOΣ ) HMM音 。﹄8 。。 目 ヨ qO 壽 。Σ 波 形接 続 方 式 で は 大 規模 な 音 声 デ ー タベ ー ス が 必 要 にな 読 み 上 げ る こ とで構 築 した 。 抽 出 され た 読 み 上 げ テ キ ス トは4486個 1 の整 数 で あ る。読 み 上 げた の は,株 式 市 況 の CAlCA2CA3ProposedNatural 番 組 を 担 当 して い る男 性 の ア ナ ウ ンサ ー で あ る。 録 音 は 図25段 防 音 室 で行 っ た。 階主観評価実験結果 評 価 用 数値 は,音 声 デ ー タ ベ ー ス に含 ま れ て い な い40 個 の株 価 と40個 の前 日比 と した。1つ の 手 法 で80個 5.む の す び 合 成 音 を 作成 した た め,提 案 法 ・3つ の 市 販 音 声 合 成 ソ フ ト ・自然 音 声 の5つ の 手 法 を考 え る と,数 値 は 全 部 で 計400音 ラ ジ オ第2放 の音 声 合 成 部 分 に つ い て述 べ た。 波 形接 続 方 式 に よ る音 声 とな る。 評 価 は,許 容 騒 音 レベ ル がNC-15で あ る防 音 室 内 で ス 声 合 成 シ ス テ ム を試 作 し,従 来 の録 音編 集 方 式 で は難 し ピ ー カ を 用 い て 行 っ た 。 聴 取 レ ベ ル はMCL(Most ComfortableLevel)で,ス ピー カ はDIArONEのDS-A3を か っ た,収 録 した音 声 を有 音 部 分 で接 続 して 合 成 音 を作 使 成 す る こ とが 可能 に な っ た。 これ に よ り,録 音 編集 方 式 用 した。 評 定者 は,音 声 の 評 価 実 験 の 経 験 の な い20代 の 男性10名,女 性10名 送 で 運 用 して い る株 価 音 声 合成 シ ス テ ム の 計20名 で は 実現 で き な か っ た番 組 の音 声 合 成 化 が期 待 され る。 で あ る。 各 試 行 で は, ま た,話 速 変換 技 術 を用 い る こ とに よ り,合 成 音 の し 評 価 デ ー タ を ラ ンダ ム な 順 序 で 提 示 し,評 定 者 には 自然 ゃべ る速 度 を 変 え られ る よ うに な っ た た め,調 整 で き る 性 の 違 い を,5(自 然 で あ る),4(不 自然 な 部 分 は あ るが 気 時 間尺 の範 囲 が広 が っ た。 これ に よ り,合 成 音 の 放 送利 に な らな い),3(少 し気 に な る),2(気 に な る),1(非 常 に気 用 が一 段 と容 易 に な っ た と思 われ る。 に な る)の5段 階 で評 価 す る よ う指 示 した。自然 性 の 評 価 今 後 も引 き続 き 実用 的 な 音 声 処理 技術 の研 究 を推 進 す 一9一 Vol.52No.2(2015.12) 成 践 大 学 理 工 学 研 究 報 告 る こ と で,社 会 に 貢 献 して い き た い と考 え て い る。 BroadcastSystemfbrtheWeatherReportProgram", IEEETransactionsonBroadcasting,Vbl.59,No.3, 参考文献 pp.548-555,2013 13)H.Segi,R.Tako,N.Seiyama,andT.Takagi, 1)日 本 放 送 協 会,「20世 "DevelopmentofaPrototypeData 紀 放 送 史 」,日 本 放 送 出 版 協 会, ReceiverwithaHigh-Qualityvoicesynthesizer", pp.31-32,2001年 2)平 岡 征 男,内 山 の 番 組 制 作 出 」,テ 久 宜,「 「早 朝 ・深 夜 の 天 気 予 報 」 天 気 予 報 ア ナ ウ ン ス コ メ ン IEEETransactionsonConsumerElectronics,Vol. ト 自動 送 56,No.1,pp.169-174,2010 レ ビ ジ ョ ン 学 会 誌,Vol.41,No.8,pp.742- 14)世 743,1987年8E 3)北 浜,今 第31回 5)足 川,三 浦,「 自 動 音 声 付 天 気 予 報 シ ス テ ム 」, 井 山 篤,西 信 正,田 脇 高 正 通,小 礼 子,都 山 木 隆 二,「 徹,大 出 高 品 質 な 運 用 」,映 像 情 報 メ デ ィ ア 学 会 誌,Vbl.62,No.1,pp. 69-76,2008年1月 口 文 夫,「 天 気 情 報 ア ナ ウ ン ス 送 出 装 置 」,映 像 15)音 声 入 出 力 方 式 標 準 化 委 員 会,「 音 声 合 成 シ ス テ ム の 情 報 メ デ ィ ア 学 会 技 術 報 告,Vbl.21,No.53,pp.25- 性 能 評 価 方 法 ガ イ ド ラ イ ン 」,電 子 情 報 技 術 産 業 協 会, 30,1997年9月 JEITA-IT-4001,2003年 立,渡 辺,「 自 動 天 気 音 声 ア ナ ウ ン ス 送 出 シ ス テ ム 」, 「明 日 の 放 送 と 技 術 フ ォ ー ラ ム 」 講 演 予 稿 集,PP.27-28,2004年 6)河 上,下 野,「CG,音 声 合 成 を用 い た 全 自動 道 路 交 通 情 報 シ ス テ ム 」,第39回 民 放 技 術 報 告 会 予 稿 集, PP.148-149,2002年11月 7)大 田 雄 二,岩 大 須 賀 下 正 信,津 浦 宏,近 藤 隆 春, 朋 尚,「 提 供 テ ロ ッ プ ・ア ナ ウ ン ス コ メ ン ト の 作 成 送 出 シ ス テ ム の 概 要 」,テ レ ビ ジ ョ ン 学 会 技 術 報 告,Vol.17,No,23,pp.7-12,1993年3月 8)H.Zen,T.TodaandK.Tokuda,"TheNitech-NAIST HMM-basedspeechsynthesissystemfortheBlizzard Challenge2006",IEICETrans.Inf.&Syst.,Vol.E91-D, No.6,pp.1764-1773,2008 9)河 井 イ見 恒,戸 田 晋 富,西 智 基,山 澤 信 行,津 岸 順 一,平 崎 実,徳 井 田 俊 男, 恵 一,「 大 規 模 コ ー パ ス を 用 い た 音 声 合 成 シ ス テ ムXIMERA」, 電 子 情 報 通 信 学 会 論 文 誌,Vol.J89-D-II,No.12,pp. 2588-2698,2006年12月 木 徹,梅 田 哲,「 ピ ッチ 変 更 時 の ひ ず み をス ペ ク トル 領 域 で 修 正 す る 音 質 変 換 方 式 と そ の 品 質 の 心 理 評 価 」,電 子 情 報 通 信 学 会 論 文 誌,Vbl.J73-A,No. 3,PP.387-396,1990年3月 ll)世 寛 之,清 株 価 音 声 合 成 装 置 の 開 発 と デ ジ タル ラ ジ オ で の 試 験 民 放 技 術 報 告 会 予 稿 集,pp.94-95,1994年 第57回 10)都 木 訓 史,今 ll月 4)澤 -Broadcast 木 寛 之,田 高 礼 子,清 山 信 正,都 木 徹, 「ニ ュ ー ス 番 組 の 収 録 音 声 を 利 用 し た 波 形 接 続 型 音 声 合 成 シ ス テ ム 」,情 報 処 理 学 会 論 文 誌,Vol.50,No. 2,pp.575-586,2009年2月 12)H.Segi,R.Takou,N.Seiyama,T.Takagi,Y Uematsu,H.SaitoandS.Ozawa,``AnAutomatic 一10一