...

Page 1 成跨委大学理工学研究報告 J. Fac SciTech.、Seikei Univ Vol

by user

on
Category: Documents
19

views

Report

Comments

Transcript

Page 1 成跨委大学理工学研究報告 J. Fac SciTech.、Seikei Univ Vol
成 瞑 大 学 理 工 学 研 究 報 告
J.Fac.Sci.Tech.,SeikeiUniv.
Vol.52No.2(2015)pp.5-10
株式市況音声合成 システム
世木
寛 之*1
AnAutomaticBroadcastSystemUsingSpeechSynthesisfbrtheStockMarketReport
HiroyukiSEGI*1
ABSTRACT:The`KabushikiShikyo'programbroadcastonNHKRadio2reportsonthedailyclosing
pricesandnetchangesofabout830stockslistedontheTokyoStockExchange.Readingoutthenumerical
valueswithoutmakingmistakeswithintheallottedbroadcasttimecanbeextremelydifficultfbrthe
announcers.Wehavetherefbredevelopedanautomaticbroadcastsystemfbrstock-pricebulletins,which
usesnumericalspeechsynthesisandautomaticspeech-rateconversion.Oursystemhasbeenusedin
experimentaldigitalterrestrialradiobroadcastssinceOctober2006andalsousedinNHKradio2since
March2010.Thisarticledescribesthegenerationoftextstobuildthespeechwaveformdatabase,the
mechanismusedtosynthesizenumericalspeechviathedatabase,andtheevaluationofnaturalnessfbrthe
synthesizedspeechsamples.
Keywords:text-to-speech,speechrateconversion,stockmarketreport,broadcasting,concatenativespeech
synthesis
(ReceivedOctober5,2015)
1.は
た。 本 報 告 で は,研 究 ・開発 を行 っ た株 式 市 況 の 音 声 合
じめ に
成 シ ス テ ム の し くみ に つ い て紹 介 す る。
NHKの
「
株 式 市 況 」 は,1925年3.月23日
か ら ラ ジオ
で放 送 を 開 始 し[1],現 在 で は ラ ジオ 第2放
2.放
送 で 平 日17
送 用音 声 合 成 の 歴 史 と本 シ ス テ ム の 特徴
時 か ら放 送 され て い る超 長 寿 番 組 で あ る。 放 送 時 間 は 約
1時 間 で,主 に 東 証 一 部 に 上 場 して い る銘 柄 の うちの 約
音 声 合 成 は20年
ほ ど 前 か ら放 送 で 利 用 さ れ る よ うに
800銘 柄 の 終値 と前 日比 を 伝 えて い る。1時 間 近 く もの
な っ た[2]。 読 み 手(ア
ナ ウ ン サ ー)が
問,連 続 して1人 の ア ナ ウ ンサ ー が 読 み 続 け る こ とは 難
伝 え られ る こ と は,放
送 局 に とっ て 非 常 に利 便性 が 高 い
しい た め,2人
か らで あ る。
の ア ナ ウ ンサ ー が 途 中で 交 代 して 読 み 上
げ て い た。そ れ で も,1)数 値 を 間違 えず に読 む こ と,2)限
い な くて も情 報 が
放 送 局 で 使 わ れ て き た 音 声 合 成 シ ス テ ム と し て は,天
られ た 時 間 内 に 収 ま る よ うに,読 み な が ら時 間 配 分 を調
気 予 報 の 自動 送 出[2-5],交
整 す る こ とが 要 求 され,ア ナ ウ ンサ ー に と って 非 常 に難
ッ プ の 読 み 上 げ[7]が 挙 げ ら れ る 。 ま た,文
度 の 高 い 業務 で あ っ た。
っ て い な い が,実
この た め,2003年
秋 頃 か らNHK放
送 技 術 研 究 所(以 下
通 情 報[6],ス
ポ ンサ ー名 テ ロ
献 と して は残
際 に使 用 され た 音 声合 成 シ ス テ ム も数
多 く あ り,例 え ば,テ
レ ビ埼 玉 で は1998年4月1日
か ら
技研)で,株 式 市 況 の音 声 合 成 化 の検 討 を行 い,細 か な 経
現 在 ま で 天 気 予 報 を 音 声 合 成 で 放 送 し て い る。 ま た,「 株
緯 は3章
式 市 況 」 に お け る株 価 情 報 の 一 部(銘
で述 べ る が,2010年3.月29日
よ る放 送 を 開 始 した。 ま た,2014年3Hか
か ら音 声 合 成 に
らは2代
目の
値,前
株 式 市 況 音 声 合 成 シ ス テ ム が リ リー ス され る こ と にな っ
日比)は,1990年
柄 名,株
台 半 ば か ら2004年
な 日 時 は 不 明),ラ ジ オNIKKEI(当
価 の引 け
頃 ま で(正 確
時 の ラ ジ オ た ん ぱ)に て
放 送 され た 。 さ ら に,「 い つ で も ニ ュ ー ス 」は,2003年10
*1:情
報 科 学 科 准 教 授(segi@stseikei
月10日
.acjp)
一5一
か ら2007年3H20日
ま で,NHKデ
ジ タル ラジ
成 践 大 学 理 工 学 研 究 報 告
Vol.52No.2(2015.12)
オ 実 用化 試 験 放 送 で 放 送 され た 。 こ の番 組 で は,NHKの
特 定評 価 者 で約4.5,音
声 の専 門家 で 約4.7,ネ
ホ ー ム ペ ー ジ に 掲 載 され た ニ ュー ス 文 を,波 形 編 集 の 音
ス ピー カ ー で 約4.4と
評 価 され た こ と を考 慮 す る と,
声 合 成 ソフ トで 合 成 し放 送 を行 っ て い た 。 任 意 文 を合 成
HMM音
す る際 に,ア
て い な い こ とが分 か る。
クセ ン トや 読 み 仮 名 の 推 定 に間 違 い が 生 じ
る可 能性 が あ るた め,放 送 前 に人 手 で修 正 を行 っ て い た。
そ して,「 多 言 語 天 気 予 報 」 は,2004年2月16日
2011年3月31日
ま で,NHKデ
イ テ ィブ
声 合 成 方 式 で は,肉 声 と同 等 の 自然性 は 実 現 で き
波 形 接 続 ・波 形 編 集 の 自然 性 評 価 は文 献[9]で行 わ れ て
から
い る。 この 文 献 で は,2つ
の 評 価 実 験 が 行 わ れ て い る。1
ジ タル ラジ オ 実 用 化 試 験
つ 目の 評 価 実 験 で は,市
販 の10製
品 と提 案 法 で あ る
放 送 に て 放 送 され た 。 デ ジ タル ラジ オ の サ ブ チ ャ ンネ ル
XIMERAで
を 活 か し,リ ス ナ ー は 日本 語 ・英 語 ・中国 語 ・韓 国 語 の
行 っ た。そ の結 果,波 形接 続 ・波 形 編 集 の他 の10製 品 に
4つ の 言 語 か ら選 ん で 天 気 予 報 を聞 く こ とが で き る。 こ
対 して,提 案 法 で あ るXIMERAが
の他,番 組 の 中 で の 演 出 や 効 果 と して 使 わ れ た もの ま で
い る こ とが 分 か っ た 。2つ
含 め る と,相 当 数 あ る と考 え られ る。 な お 海 外 で は,空
の音 声 デ ー タベ ー ス の 大 き さを10段 階 変 化 させ た上 で,
港 や 駅 で の案 内,高 速 道 路 で の 交 通 情 報 の 放 送 な ど に音
5段 階 の 自然 性 評 価 を行 っ て い る。 そ の 結 果,自 然 音 声
声 合 成 を 用 い て い る例 は い くつ か 見 られ るが,い わ ゆ る
に対 して約4.8と い う評 価 が 得 られ て い るの に対 し約3.4
テ レ ビや ラジ オ に お い て,合 成 音 で 放 送 した 例 は 見 当た
とい う評 価 が得 られ て い る。1つ
らな い。
性 の発 話 者 に よ る47時
上 記 の 音 声 合 成 シ ス テ ム は,収 録 した 音 声 を無 音 部 分
お り,2つ
作 成 した 合 成 音 を7段 階 の評 定 尺 度 で 評価 を
統 計 的 に 有意 に優 れ て
目の 評 価 実 験 で は,XIMERA
目の評 価 実 験 で は,女
間 の音 声 デ ー タベ ー ス を 用 い て
目の評 価 実 験 で は,男 性 の発 話 者 に よ る63時
で 接 続 して 再 生す る方 式(録 音 編 集 方 式)が ほ とん どで あ
間 の音 声 デ ー タベ ー ス を用 い て い る とい う条件 の 違 い は
る[2-7]。録 音 編集 方 式 で株 式 市 況 の 音 声 合 成 シス テ ム を
あ るが,XIMERAも
構 築 し よ うとす る と,現 在 の 最 高 値 で あ る数 百 万 円ま で
集 で は,肉 声 と同等 の 自然 性 は 実 現 で き て い な い こ とが
の 数値 を 全 て 録 音 す る必 要 が あ るが,膨 大 な 時 間 と コス
分 か る。 ま た,こ れ ま で に筆 者 らは,ニ
トが か か り難 しい 。 更 に,録 音 編集 方 式 で は,録 音 した
録 音 声 を音 声 波 形 デ ー タベ ー ス と して利 用 した 波 形接 続
音 声 デ ー タ の 接 続 部 分 に 適 当 な 長 さの 無 音 が 必 要 で,こ
型 音 声 合 成 方 式 を 開発 し,良 好 な 結 果 を 得 て い る[11]。し
れ が な い と不 自然 な接 続 音 に な る。「
株 式 市 況 」で は,ア
か し,こ の方 式 で も放 送 に 耐 え うる よ うな 十 分 な 自然性
ナ ウ ンサ ー とい え ど も容 易 で は な い ほ どの 早 口で 読 み 上
が得 られ る わ け で は な い。
げ な け れ ば な らな い た め,録 音 編 集 方 式 で 必 要 とな る長
ュー ス番 組 の 収
この た め,新 た に 開発 した株 式 市 況 音 声 合成 シ ス テ ム
さの 無 音 を は さむ こ とは で き な い 。
で は,波 形 接 続 型 音 声 合 成 方 式 を応 用 して,1か
録 音 編集 方 式 以 外 の 音 声 合 成 方 式 も存 在 す るが,肉 声
と同 等 の 品 質 を 実 現 で き て い な い 。HMM音
含 め,従 来 の波 形 接 続 お よび 波 形 編
未 満 の整 数 の数 値 音 声 に つ い て,桁 単 位 の接 続 を想 定 し,
声 合 成 の 自然
性 評価 は 文 献[8]で行 われ て い る。こ こ で は,HMM音
ら1億
調 音 結 合(例 え ば 「あ い う」と発 声 した とき の 「い 」には,
声合
前 に発 声 した 「あ 」 の 口の 形 と舌 の位 置 の影 響 と,後 に
成 シ ス テ ム を含 む14種 類 の音 声 合 成 シ ス テ ム につ い て,
発 声 す る 「う」 の 口の形 と舌 の位 置 の影 響 が 表 れ て い る
同 じ音 声 デ ー タ ベ ー ス を 用 い て 同 じ評 価 テ キ ス トか ら合
現 象)を 考 慮 して 音 声 波 形 の接 続 を行 っ た 。 これ に よ り,
成 音 を 作 成 し,イ ンタ ー ネ ッ トに よ る不 特 定 評 価 者,音
音 声 の途 中 で の つ な ぎ合 わせ が 可能 に な り,約4000個
声 の 専 門 家,ア メ リカ 英 語 を話 す 大 学 生 に よ る評 価 を行
数 値 を収 録 す るだ け で,1億
っ て い る。評 価 は5段 階 で 行 われ,HMM音
っ た。
声 合 成 は,イ
ンタ ー ネ ッ トに よ る不 特 定 評価 者 で は 約3.0,音 声 の 専 門
家 で は約3.1,ア
の
ま で の数 値 が 合成 可 能 に な
ま た,こ の音 声 合 成 シ ステ ム の も う一 つ の特 徴 と して,
メ リカ 英 語 を話 す 大 学 生 で は約3.4と い
放 送 用 の音 声 合 成 シ ス テ ム と して は 世 界 で 初 め て,合 成
う評 価 を 受 け て い る。 そ の 他 の 音 声 合 成 シス テ ム に よ る
音 の しゃべ る速 度 を 変 え る こ とに よ り時 間 尺 を調 整 した
評 価 結 果 も公 開 され て は い るが,一 番 自然 性 が 高 い と評
こ とが挙 げ られ る。 機 械 で あ れ ば株 価 デ ー タ を受信 した
価 を 受 け た 合 成 音 で も,イ ン ター ネ ッ トで の 不 特 定 評 価
時 点 で,再 生 に必 要 な 時 間 を 計 算 で き るの で,音 声 と音
者 で は約3.5,音
声 の 間 に均 等 に無 音 を は さむ こ とで,あ
声 の専 門家 で は約3.7,ア
メ リカ 英 語 を
る程 度 の 時 間 調
話 す 大 学 生 で は約3.7と い う評 価 を受 け て い る。(各 音 声
整 をす る こ とが で き る。 しか し,無 音 で調 整 で き る時 間
合 成 シ ス テ ム の 評 価 値 は 匿 名 で 公 開 され て い るた め,一
に は 限 りが あ る し,「株 式 市 況 」で 必 要 とな る話 速 で 元 の
番 評 価 が 高 か っ た 合 成 音 が,ど の よ うな 音 声 合 成 方 式 で
音 声 を録 音 す るの は,読 み 間違 いや 発 声 の 安 定性 の 面 で
実 現 され た か は 不 明 で あ る。)自然 音 声 が,ネ ッ トで の 不
難 しい。 そ こで,話 速 変換 を 用 い て,発 声 部 分 の 長 さ を
一6一
成 践 大 学 理 工 学 研 究 報 告
変 え る こ と で,調
Vol.52No.2(2015.12)
構 成 で あ っ た が,デ ジ タル ラジ オ の放 送 に ア ナ ウ ンサ ー
整 で き る 時 間 の 範 囲 を よ り広 く す る こ
が配 員 され る 予 定 は な か っ た た め,最 初 か ら各銘 柄 の株
とを行 っ た。
価 と前 日比 を45分
3.株 式 市 況 音 声 合 成 シス テ ム の 開 発 の 経 緯 と現 状
に わ た り伝 え る完 全 自動 放 送 の構 成
に な っ た。
この放 送 は2008年3月
に つ いて
ま で行 わ れ た が,特 に 大 きな
不 具 合 もな く,放 送 事故 もな く,安 定 に 運 用 す る こ とが
NHK技
研 で は過 去 に音 声 合 成 の 研 究 を行 っ て い た が
で き た。 運 用 が しに くい部 分 に つ い て は,運 用者 に感 想
頃か ら
を 聞 い て 改 善 点 を列 挙 し順 位 付 け を して,半 年 に1度 シ
音 声 合 成 の研 究 を 再 開 した 。 再 開 後 の 研 究 で は,大 規 模
ス テ ム の 改修 を行 う こ とに よ り,改 善 を行 っ て い っ た。
音 声 デ ー タ ベ ー ス を利 用 した 波 形 接 続 型 音 声 合 成 方 式 の
これ に よ り,音 声合 成 で放 送 を 出 す こ とが 可 能 だ と関
[10],そ の 後 長 い 間研 究 を 行 っ て お らず,2001年
開発 を行 い,「 自然 で あ る」 か ら 「非 常 に気 に な る」の5
係 者 に認 知 され,3回
段 階 で 合 成 音 の 自然 性 を 評 価 した 結 果,平
る こ とに な り,ラ ジ オ第2放
均評 定値 で
4.01を 得 る合 成 音 を実 現 で き る よ うに な った[ll]。 しか
目の 予 算 申請 で よ うや く認 め られ
送 の株 式 市 況 の 音 声 合 成化
が決 定 した。
し,平 均 評 定値 で4.01が 得 られ た と して も,合 成 音 の 自
決 定 して か ら も,関 係 す る部 局 の 担 当者 が 何 度 も変 わ
然性 は発 話 内 容 に 大 き く依 存 して お り,放 送 に利 用 す る
っ た り,シ ス テ ム整 備 の担 当 会社 は入 札 で 決 定 され るた
レベ ル に は 到 達 して い な か っ た 。
め,落 札 会 社 が必 ず し も技 研 の 技術 を使 うか ど うか は 決
そ の よ うな 状 況 で,2003年6E頃
にNHKの
ア ナ ウ ンス
ま っ て お らず,試
作 は した もの の別 の 方 式 で 実 用化 され
室 か ら株 式 市 況 の 自動 化 が で きな い か 検 討 して ほ しい と
る 可能 性 が あ っ た り して,や き もき させ られ る こ とは た
の 非公 式 の 依 頼 が あ り,技 研 で は 同 年 の 秋 頃 か ら株 式 市
び た び あ っ た が,最 終 的 に 技研 で 開発 した 技 術 が 本 運 用
況 の 音 声 合 成化 の 検討 を 開 始 した(な お,株 式 市 況 音 声 合
機 に も搭 載 され る こ とに な っ た。 シ ス テ ム が整 備 され た
成 シ ス テ ム の 実 用 化 後 に 取 り組 ん だ 気 象 通 報 音 声 合 成 シ
後,運 用 テ ス トを何 度 か行 っ て リス ナ ー の 反 響 に 問題 が
ス テ ム[12]に つ い て も この 時 に依 頼 が あっ た)。 研 究 は 順
な い こ とを確 認 した後,2010年3月29日
調 に進 み,2004年6.月
開始 した。
のNHK技
研 公 開 で は,大 規 模 音 声
デ ー タ ベ ー ス を利 用 した 波 形 接 続 型 音 声 合 成 シ ス テ ム の
ラ ジ オ第2放
か ら本 運 用 を
送 で 運 用 され た シ ス テ ム に つ い て も,大
隣 で,株 式 市 況 音 声 合 成 シ ス テ ム の 展 示 も行 った[13]。し
き な事 故 を起 こす こ とが な か っ た た め,2014年3.月
た が っ て,株 式 市 況 音 声 合 成 シ ス テ ム の 骨 格 は,ほ ぼ こ
2代
の 半 年 の 間 で 完 成 す る こ とが で き た 。
とに な っ た。 しか も,2代
2005年 のNHK技
研 公 開 で は,合 成 音 の 高 品 質 化 を さ ら
から
目の株 式 市況 音 声合 成 シ ス テ ム が リ リー ス され る こ
目の シ ス テ ム で は,気 象 通 報
の音 声 合 成 シ ス テ ム も搭 載 され,2つ
の番 組 を音 声 合 成
に 図 り,運 用 イ メ ー ジ に よ り近 づ けた 試 作 機 の 展 示 を行
で放 送 す る こ とが 可能 で あ る。 現在 の と こ ろ,気 象 通 報
っ た。 しか し,2004年,2005年
の音 声 合 成 シ ス テ ム は ま だ放 送 に 用 い られ て い な い が,
と施 設 整 備 の 予 算 申請 を
行 っ た と ころ,本 当 に 安 定 して 運 用 可 能 か ど うか 明 らか
株 式 市況 の音 声 合 成 シ ス テ ム に つ い て は,2014年3H31
で な い との 理 由 か ら予 算 の 申請 は 却 下 され て しま う。 こ
日か ら放 送 を行 っ て い る。
の た め,地 上 デ ジ タル 音 声 放 送 実 用 化 試 験 放 送(通 称 デ ジ
タ ル ラジ オ)で 実 際 に放 送 を出 す こ とで,運 用 が 可 能 で あ
4.数
値音 声合成
る こ とを 証 明 して みせ る こ とに な っ た 。
4.1数
デ ジ タ ル ラジ オ は,当 時 受 信機 もほ ぼ 販 売 され て お ら
値 音 声 合 成 の概 要
ず,施 設 整 備 す るた め の 予 算 もつ い て い な か っ た こ とか
数 値 音 声 合 成 の 概 要 を 図1に
ら,技 研 の機 材 を そ の ま ま 持 ち込 み,株 式 市 況 の デ ー タ
数 値 音 声 合 成 エ ン ジ ン は 数 値 が 入 力 され る と,4.2節
示す。
を 自動 的 に 取 得 す るた め に 必 要 な 敷 線 工 事 ・デ ー タ供 給
述 べ る 音 声 波 形 デ ー タ ベ ー ス の 基 本 単 位"ク
元 の ソフ トウェ ア 改 修 工 事 な ど も技 研 の 主 導 で 行 っ た 。
グ され た 前 後 の 値 を 考 慮 し た 桁"に
に か け て行 い,2006年10Hか
分 割 す る。 例 え ば,
二 百(三 十)」,「(百)三 十 四 円 」 に 分 割 す る 。 こ こ で,「(千)
ら毎 週 金
曜 日に 放 送 を 行 っ た[14]。ラ ジ オ第2放 送 の 株 式 市 況 は,
二 百(三 十)」 は,前
当 時 の番 組 構 成 で は,最 初 に1分 程 度 概 況 を伝 えて,そ
な
れ か ら各銘 柄 の株 価 と前 日比 を44分
ラス タ リン
「1234円 」 が 入 力 され た 場 合 に は,「 一 千(二 百)」,「(千)
これ らの 工 事 や 運 用 に 必 要 な 改 修 は,主 に2005年10E
か ら2006年4月
で
程 度 伝 え る とい う
「二 百 」 を 意 味 す る。
次 に,音
一7一
が 「千 」 で 後 ろ が 「三 十 」 で あ る よ う
声 波 形 デ ー タベ ー ス の 中に は 目的 の数 値 を実
Vol.52No.2(2015.12)
成 践 大 学 理 工 学 研 究 報 告
響 ⇒纒
一 千(二 百)(千)二
⇒lr籍欝 響 騰⇒
鵬
百(三 十)(百)三
十四円
音 声 波 形
デ ー タ ベ ー ス
一干 三互 七十八円
一 万 三 壬 二 百 三 チ八 円
一干 三百 八十五円
四 壬 二 百 三 チー 円
一千 四百 九十四円
九 一Zf二百 三if円
音声波形デー タベー ス構 築のための
読み上 げ文章 の抽出
五千 二亘 三十四円
百 三十 五円
五千 〇 三十六円
音峯
謝
前後 の桁読み の
;灘 ⇒強鮮 旛 申 脚 数
値
図1数
値 音 声 合 成 の概 要
現 で き る音 声 波 形 の 組 み 合 わ せ が 複 数 存 在 す るた め,分
①
前 の 桁 が 十 で 終 わ る桁(十,二
割 した桁 を 表 す 音 声 波 形 デ ー タの す べ て の 組 み 合 わ せ を
十)。 こ れ と 同 様 に,前
探 索 し,隣
二 百,三
り合 う各 音 声 波 形 デ ー タの 音 響 的 な 特 徴 が な
百 …
十,三
の 桁 が 千 で 終 わ る 桁(一
千,二
千,三
千 …
九 千),前
体 で 類似 度 の 和 が 最 大 とな る音 声 デ ー タの 組 み 合 わ せ を
桁(一
万,二
万 …
九 万,十
選 択 し,接 続 す る こ とで,合 成 音 と して 出 力 す る。
じ桁 と し て ク ラ ス タ リ ン グ す る。
4.2音
声 波 形 デ ー タ ベ ー ス の 構 築 と基 本 単 位
九
の 桁 が 百 で 終 わ る 桁(百,
九 百),前
るべ く類 似 す る組 み 合 わ せ を 選 択 す る。 そ の 結 果,文 全
②
十 …
後 ろ の 桁 が 十 で 始 ま る桁(十
の桁 が 万 で 終 わ る
万 ・ ・な ど)も
一,十
二,十
同
三 …
十 九)や 二 十 で 始 ま る 桁(二 十,二 十 一,二 十 二 ・…
二 十 九),同
数 値 音 声 合 成 の 音 声 波 形 デ ー タベ ー ス を構 築 す る際,
文 献[11]の よ うに 目的 の 番 組 の放 送 音 声 を利 用 す る こ と
八 十,九
が 考 え られ る。 しか し,株 式 市 況 の 放 送 音 声 で 使 わ れ る
様 に 三 十,四
十,五
十,六
十,七
十,
十 で 始 ま る桁 は そ れ ぞ れ 同 じ桁 と し て ク
ラ ス タ リ ン グ す る。
終値 ・前 日比 の 数値 に は 偏 りが あ り,放 送 音 声 を収 録 す
上 記 の よ う に ク ラ ス タ リ ン グ を 行 う こ と で,1か
るだ け で は,現 在 の 放 送 を1年 分 収 録 した と して も,例
億 未 満 の 整 数 に 含 ま れ る基 本 単 位 の 数 を5330に
え ば1千 万 の 音 声 は 存 在 しな い た め,将 来1千 万 を含 む
る こ とが で き る。
ら1
削減 す
高 額 な 終値 ・前 日比 が 存 在 す る よ うに な った 場 合 に音 声
を 合 成 す る こ とが で き な い 。 さ らに,放 送 音 声 は,な
る
4.3音
べ く早 口で 読 み 上 げ よ うとす るた め 発 声 が 安 定 して い な
声 波 形 デー タ ベ ー ス構 築 の た め の 読 み 上 げ 文 章
の抽 出
い。 この た め,試 作 した株 価 音 声 合 成 シ ス テ ム の 音 声 波
音 声 波 形 デ ー タベ ー ス を構 築 す るた め の 読 み 上 げ テ キ
形 デ ー タ ベ ー ス は,数 値 の 偏 りが な い 文 章 をア ナ ウ ンサ
ー に別 途 読 み 上 げ て も らい 構 築 した 。 この 読 み 上 げ 文 章
ス トの作 成 方 法 に つ い て述 べ る。 音 声 の 収録 を効 率 よ く
行 うた め に は,読 み 上 げ テ キ ス トは で き るか ぎ り少 な い
の抽 出 法 に つ い て は4.3節
こ とが望 ま しい。 しか し,本 研 究 の タス クで は,各 基 本
で 述 べ る。 そ の 際,発 声 が 安
定 す る よ うに,株 式 市 況 の 番 組 と比 較 して ゆっ く り読 み
単位 が音 声 波 形 デ ー タベ ー ス に1個 以 上 存在 しな い と,
上 げ る よ う指 示 した。
そ の基 本 単位 を含 む音 声 が合 成 で き な くな るた め,読 み
上 げ テ キ ス トに は必 ず1個
ま た,目 的 は数 値 の合 成 で あ る た め,"各 桁"(下 二 桁,
百,千,万
下 二 桁,百 万,千 万)を 音 声 波 形 デ ー タベ ー ス
以 上 各 基本 単位 を含 ま せ る必
要 が あ る。
の 基 本 単位 と した。但 し,単 純 に"各 桁"と す るの で は,
この た め,読 み 上 げ テ キ ス トの 中に 各 基 本 単位 が 一 個
無 音 を は さめ な い た め 合 成 音 の 自然 性 が 劣 化 して しま う。
以 上含 まれ,か
この た め,調 音 結 合 を 考慮 す る 必 要 が あ り,"前 後 の 値 を
が な るべ く少 な くな る よ うに,以 下 の よ うな ア ル ゴ リズ
考 慮 した桁"に
ム で抽 出 を行 っ た。
した い が,こ の 場 合,基 本 単 位 の 数 が 約
4万 と多 くな る問題 が 生 じる。 した が っ て,下 記 の 条 件
① あ らか じめ 定 め られ て い る,1文
の桁 は 同 じ桁 とみ な し,"ク ラス タ リン グ され た 前 後 の 値
を 考 慮 した桁"と
つ 大 量 の テ キ ス トか ら読 み 上 げ テ キ ス ト
章 に含 ま れ る基 本 単
位 の最 大数 の初 期 値 を0と す る。
して扱 うこ とに す る。
② 大 量 の テ キ ス トか ら順 に1文 章 ず つ選 択 し,そ の 文 章
一8一
成 践 大 学 理 工 学 研 究 報 告
Vol.52No.2(2015.12)
に含 ま れ て い る各 基 本 単位 の 数 を カ ウ ン トす る。
で は,合 成 音 の 品 質 評 価 に対 す る ガ イ ドライ ン[15]の よ
但 し,す で に採 用 が 決 ま っ た 文 章 に 含 ま れ て い た 基 本
うに7段 階 の 両極 尺度 で評 価 す る手 法 もあ る。 しか し,
単位 に つ い て は カ ウ ン トしな い 。
本 論 文 で は合 成 音 の 自然 性 の レベ ル を 具 体 的 に 知 りた か
③ カ ウ ン トされ た 基 本 単位 の 数 が,1文
っ た た め,文 献[8]で行 われ て い る よ うな5段 階 で評 価 す
章 に含 ま れ る基
本 単位 の 最 大数 以 上 の 場 合,こ の 文 章 を採 用 す る。
る こ と と した。 評 価 に先 立 ち,音 声 波形 デ ー タベ ー ス 内
さ らに,1文
の音 声 を3文 章 聞 かせ て,こ の程 度 の 自然 性 の場 合 に は,
章 に 含 ま れ る基 本 単位 の 最 大 数 をカ ウ ン
トされ た 基 本 単位 の数 に 置 き 換 え る。
評 価5の
「自然 で あ る」 と見 な す よ うイ ンス トラ クシ ョ
④ ② か ら③ を 大 量 の テ キ ス トに 含 ま れ る全 て の 文 章 につ
ン を 与 え た。また,各 音 声 の 受聴 は 一 回 の み に限 定 した 。
い て 逐 次繰 り返 し,採 用 す る文 章 を 増 や して い く。
な お,評 価 は,適 度 な 時 間 間 隔 で休 憩 を は さみ な が ら行
⑤ ④ の 操 作 を 行 っ た 後 で も,1文
っ た。
章 に 含 ま れ る基 本 単 位
の 最 大 数 が0で あ れ ば,採 用 され た文 章 の基 本 単位 は,
図2に
各合 成 音 のMeanOpinionScore(MOS)と
標 準偏
大 量 の テ キ ス トの 基 本 単位 と一 致 す るた め終 了 す る。
差 を示 す 。 自然 音 声 の評 価 が4.97で あ るの に 対 し,合 成
そ うで な け れ ば,採 用 した 文 章 をそ の ま ま 保 持 し,①
音 の 平均 評 価 値 は4.94と な っ た。 一 方,市 販 音 声 合 成 ソ
の 初 期化 を 行 い ② か ら③ を 再 び繰 り返 し行 う。
フ トの評 価 は最 も良 い もの で3.44と な り,提 案 法 で 作 成
され た合 成 音 の 自然 性 が 十 分 に 高 い こ とが 分 か る。 市販
4.4合
の音 声 合 成 ソフ トよ り も提 案 法 に よ る合 成 音 の 自然性 が
成音 評価 実験
合 成 音 の 自然性 を5段 階 で 評 価 す るた め,作 成 した 合
成 音 に,3つ
高 い と評 価 され た理 由 は,市 販 の 音 声合 成 ソ フ トが 音 響
の 市販 の 音 声 合 成 ソ フ トで 作 成 した 合 成 音
(CAI,CA2,CA3と
的 な特 徴 量 の 目標 値 に音 声 デ ー タ を 変形 す る こ とに よ り,
合 成 音 の 自然 性 が低 下 して しま う一 方,提 案 法 で は,そ
表 記)と,読 み 上 げ 音 声 を録 音 した だ
の よ うな音 声 デ ー タ の変 形 をす る必 要 が な い 点 に あ る。
け の 自然 音 声 を加 え 品 質 評 価 実 験 を行 っ た 。3つ の 市 販
の 音 声 合 成 ソフ トの 音 声 合 成 方 式 は 明 らか で は な い が,
5
るた め,市 販 の音 声 合 成 ソフ トと して は一 般 的 で は な く,
声 合 成 方 式 も市 販 の音 声 合 成 ソフ トに は ほ とん
どな い こ とか ら,波 形 編集 方 式 で あ る可 能性 が 高 い 。
ら1億 未 満 の 整 数 を音
声 合 成 で き る よ うに,4.3節 の 手 法 で 抽 出 した テ キ ス トを
音 声 波 形 デ ー タ ベ ー ス は,1か
り
づ
(のOΣ )
HMM音
。﹄8 。。 目 ヨ qO 壽 。Σ
波 形接 続 方 式 で は 大 規模 な 音 声 デ ー タベ ー ス が 必 要 にな
読 み 上 げ る こ とで構 築 した 。 抽 出 され た 読 み 上 げ テ キ ス
トは4486個
1
の整 数 で あ る。読 み 上 げた の は,株 式 市 況 の
CAlCA2CA3ProposedNatural
番 組 を 担 当 して い る男 性 の ア ナ ウ ンサ ー で あ る。 録 音 は
図25段
防 音 室 で行 っ た。
階主観評価実験結果
評 価 用 数値 は,音 声 デ ー タ ベ ー ス に含 ま れ て い な い40
個 の株 価 と40個
の前 日比 と した。1つ の 手 法 で80個
5.む
の
す び
合 成 音 を 作成 した た め,提 案 法 ・3つ の 市 販 音 声 合 成 ソ
フ ト ・自然 音 声 の5つ の 手 法 を考 え る と,数 値 は 全 部 で
計400音
ラ ジ オ第2放
の音 声 合 成 部 分 に つ い て述 べ た。 波 形接 続 方 式 に よ る音
声 とな る。
評 価 は,許 容 騒 音 レベ ル がNC-15で
あ る防 音 室 内 で ス
声 合 成 シ ス テ ム を試 作 し,従 来 の録 音編 集 方 式 で は難 し
ピ ー カ を 用 い て 行 っ た 。 聴 取 レ ベ ル はMCL(Most
ComfortableLevel)で,ス
ピー カ はDIArONEのDS-A3を
か っ た,収 録 した音 声 を有 音 部 分 で接 続 して 合 成 音 を作
使
成 す る こ とが 可能 に な っ た。 これ に よ り,録 音 編集 方 式
用 した。 評 定者 は,音 声 の 評 価 実 験 の 経 験 の な い20代
の 男性10名,女
性10名
送 で 運 用 して い る株 価 音 声 合成 シ ス テ ム
の 計20名
で は 実現 で き な か っ た番 組 の音 声 合 成 化 が期 待 され る。
で あ る。 各 試 行 で は,
ま た,話 速 変換 技 術 を用 い る こ とに よ り,合 成 音 の し
評 価 デ ー タ を ラ ンダ ム な 順 序 で 提 示 し,評 定 者 には 自然
ゃべ る速 度 を 変 え られ る よ うに な っ た た め,調 整 で き る
性 の 違 い を,5(自 然 で あ る),4(不 自然 な 部 分 は あ るが 気
時 間尺 の範 囲 が広 が っ た。 これ に よ り,合 成 音 の 放 送利
に な らな い),3(少 し気 に な る),2(気 に な る),1(非 常 に気
用 が一 段 と容 易 に な っ た と思 われ る。
に な る)の5段 階 で評 価 す る よ う指 示 した。自然 性 の 評 価
今 後 も引 き続 き 実用 的 な 音 声 処理 技術 の研 究 を推 進 す
一9一
Vol.52No.2(2015.12)
成 践 大 学 理 工 学 研 究 報 告
る こ と で,社
会 に 貢 献 して い き た い と考 え て い る。
BroadcastSystemfbrtheWeatherReportProgram",
IEEETransactionsonBroadcasting,Vbl.59,No.3,
参考文献
pp.548-555,2013
13)H.Segi,R.Tako,N.Seiyama,andT.Takagi,
1)日
本 放 送 協 会,「20世
"DevelopmentofaPrototypeData
紀 放 送 史 」,日 本 放 送 出 版 協 会,
ReceiverwithaHigh-Qualityvoicesynthesizer",
pp.31-32,2001年
2)平
岡
征 男,内
山
の 番 組 制 作
出 」,テ
久 宜,「
「早 朝
・深 夜 の 天 気 予 報 」
天 気 予 報 ア ナ ウ ン ス コ メ ン
IEEETransactionsonConsumerElectronics,Vol.
ト 自動 送
56,No.1,pp.169-174,2010
レ ビ ジ ョ ン 学 会 誌,Vol.41,No.8,pp.742-
14)世
743,1987年8E
3)北
浜,今
第31回
5)足
川,三
浦,「
自 動 音 声 付 天 気 予 報 シ ス テ ム 」,
井
山
篤,西
信 正,田
脇
高
正 通,小
礼 子,都
山
木
隆 二,「
徹,大
出
高 品 質 な
運 用 」,映 像 情 報 メ デ ィ ア 学 会 誌,Vbl.62,No.1,pp.
69-76,2008年1月
口
文 夫,「
天 気 情 報 ア ナ ウ ン ス 送 出 装 置 」,映
像
15)音
声 入 出 力 方 式 標 準 化 委 員 会,「 音 声 合 成 シ ス テ ム の
情 報 メ デ ィ ア 学 会 技 術 報 告,Vbl.21,No.53,pp.25-
性 能 評 価 方 法 ガ イ ド ラ イ ン 」,電 子 情 報 技 術 産 業 協 会,
30,1997年9月
JEITA-IT-4001,2003年
立,渡
辺,「 自 動 天 気 音 声 ア ナ ウ ン ス 送 出 シ ス テ ム 」,
「明 日 の 放 送 と 技 術 フ ォ ー ラ ム 」 講 演 予 稿
集,PP.27-28,2004年
6)河
上,下
野,「CG,音
声 合 成 を用 い た 全 自動 道 路 交
通 情 報 シ ス テ ム 」,第39回
民 放 技 術 報 告 会 予 稿 集,
PP.148-149,2002年11月
7)大
田
雄 二,岩
大 須 賀
下
正 信,津
浦
宏,近
藤
隆 春,
朋 尚,「 提 供 テ ロ ッ プ ・ア ナ ウ ン ス コ メ ン ト
の 作 成 送 出 シ ス テ ム の 概 要 」,テ レ ビ ジ ョ ン 学 会 技 術
報 告,Vol.17,No,23,pp.7-12,1993年3月
8)H.Zen,T.TodaandK.Tokuda,"TheNitech-NAIST
HMM-basedspeechsynthesissystemfortheBlizzard
Challenge2006",IEICETrans.Inf.&Syst.,Vol.E91-D,
No.6,pp.1764-1773,2008
9)河
井
イ見
恒,戸
田
晋 富,西
智 基,山
澤
信 行,津
岸
順 一,平
崎
実,徳
井
田
俊 男,
恵 一,「
大
規 模 コ ー パ ス を 用 い た 音 声 合 成 シ ス テ ムXIMERA」,
電 子 情 報 通 信 学 会 論 文 誌,Vol.J89-D-II,No.12,pp.
2588-2698,2006年12月
木
徹,梅
田
哲,「
ピ ッチ 変 更 時 の ひ ず み をス ペ
ク トル 領 域 で 修 正 す る 音 質 変 換 方 式 と そ の 品 質 の 心
理 評 価 」,電
子 情 報 通 信 学 会 論 文 誌,Vbl.J73-A,No.
3,PP.387-396,1990年3月
ll)世
寛 之,清
株 価 音 声 合 成 装 置 の 開 発 と デ ジ タル ラ ジ オ で の 試 験
民 放 技 術 報 告 会 予 稿 集,pp.94-95,1994年
第57回
10)都
木
訓 史,今
ll月
4)澤
-Broadcast
木
寛 之,田
高
礼 子,清
山
信 正,都
木
徹,
「ニ ュ ー ス 番 組 の 収 録 音 声 を 利 用 し た 波 形 接 続 型 音
声 合 成 シ ス テ ム 」,情 報 処 理 学 会 論 文 誌,Vol.50,No.
2,pp.575-586,2009年2月
12)H.Segi,R.Takou,N.Seiyama,T.Takagi,Y
Uematsu,H.SaitoandS.Ozawa,``AnAutomatic
一10一
Fly UP