Comments
Description
Transcript
トピック適応言語モデルを用いたトピック推移の解析
第6回音声ドキュメント処理ワークショップ講演論文集(2012年3月9日) SDPWS2012-02 1 1. は じ め に トピック適応言語モデルを用いたトピック推移の解析 新 家 太 桜†1 関 谷 英 樹†2 長 谷 川 貴 一†2 田 村 哲 嗣†1 竹 原 速 水 正 矩†2 悟†1 本研究では,トピック適応言語モデルである潜在的ディリクレ配分法(Latent Dirichlet Allocation,LDA)を用いて,文書中のトピックの推移について調査した.LDA モデルを用いて,文書フレームに対してトピック混合比ベクトルを計算する.隣接す るフレームのトピック混合比ベクトルをコサイン尺度で閾値処理することで,トピッ ク境界を推定することができる.また,トピック混合比によって,複数のトピックの 時間的推移を表すことができる.本研究では,文書全体に対してトピック混合比ベク トルを計算し,その時間的推移を調査した.具体的には,新聞記事に加え,ニュース 解説番組の書き起こしにおいて,複数のトピックの時間的な移り変わりを表現し,解 析を行った. 動画コンテンツの理解支援の手段として,字幕付与がある.字幕とは,動画コンテンツに おける発話などの音声情報を視覚的に提示したものである.字幕を用いることで,視聴者 は,コンテンツの内容をより確実かつ容易に理解することができ,また雑音下など音声が聞 き取りにくい状態でも動画の内容を判別できる.加えて,高齢者や聴覚障がい者など音声に 対する弱者にとっては,字幕は欠かせないものとなる.しかし,人手で動画に字幕を付与す る場合,多くの時間とコストがかかる.さらに,書き起こし文をそのまま字幕にした場合, 文字数が多く視覚的に認識しづらいという問題もある. このような問題を解決するための研究がいくつか行われている.動画コンテンツにおいて は,画面下に表示される従来の字幕に代えて,発話者を特定したうえで発話内容を吹き出 しで表示する手法が提案されている1),2) .他のアプローチとして,文書要約や重要文抽出の 手法3),4) を字幕に適用することにより,少ない文字列で内容を視聴者に伝えることが可能 になると考えられる.また,文書を要約する代わりに,テキストから重要な単語(キーワー ド)を抽出し,これを強調提示に用いる方法もある.例として長谷川らは,複数のトピック Estimation of topic changes using topic-based language models Taro Niinomi,†1 Kiichi Hasegawa,†2 Masanori Takehara,†2 Hideki Sekiya,†2 Satoshi Tamura†1 and Satoru Hayamizu †1 This paper investigates topic changes of documents using topic-based language model: Latent Dirichlet Allocation (LDA). Using LDA models, a topic mixture ratio vector is computed for each document frame. A topic boundary can be determined by a cosine similarity score between neighboring two topic mixture ratio vectors. Additionally, temporal topic changes are observed analyzing topic mixture ratio vectors. In this paper, the topic mixture ratio vectors are extracted among a whole document, and their temporal changes are investigated. The changes of multiple topics are represented not only in newspaper documents but also in transcribed documents of news commentary program, then the results are discussed. モデルを用いたトピック境界推定とキーワード抽出を行い,TF-IDF よりも提案手法の方が コンテンツ内容をより的確に表すキーワードを抽出できることを確認した5) . こうした背景のもと,本研究は,内容変化を示す情報を自動的に抽出して視聴者に提示す ることを目的としている.それゆえ本研究では,時間的にゆるやかな内容変化をともなうコ ンテンツや,複数のトピックを同時に含むコンテンツを対象としている.本稿では,そのよ うなコンテンツを想定した複数の文書において,トピック適応言語モデルを用いてトピック の時間的な推移の解析を行った. 2. トピック適応言語モデル 2.1 LDA 本研究ではトピック適応言語モデルである LDA(Latent Dirichlet Allocation,LDA)6) を用いている.LDA では,単語間の大域的な依存関係を「トピック」としてモデル化する. そして,潜在的なトピックが多数存在し,単語の出現確率がトピックごとに異なると仮定す †1 岐阜大学工学部 Faculty of Engineering, Gifu University †2 岐阜大学大学院工学研究科 Graduate school of Engineering, Gifu University る.これにより,現在のトピックに応じて単語の生起確率を動的に推定でき,言語モデルの 高精度化が期待できるほか,本研究のようなトピック推定などにも応用できる. はじめに,C 個の潜在トピックを z = (z1 , z2 , · · · , zC ) とおく.LDA では,トピック zk の 第6回音声ドキュメント処理ワークショップ講演論文集(2012年3月9日) SDPWS2012-02 2 生成確率を θi として,θ = (θ1 , θ2 , · · · , θC ) が多項分布の共役事前分布であるディリクレ分布 Dir(θ|α) に従うと仮定する.このとき,N 個の単語 wj から成る文書 d = (w1 , w2 , · · · , wN ) の出現確率は,式 (1) で表される. ( ∫ P (d|α, β) = Dir(θ|α) N ∑ ∏ j=1 ただし,式 (1) において, ∑ = z フレーム ) P (wj |zk , β)P (zk |θ) dθ ↓トピック境界候補 ↓トピック境界候補 フレーム トピック混合比算出 (1) z C C ∑ ∑ z1 =1 z2 =1 ... C ∑ (2) 類似度大 zn =1 類似度小 また,α, β は LDA のモデルパラメータであり,α = (α1 , α2 , ..., αC ) はディリクレ分布の 閾値処理 パラメータである.β = (βkj ) はトピック zk における語 wj の uni-gram 確率 P (wj |zk ) を 表す (1 ≤ j ≤ V ,V :語彙数).パラメータ α,β の学習には変分ベイズ法による近似計算 トピック z1 トピック z 2 ↑トピック境界 が用いられる. 本研究では,複数の文または単語をフレームとしてまとめ,フレーム f ごとに式 (3) で 示すトピック混合比ベクトル γ = (γk ) を計算する. γ= ( P (z1 |f ), P (z2 |f ), · · · , P (zC |f ) )⊤ (3) フレーム化された文書 f の下での語 w( で与えられる. j の生起確率は,式 ) ( (4) ) P (wj |f ) = C ∑ k=1 γk βkj / C ∑ γk (4) k=1 ピック間の関係を表現できる点で pLSI7) より優れている.また,ベイズ推定に基づくため 過適応の問題が少ないとされている. (4) トピック境界推定 コサイン尺度 cos(γt , γt+1 ) が閾値以下の場合,すなわち類似度が小さい場合に,ト トピック境界推定手法の問題点として,文書によっては正しく境界推定ができない,また推 定した境界が必ずしも適切とはいえないことが挙げられる.例えば,突発的な話題が生じた 場合には,短いトピックが挿入されてしまい,全体の話題の流れを把握するのに支障が生じ ることがある.また,実際の文書では,徐々に話題が変化するなど,2 つ以上のトピックが 並存することも多い.そのような場合には,トピック境界を決定してしまうことによる問題 2.2 LDA を用いたトピック境界推定 が生じ得る. 図 1 に本研究で用いたトピック境界推定手法を示す8) .以下でその手順を概説する. 対象となる文章において一定の文数(または文から抽出した単語の数)ごとにフレー ム窓を設け,フレーム化を行う.このときの文数(または単語数)をフレーム長と呼 ぶ.このフレーム窓を文書全体にシフトさせることで,複数のフレームを構成する. このときのシフトさせる文数(または単語数)をフレームシフトと呼ぶ. (2) t フレーム目 ft において,式 (3) で示したトピック混合比ベクトル γt を計算する. (3) 式 (5) のように,t フレーム目と t + 1 フレーム目のトピック混合比ベクトル γt と γt+1 間のコサイン尺度 cos(γt , γt+1 ) を計算し,類似度を計算する. cos(γt , γt+1 ) = (γt · γt+1 )/(|γt | · |γt+1 |) 図1 ピック境界と判定する. LDA はトピックの事前分布にディリクレ分布を用いることにより,トピックの拡がりやト (1) フレーム (5) 2.3 頻出単語・キーワード 本研究では,以下の二通りの方法で各潜在トピックの頻出単語およびキーワードを抽出し た.後述する実験では,フレームに含まれる単語と,トピック混合比の高い潜在トピックの 頻出単語およびキーワードと比較を行った. • 頻出単語 各トピック zk における単語生起確率 P (wj |zk ) の上位 Mf 単語 • キーワード 各トピック zk における以下の式 (6) の値の上位 Mk 単語 P (wj |zk )/P (wj ) (6) 第6回音声ドキュメント処理ワークショップ講演論文集(2012年3月9日) SDPWS2012-02 3 表1 トピック番号 0 4 5 10 12 13 15 16 17 18 主要なトピックの頻出単語とキーワード 頻出単語 (10 語) 日回年勝戦 試合 監督 選手 位 大会 円 万 月 日 販売 年 価格 台 機 店 円月日年億 市場 企業 金融 投資 ドル 研究 の 年 日本 教授 的 世界 情報 環境 ネット 会 人 者 委員 教育 学校 問題 日 日本 月 日 中国 日本 北朝鮮 国 問題 核 的 協議 化 米 日 大統領 米国 イラク 防衛 軍 ロシア 日本 戦争 氏 選挙 年 選 投票 支持 候補 人 政治 憲法 円 化 年度 万 制度 者 的 費 地方 法 首相 日 氏 参院 自民党 安倍 民主党 政治 議員 国会 キーワード (8 語) 一戦 フルカウント 星陵 ペリエ 上田西 ナ・リーグ キャサリン・ヌデレバ パエア 主原 KD SUV 画質 若田 スラット ボーイング 住戸 カルロス・ゴーン スティール・パートナーズ DI WSJ 債券 終値 OMC TPG 新船 三増 テイスティング オーライ 焼け 白神山地 日本食 古森 楠城 ヨーコ・ゼッターランド 全日 リック・ガトームソン バリ・ロードマップ 朝鮮半島 ナタンツ 訪朝 マカオ 省二 朝鮮中央通信 潜水艦 アリ・アルサレム ロムニー サマワ 普天間 エリツィン ゲーツ CFE アリヨマリ ルペン バイル 濤総 AKP 決戦 全人代 ティモシェンコ 税率 省庁 定率 税源 応益 財源 千葉商科大学 チョート 簗 宗徳 国対 鬼木 iwami 鳩山 美智雄 陣中 図2 新聞記事データにおけるトピック混合比の推移 表 2 新聞記事データのフレームにおける解析結果トピック,フレームトピックおよびテキスト フレーム 8 解析結果トピック トピック 16(選挙) フレームトピック アメリカの選挙 11 トピック 0(スポーツ) 高校サッカー テキスト(一部) 出口調査によると、変革を実現できる候補として、ロム ニー氏を挙げる人が31%と最も多く、政治の「変革」を 求める声が、ワシントンのベテラン政治家であるマケイ ン氏と一線を画した。 ... ◇流経大柏、初の頂点か 藤枝東、37年ぶりか–14日 激突 第86回大会第6日は6日、東京・国立競技場で 準決勝2試合があり、流通経大柏(千葉)と藤枝東(静 岡)が14日午後2時5分からの決勝(同競技場)に進 んだ。... ここで P (wj ) は単語 wj の(トピックに依存しない)uni-gram 確率を表す.頻出単語は, 類を用意した. 「新聞記事データ」は,新聞記事から人工的に作成した文書とした.異なる 潜在トピックで多く出現する単語であるため,その潜在トピックを代表する単語のほか,普 トピックに属する 2 記事を選び,それぞれ前半 10 文を抽出しつなげることで,文書内にト 遍的な単語も含まれてくる.一方,キーワードは,トピック非依存の出現頻度と比べてその ピック境界を含む文書を作成した.このときのフレーム長は 3 文,フレームシフトは 1 文 潜在トピックに存在しやすい単語から構成される.キーワードには,その潜在トピックをよ である.さらに, 「ニュース解説番組データ」では,新聞より動画の音声認識文により近い条 り印象づける単語として,関連する固有名詞が多く含まれてくる. 件を再現するために,ニュース解説番組「時論公論」の書き起こし文を用いた.このときの 3. トピック推移の解析実験 3.1 実 験 条 件 LDA のモデルの学習には,毎日新聞コーパス 2007 年の全 76938 記事を用いた.潜在ト ピック数 C は 20,語彙は出現頻度(Term Frequency,TF)4 以上の名詞 53473 語とした. フレーム長は名詞 20 単語,フレームシフトは名詞 10 単語とした.これらの文書のトピッ ク混合比の推移を推定し,時間的変化を分析するとともに,フレームに含まれる単語とト ピック混合比の高い潜在トピックの頻出単語およびキーワードを比較した. 3.2 新聞記事データにおけるトピック混合比ベクトルの変化 図 2 は新聞記事データから作成した評価用文書における,トピック混合比の推移である. 表 1 に,本研究で得られた LDA モデルにおける主要な潜在トピックの頻出単語(Mf = 10) 図 2 では代表的な潜在トピックのみ表している.また表 2 は一部のフレームの「解析結果 とキーワード(Mk = 8)を示す. トピック」,テキストから決定した主観的なトピックである「フレームトピック」,および 本研究では,解析用文書として, 「新聞記事データ」と「ニュース解説番組データ」の 2 種 そのフレームに含まれる文書の一部である.ここで「解析結果トピック」とは,各フレーム 第6回音声ドキュメント処理ワークショップ講演論文集(2012年3月9日) SDPWS2012-02 4 図3 ニュース解説番組データ 1 におけるトピック混合比の推移 図4 表 3 ニュース解説番組データ 1 のフレームにおける解析結果トピック,フレームトピックおよびテキスト フレーム 5 解析結果トピック トピック 18(政党) フレームトピック 国会解散 31 トピック 16(選挙) 無党派層の支持 35 トピック 5(経済) 日経平均株価 41 トピック 17(制度) 社会保障 テキスト(一部) は今月末にも解散、そして来月三十日投票と、こういう 日程です。選挙で頼りにしています公明党が来月中の選挙 を強く求めているということもあるんですけれども、こ こを過ぎますと予算編成 が説得力がないと答えています。無党派層の支持が弱いと いうのが小沢さんの特徴と言っていいかと思います。で すから、小沢さんとの党首同士の対決、これを対立軸に していけば、無党派層を引き込むこと の中身ということになります。補正予算が成立した今日、 東京株式市場では日経平均株価が今年最大の下げ幅を記 録して暴落しました。世界の実体 の高騰、雇用の悪化ということで急速に不安感が増して います。国民生活をどうするのか、そして、年金などの 社会保障をどう立て直すのか、そういった視点がないと 幅広い指示にはつながらないと思います。さて、野党側 の対応 ニュース解説番組データ 2 におけるトピック混合比の推移 表 4 ニュース解説番組データ 2 のフレームにおける解析結果トピック,フレームトピックおよびテキスト フレーム 1 解析結果トピック トピック 13(国際) フレームトピック 会議 6 トピック 10(研究) 取引の概要 10 トピック 12(教育) 取引の例 25 トピック 17(制度) 取引の例 33 トピック 5(経済) 取引の例 39 トピック 4(商品開発) 自然エネルギー テキスト 政府は今日、官邸で地球温暖化対策推進本部の会議を開 いて、国内排出量取引の実施を正式に決め、参加を希望 する企業の募集 があります。今夜は実際にどのような取引が行われること になるのか、これを中心に見ていきたいと思います。今 回作られます国内排出量取引制度は、インターネットの サイトの上に統合市場が作られ、大きく三つの種類 の目玉で中小企業の現場で、CO2の排出に取り組んで もらう国内CDMクレジットの制度、まあこれはその中 小企業の枠を大企業が買い取るというものです。まず一 番目のものですけれども、これ 開発メカニズムのクレジットと呼ばれます。電力各社や 鉄鋼業界が自主目標の達成が難しいため、CDMクレジッ トの手当をしています。それから、庁舎などが第三者へ の売却を目的に取得 でサポートし、その結果、削減できたCO2の排出量の 一部を、一定分を大企業が取得し、自らの削減実績とし て加えることができるというものです。政府はこの国内 CDMに、中小 分をクレジットとして、地元の電力会社に買い取っても らう道が開かれることになります。それから、農家が農 業用ハウスの暖房に従来重油などを燃やしていたものを、 自然エネルギーに転換すること 第6回音声ドキュメント処理ワークショップ講演論文集(2012年3月9日) SDPWS2012-02 5 において最も高い値を示したトピック混合比ベクトルの要素に該当する潜在トピックの,頻 ワードでは固有名詞が抽出される傾向が明らかとなった.例えば,トピック 5 の頻出単語 出単語やキーワードより主観的に決定したトピック名である.ここで用いた新聞記事データ では「市場」「企業」といった一般名詞が抽出され,キーワードでは「カルロス・ゴーン」, は,トピック境界推定に成功した評価用データである.表 2 のとおり,前半はアメリカの大 「スティール・パートナーズ」といった固有名詞が抽出された.これより,頻出単語は潜在 統領選挙,後半は高校サッカーに関する記事である.図 2 をみると,前半はトピック 15 や トピックの概要や大まかな内容を示しているといえ,対照的にキーワードは潜在トピックの トピック 16 の占める割合が多く,表 1 からこれらのトピックが国際・政治・選挙を表して 具体的な内容や例示に相当すると考えられる.以上のことから,頻出単語とキーワードそれ いることがわかる.また,後半は一転して,スポーツを表すトピック 0 が大半を占めている ぞれに適切な利用方法を検討する必要があるといえる.例として動画コンテンツにおいて ことも示されている. は,字幕中の頻出単語を強調表示したりトピック名として用いたりし,キーワードは関連情 3.3 ニュース解説番組データにおけるトピック混合比ベクトルの変化 報として提示することが考えられる. 次に,ニュース解説番組データの解析を行った.図 3,表 3 にひとつめのニュース解説番 今回用いた潜在トピックの中には,複数のフレームに対してトピック混合比が高い値を示 組データの解析結果,図 4,表 4 にふたつめのデータの結果を示す.それぞれ,衆議院解散 す一方,頻出単語およびキーワードを見てもトピックが一意に決まらない潜在トピックがみ に関するニュース解説,CO2 排出権に関するニュース解説である. られた.このような潜在トピックはトピック推移の解析に役立つとは考えにくいため,潜在 はじめに,ニュース解説番組データ 1 の結果について考察する.表 3 の解析結果トピック と,フレームトピックおよびテキストとの比較から,推定された解析結果トピックは,テキ ストの内容とおおむね適合していると判断できる.例えば,トピック 5 は経済や金融に関す るトピックであるが,表 3 の 35 フレーム目のように,解析対象のテキストが経済関連の内 容のときトピック 5 に該当するトピック混合比が高い値を示していた. また,表 1 より,トピック 16,17,18 のように政治に関する潜在トピックが複数生成さ トピックから除外したり,そのような潜在トピックが生じない学習手法を検討したりする必 要がある. 最後に,トピック混合比が大きく変化しているフレームの前後を調べたところ, 「さて」 「一方」「例として」「もうひとつ」など,内容の切り替わりを示す接続詞や語句が多くみら れた.別のケースでは,3 つの並列的な内容をひとつずつ述べる際に,それぞれの境界でそ のようなトピック混合比の大きな変化が観測された.このようにトピック混合比の変化は, れたことが分かった.これは,LDA 学習データである毎日新聞コーパスに政治に関する文 トピックの長期的な移り変わりを表しているだけでなく,トピックの短期的な変化も含有し 書が多く含まれたためと考えられる.他方,これらの潜在トピックは,選挙関連,税制・制 ていることが確認できた. 度関連,政党・国会関連という政治の細分化されたトピックと考えることができる.このよ うに政治に関するトピックが複数生成されたため,表 3 の 5,31,41 フレーム目の例のよ うに,政治の話題の中で,より細かいトピックの推移が解析結果に現れたと考えられる. 4. お わ り に 4.1 ま と め 続いてニュース解説番組データ 2 について述べる.表 4 から,トピック 5 のように,特 トピック適応言語モデルとして LDA を用いて複数トピックの推移を解析した.また,頻 定のトピックの推移を示しているものもある一方,ニュース解説番組データ 1 ほど推移が明 出単語とキーワードという二通りの表現を用いて潜在トピックの意味づけを試みた.新聞記 確ではないトピックもいくつかみられた.ニュース解説番組データ 2 が CO2 排出権取引と 事およびニュース解説の書き起こしテキストを対象とした解析を行い,評価用データの各フ いう国際,政治,経済,制度関連の複合分野を扱っており,フレーム単位で明確にトピック レームに含まれる文や単語と,モデルの潜在トピックの頻出単語およびキーワードとを比 が分かれなかったため,解析結果トピックとフレームトピックに乖離が生じたことが考えら 較し,その関連性を調べるとともに,トピック混合比ベクトルの時間的変化について考察し れる.しかし一方で,書き起こしテキストと図 4 のトピック推移を見比べたところ,話題の た.その結果,フレームの内容と推定されたトピックの示す内容とがおおむね適合すること 内容の変化と図 4 のトピック混合比ベクトルの変化には,ある程度の関連性がみられた. を示した.また,頻出単語は一般名詞を抽出できるため字幕内で強調するなど,キーワード 3.4 考 察 まず,頻出単語とキーワードについて考察する.表 1 より,頻出単語では一般名詞,キー は固有名詞を抽出できるため動画の具体的内容を連想するのに適していることが分かった. 第6回音声ドキュメント処理ワークショップ講演論文集(2012年3月9日) 6 4.2 今後の課題 評価用データを追加したり,トピック数を変化させたりした際のトピック推移の解析結 果の変化を調査する必要がある.さらに,TF-IDF を用いたキーワード抽出や,文書頻度 (Document Frequency,DF)を用いた頻出単語とキーワードの統合によって,トピック解 析により適したキーワード抽出を目指す. 謝 辞 本研究は,科学研究費補助金・基礎研究 C(課題番号 22500151)の助成を受け行われま した.ここに御礼申し上げます. 参 考 文 献 1) 藤井絢子,南條浩輝,吉見毅彦, 「会議の情報保障を目的とした吹き出し型字幕提示方 式の検討」情報処理学会研究報告, 2009-SLP-75-14, vol.2009, no.10, pp.75-82 (2009). 2) 池谷友秀,林貴宏,尾内理紀夫, 「吹き出し形式の字幕表示システム : なかじまくん」 電子情報通信学会技術研究報告, IE2007-33, vol.107, no.129, pp.79-84 (2007). 3) 藤井康寿,山本一公,北岡教英,中川聖一, 「重要文抽出に基づく講義音声の自動要約」 情報処理学会論文誌, vol.51, no.3, pp.1094-1106 (2010). 4) 堀智織,古井貞煕, 「単語抽出による音声要約文生成法とその評価」電子情報通信学会 論文誌, vol.J85-D-II, no.2, pp.200-209 (2002). 5) 長谷川貴一,岡本昌直,祖父江翔,中村明,田村哲嗣,速水悟, 「複数トピックモデルを 用いたキーワード抽出」第 5 回音声ドキュメント処理ワークショップ講演論文集 (2011). 6) David M. Blei,Andrew Y. Ng,Michael I. Jordan,“Latent Dirichlet allocation,” Journal of Machine Learning Research, vol.3, pp.993-1022 (2003). 7) Thomas Hofmann, “Probabilistic latent semantic indexing,” Proc. SIGIR’99, pp.50-57 (1999). 8) Masanao Okamoto, Kiichi Hasegawa, Sho Sobue, Akira Nakamura, Satoshi Tamura and Satoru Hayamizu, “Topic-based generation of keywords and caption for video content,” Proc. APSIPA ASC 2010, pp.605-608 (2010). SDPWS2012-02