Comments
Description
Transcript
ニュースとツイート分析による話題に対する相関感情俯瞰グラフ
DEIM Forum 2015 F5-3 ニュースとツイート分析による話題に対する相関感情俯瞰グラフ 上岡 由征† 若宮 翔子† 張 建偉†† 白石 優旗†† 河合由起子† 熊本 忠彦††† † 京都産業大学 コンピュータ理工学部 〒 603–8555 京都府京都市北区上賀茂本山 ††† 千葉工業大学 情報科学部 情報ネットワーク学科 〒 275–0016 千葉県習志野市津田沼 2-17-1 †† 筑波技術大学 産業技術学部 産業情報学科 〒 305–0005 茨城県つくば市天久保 4 丁目 3-15 E-mail: †{g1144191@cse, shokow@cc, kawai@cc}.kyoto-su.ac.jp, ††{zhangjw, yuhkis}@a.tsukuba-tech.ac.jp, † † †[email protected] あらまし 本研究では,特定の話題に対する多様な感情を抽出し,ニュース記事とツイートの書き手の感情の相違を 俯瞰可能な可視化システムを構築する.我々はこれまで,開発した感情辞書 [1] を用いて Web 検索結果のタイトルと スニペットの感情値を算出し,感情値に基づく検索システムを提案,実装してきた [2].このシステムでは,ユーザが 検索キーワードを入力すると,検索 API を用いて Web ページのタイトルとスニペットを取得して感情値を算出し,感 情分布をユーザに提示する.これにより,検索キーワードに対する感情の分布を把握することができる.一方,Web 検索結果にはマスメディアが発信するニュース記事やソーシャルメディアにおいて一般ユーザが発信するブログやツ イートなどが混在しているが,メディアの違いを考慮した感情分布の可視化には至っていない.本論文では,特定の 話題に対するニュース記事とツイートの感情分布を可視化した感情俯瞰グラフを生成する手法を提案し,マスメディ アとソーシャルメディアの間に生じる感情の相違について分析する.実験では,検索キーワードの流行期間における ニュース記事とツイートの感情分布を比較した結果について考察する. キーワード ニュース記事,ツイート,感情分析 1. は じ め に 情辞書を用いて取得したニュース記事とツイートの感情値をそ れぞれ算出する.そして,それぞれの感情値に基づきニュース Web 検索結果にはニュースサイトや企業サイト等の公共性の 記事とツイートを感情俯瞰グラフ(散布図)にプロットするこ 高いニュース記事だけでなく,ブログやマイクロブログといっ とで,同一話題に対するニュース記事とツイートの感情分布の た個人の嗜好性の高いコンテンツが混在する.本研究では,特 相関を分析する. 定の話題に関するニュース記事とツイートをそれぞれ分析し, 本論文の構成は以下の通りである.2 章でニュース記事やツ 情報発信者の感情分布を俯瞰して相関を分析することが可能な イートを対象とした感情分析に関する関連研究を紹介する.3 グラフを生成するためのシステムを構築する.我々はこれまで, 章では感情俯瞰グラフの生成手法について述べる.4 章では評 感情辞書 [1] を用いて Web 検索結果のタイトルとスニペットの 価実験の結果を示し,話題に対するニュース記事とツイートの 感情値を算出し,感情値に基づく検索システムを提案,実装し 感情分布の相関についての考察を述べる.最後に 5 章で本論文 てきた [2].このシステムは,ユーザが検索キーワードを入力す のまとめと今後の課題を述べる. ると,検索 API を用いて Web ページのタイトルとスニペット を取得して感情値を算出し,感情分布を提示する.これにより, 2. 関 連 研 究 検索キーワードに対する情報発信者の感情分布を把握すること 我々の過去の研究では,特定の検索キーワードによる検索結 ができる.一方,特定のニュースサイトのニュース記事に対す 果の Web ページのタイトルとスニペットの感情値を算出し,感 るコメントや Twitter 上に投稿されたニュースに関するコメン 情値を考慮した Web ページ検索システムを実装してきた.具 トを対象とした感情分析に関する研究 [3], [4] も行われている. 体的には,メジャーな感情とその対となる感情に基づく Web しかしながら,これらの既存研究では同一話題に関するニュー ページ検索システム [2] や多様な感情の Web ページを網羅的に ス記事とツイートにおける感情の相違は考慮していない. 検索するためのシステム [5], [6] を構築している.これらの研究 本論文では,特定の話題の流行時期に発信されたニュース記 では,既存の検索エンジンで取得される Web ページ全般を対 事とツイートの感情値を算出し,感情俯瞰グラフを生成する. 象としており,ニュース記事やツイートというメディアの違い そのために,検索キーワードとして入力された話題の流行時期 を区別した情報発信者の感情分布の可視化には至っていない. を判定し,その時期に発信されたニュース記事とツイートを取 特定のニュースサイトのニュース記事に対するコメントや 得する.次に,3 本の感情軸(軸 1: 「楽しい ⇔ 悲しい」,軸 Twitter 上に投稿されたニュースに関するコメントを対象とし 2: 「うれしい ⇔ 怒り」,軸 3: 「のどか ⇔ 緊迫」)からなる感 た感情分析に関する研究は近年盛んに行なわれている.内藤 表1 感情軸 感情語群 感情語 軸1 楽しい,楽しむ,楽しみだ,楽しげだ 楽しい ⇔ 悲しい 悲しい,悲しむ,悲しみだ,悲しげだ 軸2 うれしい,喜ばしい,喜ぶ うれしい ⇔ 怒り 怒る,憤る,激怒する 軸3 のどかだ,和やかだ,素朴だ,安心だ のどか ⇔ 緊迫 緊迫する,不気味だ,不安だ,恐れる 表 2 感情辞書の例 図1 システムの流れ 単語 軸1 1⇔0 楽しい ⇔ 悲しい 軸2 軸3 うれしい ⇔ 怒り のどか ⇔ 緊迫 初受賞 0.862 1.000 0.808 ひなまつり 0.847 1.000 0.977 偽装 0.245 0.075 0.297 死刑だ 0.013 0.028 0.000 ら [4] は特定のニュースサイトのニュース記事に対するコメン トの感情を分析する手法を提案した.但馬 [3] は Twitter 上に 投稿されたニュースに関するコメントを対象とした感情分析を 行った.これらの研究では,特定のニュースサイトのみを対象 とした分析や,Twitter 上に引用されたニュースを対象とした 分析に留まっており,多様なニュースサイトで発信されている 多様なニュース記事を対象とした分析には至っていない.これ に対し,本論文では話題に対するニュース記事とツイートの感 情値を算出して感情俯瞰グラフを生成し,メディアの違いによ る話題に対する感情分布の相関分析を目的としている点で特徴 的である. 3. 話題に関するニュース記事とツイートの感情 俯瞰グラフの生成 図 2 Google トレンドグラフに基づく話題の流行時期判定 しい ⇔ 悲しい」,軸 2: 「うれしい ⇔ 怒り」,軸 3: 「のどか 3. 1 感情俯瞰グラフ生成の流れ ⇔ 緊迫」)からなる感情辞書を用いて,各テキストに含まれる 提案システムによる話題に関するニュース記事とツイートの 単語の感情値を抽出し,それらの値に基づきニュース記事とツ 感情俯瞰グラフの生成の流れは以下の通りである. ( 1 ) 検索キーワードの取得 ユーザが入力した検索キーワード(例えば「衆議院選挙」など) を話題として取得する(図 1(1)). ( 2 ) 検索キーワードの流行時期の判定 検索キーワードには流行時期があり,その時期に発信された イートの感情値をそれぞれ算出する.感情値は 3 つの値の組と して算出される(図 1(4a) および (4b)). ( 5 ) 感情俯瞰グラフの生成 ニュース記事とツイートをそれぞれの感情値に基づき 3 つの感 情俯瞰グラフ(2 本の感情軸をそれぞれ x 軸,y 軸とした散布 図)にマッピングする(図 1(5a) および (5b)). ニュース記事やツイートには情報発信者の多様な感情が含まれ 3. 2 話題の流行時期におけるニュース記事とツイートの取得 ると考えられる.そのため,検索キーワードの流行時期判定を ユーザにより入力された検索キーワード(話題)を用いて 行う(図 1(2)). ( 3 ) ニュース記事とツイートの取得 ニュース記事およびツイートを取得する.本稿では,話題に対 する異種メディアにおける情報発信者の感情分布を可視化して 話題の流行時期に発信されたニュース記事とツイートを Google 比較し,それらの相関分析を目的としている.そのため,情報 ニュースと Twitter からそれぞれ取得する.ここで,ニュース 発信者の多様な感情が含まれると考えられる話題の流行時期を 記事に比べ,ツイートは 140 文字以内という文字数制限により 判定する.具体的には,Google トレンドのトレンドグラフ(注 1) 短文のテキストである.テキストの長さの違いによる感情値の を用いて,ウェブ検索においてその話題の検索インタレストが バイアスを減らすために,ニュース記事としてタイトルとスニ 最も高い最新の期間をピーク期間として検出する.図 2 にトレ ペットを対象とする. (図 1(3a) および (3b)). ンドグラフの例を示す.このグラフにおける値は,特定の検索 ( 4 ) ニュース記事とツイートの感情値の算出 キーワードの相対的な検索数を求め,0 から 100 の尺度に正規 取得したニュース記事とツイートの感情値を算出する.そのた めに,我々の過去の研究で構築した 3 本の感情軸(軸 1:「楽 (注 1):Google トレンド:https://www.google.co.jp/trends/ 化した値である (注 2).本論文では,検出したピーク期間の話題 の流行時期とする. 次に,話題の流行時期に発信されたニュース記事とツイート をそれぞれ取得する.ここで,テキストの長さの違いによる感 情値のバイアスを減らすために,ニュース記事としてタイトル とスニペットを取得する.具体的には,Google Search API(注 3) を用いて,Google ニュースにおけるニュース記事のタイトルと スニペットを取得する(図 1(3a)).ツイートは Twitter Search API (注 4) を用いて取得する(図 1(3b)). 3. 3 ニュース記事とツイートの感情値の算出 ニュース記事およびツイートの感情値を算出するために,我々 (a) ニュース記事 図3 が過去の研究で構築した感情辞書を使用する [1].感情辞書は以 (b) ツイート 感情俯瞰グラフの例 下のように作成した.まず,3 本の感情軸を構成する感情語群 を設定する(表 1).IWL と IWR は感情語群を表し,IWL は 次元の感情値が格納されている.単語 w の感情値 s(w) はそれ 表 1 の「楽しい,楽しむ,楽しみだ,楽しげだ」, 「嬉しい,喜 ぞれ 0 から 1 の値をとり,s(w) が 1 に近いほど軸ごとに「楽 ばしい,喜ぶ」, 「のどかだ,和やかだ,素朴だ,安心だ」とし, しい」, 「うれしい」, 「のどか」に近い感情を,0 に近いほど軸ご IWR は「悲しい,悲しむ,悲しみだ,悲しげだ」, 「怒る,憤 とに「悲しい」, 「怒り」, 「緊迫」に近い感情を表している.表 る,激怒する 」, 「緊迫する,不気味だ,不安だ,恐れる」とす 2 に感情辞書の一例を示す.例えば, 「初受賞」という単語の感 る.例えば,ある記事に「楽しい」 「楽しむ」, 「楽しみだ」, 「楽 情値は 0.862, 1.000, 0.808 であり, 「やや楽しい」, 「うれしい」, しげだ」の中でどれか一つでも含まれている場合,その記事は 「ややのどか」という感情を表す単語であることが分かる.ま IWL に帰属する.次に,2002 年から 2007 年までの 6 年分の た, 「偽装」という単語の感情値は 0.245, 0.075, 0.297 であるこ 朝日新聞および読売新聞の記事データからこれらの感情語を含 とから, 「やや悲しい」, 「怒り」, 「やや緊迫」という感情を表す む記事を抽出し,記事に含まれる感情語群 IWL に属する感情 単語であることが分かる. 語と感情語群 IWR に属する感情語の数を比較した.IWL の数 取得したニュース記事とツイートの感情値を算出するために, が多い記事の集合を SL (記事数を NL ),IWR の数が多い記 感情辞書を用いて各テキストに含まれている単語の感情値を抽 事の集合を SR(記事数を NR )とした.このとき,ある単語 w 出する.ここで,ニュース記事に含まれる単語の感情値として, の記事集合 SL における出現記事数を NL (w),記事集合 SR に ニュース記事を元に得られた回帰式を用いて補正した感情値を おける出現記事数を NR (w) とすると,それぞれの補正済み条 用いる.一方,ツイートに含まれる単語の感情値には感情辞書 件付確率は, における感情値をそのまま適用する. PL (w) = NL (w) NR (w) , PR (w) = NL NR 次に,抽出した単語の感情値を平均してニュース記事とツ イートの感情値を算出する.感情辞書の単語の感情値は 0∼1 と表される.この PL (w) と PR (w) を用いて,単語 w の感情値 の値であるため各テキストの感情値も 0∼1 の値として算出さ s(w) を次の式により算出する. れる.本稿では,ユーザにとっての理解しやすさを考慮し,換 算値 = 100× 算出値としてスケーリングを行う.その結果, 「楽 PL (w) ∗ weightL s(w) = PL (w) ∗ weightL + PR (w) ∗ weightR しい」, 「うれしい」, 「のどか」の感情に近いときは 100 に近い weightL = log10 NL , weightR = log10 NR となる. なお,これらの動作は 1 軸のものなので各軸分 3 回繰り返す. さらに,我々は感情辞書を用いて算出されるテキストの感情 値を説明変数,そのテキストに対し被験者 100 人が与えた 7 段 階評価値の平均値を目的変数とする回帰分析を感情軸ごとに行 い,その結果得られた回帰式(3 次関数あるいは 5 次関数)を用 いて,感情辞書により算出されたテキストの感情値を補正した. 感情辞書には,各単語に対して「楽しい ⇔ 悲しい」, 「うれ しい ⇔ 怒り」, 「のどか ⇔ 緊迫」の 3 本の感情軸からなる 3 (注 2):About Trends Graphs: https://support.google.com/trends/ answer/4355164?hl=ja&rd=1 (注 3):Google Custom Search API: https://developers.google.com/ custom-search/json-api/v1/overview (注 4):Twitter Search API: https://dev.twitter.com/rest/public/search 値, 「悲しい」, 「怒り」, 「緊迫」の感情に近いときは 0 に近い値 3. 4 感情俯瞰グラフの生成 ニュース記事とツイートの感情分布を俯瞰するために感情俯 瞰グラフ(散布図)を生成する.図 3(a) と (b) に検索キーワー ド「衆議院選挙」で取得したニュース記事とツイートの感情俯 瞰グラフの例を示す.各グラフは 2 本の感情軸(x 軸,y 軸) からなっており,プロットの座標で 2 軸の感情値を,プロット の色で 3 軸目の感情値を表している.感情俯瞰グラフを生成す ることにより,検索キーワードに関するニュース記事とツイー トの感情分布を比較することができる.また,複数の流行時期 のニュース記事とツイートを取得して感情値を算出し,感情俯 瞰グラフを生成することにより,図 4 のように話題に関する ニュース記事とツイートの感情分布の時間経過を考慮した相関 分析も可能となる. 表3 検索キーワードの流行ピーク日(流行時期判定期間:2015 年 1 月下旬から 2 月上旬) カテゴリ (a) ニュース記事 検索キーワード 流行ピーク日 アニー 2/1 ウロボロス 2/6 エクソダス 2/1 学校のカイダン 2/7 映画・ドラマ ジョーカーゲーム 銭の戦争 (b) ツイート 図4 感情俯瞰グラフを用いた感情分布の推移 スポーツ球団 4. 実 験 1/31 2/3 ベイマックス 2/1 マエストロ 1/31 マッサン 2/7 流星ワゴン 2/1 イーグルス 2/7 オリックス 2/5 カープ 2/1 ジャイアンツ 2/1 千葉ロッテ 2/7 中日 2/7 日ハム 2/7 阪神 1/31 ベイスターズ 2/7 特定の検索キーワードについて書かれたニュース記事とツ ホークス 2/1 イートの感情値を算出し,感情俯瞰グラフを生成することに ヤクルト 1/31 より,ニュース記事とツイートの感情分布の相関分析を行なっ ライオンズ 2/7 た.今回は,本実験を実施した 2015 年 1 月下旬から 2 月上旬 維新の党 2/5 公明党 2/2 に流行していると判定された話題を検索キーワードとして用い た.表 3 に用いた 27 個の検索キーワード(映画・ドラマに関す る話題のキーワード 10 個,スポーツ球団に関する話題のキー 政党 自民党 2/5 日本共産党 2/5 民主党 2/6 ワード 12 個,政党に関する話題のキーワード 5 個)とそれぞ れの流行時期における流行ピーク日を示す.これらの検索キー ワードを用いて,Google ニュースから最大 96 件のニュース記 事と Twitter から最大 100 件のツイートを取得し,感情値を算 出した. 4. 1 ニュース記事とツイートの感情値の分散分析 特定の検索キーワードに関するニュース記事とツイートの情 報発信者の感情が各感情軸のどのあたりに分布しているのか, またその散布度を確認するために,各軸の感情値の平均と標準 偏差を算出した.表 4 にその結果を示す.ニュース記事とツ イートの感情値の標準偏差を比較したところ,映画・ドラマカ テゴリの「マエストロ」の軸 2 を除く全ての検索キーワードの 全ての軸において,ニュース記事の感情値の標準偏差の方がツ イートの感情値の標準偏差よりも大きかった.また,感情値の 標準偏差の平均値を比較したところ,ツイートは 11.20 であっ たのに対し,ニュース記事は 20.62 であった. 次に,感情値の平均値と標準偏差を比較したところ,ニュー ス記事とツイートで大きく異なる感情が抽出されたものがあっ た(表中の太字).ここで,特定の話題に関するニュース記事 とツイートがそれぞれ異なる感情を中心に分布しており,ばら つきが小さい場合に,両者の感情が大きく異なっているものと 判定した.具体的には,平均値の差が閾値 α 以上でかつ標準偏 差が閾値 β 以下となる場合である.本実験では,α をニュース 記事の感情値の平均値とツイートの感情値の平均値の差の絶対 値の平均値 6.4 とし,β を各軸の標準偏差の平均値(表中の全 体の平均値)とした.例えば,映画・ドラマカテゴリの「流星 ワゴン」の場合,ニュース記事は「やや楽しい」, 「うれしい」, 「ややのどか」な感情を中心に分布していたが,ツイートは「や や楽しい」, 「ややうれしい」, 「やや緊迫」した感情を中心に分 布していた.また,スポーツ球団カテゴリの「千葉ロッテ」の 場合,ニュース記事は「やや楽しい」, 「うれしい」, 「ややのど か」な感情を中心に,ツイートは「やや楽しい」, 「ややうれし い」, 「やや緊迫」した感情を中心に分布していた.このように, 大きく異なる感情として,同様の感情であるがその程度が異な る感情や相反する感情が確認された.カテゴリごとに異なる 感情が抽出された確率を求めたところ,映画・ドラマカテゴリ では 40% (=4/10),スポーツ球団カテゴリでは 25% (=3/12), 政党カテゴリでは 0% (=0/5) となった. これらの結果から,ツイートの感情値はニュース記事の感情 値と比べて全体的に標準偏差が低く,ツイートの情報発信者は 特定の感情に偏った情報を発信しているという傾向が確認さ れた.ただし,取得したツイートの内容を確認したところ,他 者が発信したツイートをそのままツイートすることができる Twitter の機能(リツイート)により,同じ内容のツイート(単 語集合)が含まれていた.そのため,リツイートによりツイー 表4 流行時期における話題に対するニュース記事とツイートの感情値の平均と標準偏差 平均値 カテゴリ 検索キーワード ニュース記事 標準偏差 ツイート ニュース記事 ツイート 軸1 軸2 軸3 軸1 軸2 軸3 軸1 軸2 軸3 軸1 軸2 軸3 アニー 57.27 70.18 66.04 60.11 61.67 48.57 18.52 18.31 22.84 12.10 13.37 14.25 ウロボロス 57.45 67.84 50.23 60.14 58.53 47.58 17.09 20.37 19.76 13.31 13.41 12.45 エクソダス 54.25 62.81 58.00 56.88 59.42 49.63 17.92 18.14 19.82 11.54 10.84 12.35 学校のカイダン 53.20 67.13 67.03 60.61 63.44 51.17 20.68 18.97 19.93 9.53 10.81 10.50 映画・ドラマ ジョーカーゲーム 52.13 65.47 72.91 54.08 60.18 50.68 20.66 15.42 17.42 10.88 8.00 8.71 銭の戦争 48.60 59.34 52.39 56.20 58.25 49.83 21.53 27.65 21.85 4.74 4.30 4.23 ベイマックス 53.19 57.18 58.46 59.53 62.11 53.15 21.34 22.50 21.00 12.83 14.46 13.02 マエストロ 65.12 71.13 61.88 60.98 62.90 51.80 13.72 10.20 20.06 11.17 11.87 9.74 マッサン 56.08 67.18 67.17 57.37 60.79 22.76 25.98 10.95 14.47 14.18 51.03 64.19 55.11 55.22 57.40 43.68 21.76 15.97 21.18 9.25 10.17 8.96 流星ワゴン 平均値 57.43 19.16 54.83 65.25 60.92 58.12 60.13 50.69 19.24 19.03 20.98 10.63 11.17 10.84 イーグルス 56.12 64.15 52.00 55.49 58.84 46.25 20.08 21.68 25.66 9.39 13.82 14.14 オリックス 53.78 70.65 50.67 54.21 60.06 47.30 20.96 20.58 22.53 10.78 9.82 12.11 カープ 53.55 65.82 55.69 62.03 55.42 66.63 19.74 29.00 25.39 10.54 11.35 20.27 ジャイアンツ 57.77 75.25 56.19 60.92 63.22 47.66 19.05 12.71 20.00 11.35 11.61 13.00 54.41 67.80 56.38 56.34 59.02 45.66 18.30 20.22 21.01 9.80 10.10 9.63 55.66 8.95 9.53 10.12 10.21 千葉ロッテ スポーツ球団 中日 日ハム 62.39 56.60 57.38 61.15 47.42 17.93 21.83 20.97 52.94 73.23 54.58 57.66 61.99 50.08 21.77 16.34 24.36 7.34 9.02 阪神 53.95 66.28 55.16 60.42 60.13 48.49 18.35 20.05 22.47 11.69 9.46 8.04 ベイスターズ 53.93 69.23 58.81 56.28 61.78 46.09 20.98 20.32 23.19 11.42 13.93 13.11 ホークス 53.77 63.49 60.85 57.57 60.99 45.28 19.78 17.54 20.42 11.89 13.15 12.58 ヤクルト 53.46 66.75 51.92 59.42 60.00 48.26 20.92 20.08 20.33 11.12 13.38 14.33 ライオンズ 57.43 67.19 55.23 60.68 63.89 48.26 17.83 22.88 22.12 12.38 10.77 11.65 54.73 67.69 55.34 58.20 60.54 48.95 19.64 20.27 22.37 10.55 11.33 12.43 維新の党 48.95 58.05 52.61 56.09 57.63 46.37 21.48 20.40 22.99 9.94 11.48 10.49 公明党 53.29 58.05 50.76 61.25 54.62 47.00 20.01 26.91 22.96 14.20 12.80 10.88 自民党 54.69 60.01 58.86 59.61 62.21 47.48 19.65 21.10 22.17 10.07 11.02 12.25 日本共産党 52.62 52.78 56.06 58.87 59.37 48.32 18.69 24.53 22.30 9.65 10.78 10.97 民主党 51.25 58.27 59.91 56.46 59.75 48.01 20.39 24.22 22.14 10.16 12.14 12.59 52.16 57.43 55.64 58.46 58.71 47.43 20.04 23.43 22.51 10.80 11.64 11.44 54.29 64.88 57.46 58.22 60.05 49.31 19.57 20.40 21.88 10.63 11.33 11.66 平均値 政党 平均値 平均値 図 5 ニュース記事とツイートの感情値の相関グラフ(検索キーワード「学校のカイダン」) トの感情値にバイアスがかかってしまった可能性もあると考え 考察する.政党カテゴリの話題に関して異なる感情が抽出され られる.今後はツイートを取得する際にリツイートを削除した た確率は 0% であった.この要因として,次の 2 点が挙げられ り,繰り返し出現している単語集合をフィルタリングするなど る.まず,ニュース記事とツイートの感情値の平均値の差が他 のノイズ処理を行う予定である. のカテゴリの話題のものに比べて小さかった.また,ツイート 次に,ニュース記事とツイートにおける感情の相違について の感情値の標準偏差に関しては他のカテゴリの話題のものと大 図 6 ニュース記事とツイートの感情値の相関グラフ(検索キーワード「ベイスターズ」) 表 5 話題に対するニュース記事の感情値とツイートの感情値の相関 カテゴリ 映画 ・ドラマ 検索キーワード 軸1 軸2 軸3 アニー -0.12 0.08 検索キーワード 軸1 軸2 軸3 0.09 アニー 0.25 0.44 0.36 -0.15 -0.22 0.15 ウロボロス 0.15 0.03 0.13 エクソダス 0.05 0.04 0.04 エクソダス 0.61 0.67 0.68 学校のカイダン 0.05 -0.02 -0.30 学校のカイダン 0.65 0.81 0.00 ジョーカーゲーム 0.04 -0.03 -0.12 ジョーカーゲーム 0.66 0.75 0.23 0.30 0.07 銭の戦争 政党 カテゴリ ウロボロス 映画・ドラマ -0.14 銭の戦争 0.00 0.48 0.18 -0.15 -0.23 0.01 ベイマックス 0.15 0.02 0.92 マエストロ 0.02 -0.06 -0.04 マエストロ 0.84 0.58 0.68 マッサン 0.08 -0.19 -0.08 マッサン 0.42 0.06 0.41 流星ワゴン 0.00 -0.13 -0.25 流星ワゴン 0.98 0.22 0.01 イーグルス -0.18 -0.04 0.03 イーグルス 0.07 0.71 0.76 オリックス 0.04 -0.06 0.02 オリックス 0.68 0.58 0.81 カープ 0.06 -0.12 -0.17 カープ 0.57 0.24 0.10 ジャイアンツ 0.03 0.15 0.03 ジャイアンツ 0.76 0.15 0.80 千葉ロッテ 0.07 0.10 0.05 千葉ロッテ 0.52 0.34 0.66 ベイマックス スポーツ球団 表 6 話題に対するニュース記事の感情値とツイートの感情値の相関 係数の検定の結果(確率) 係数 中日 0.08 -0.07 -0.11 中日 0.41 0.50 0.30 日ハム -0.08 0.10 -0.09 スポーツ球団 日ハム 0.45 0.33 0.37 阪神 0.09 -0.15 -0.11 阪神 0.40 0.13 0.27 ベイスターズ 0.13 -0.24 0.26 ベイスターズ 0.19 0.02 0.01 ホークス -0.14 -0.03 -0.09 ホークス 0.18 0.79 0.37 ヤクルト 0.06 0.01 0.12 ヤクルト 0.58 0.95 0.22 ライオンズ -0.08 -0.18 -0.03 ライオンズ 0.46 0.07 0.75 維新の党 0.05 -0.04 0.13 維新の党 0.63 0.68 0.19 公明党 -0.13 0.13 -0.04 公明党 0.20 0.21 0.70 自民党 0.01 0.01 -0.10 自民党 0.94 0.89 0.34 政党 日本共産党 0.02 0.11 0.07 日本共産党 0.88 0.29 0.51 民主党 -0.12 -0.13 -0.02 民主党 0.22 0.21 0.83 きな差は見られなかったが,ニュース記事の感情値の標準偏差 なうために,各検索キーワードに関するニュース記事とツイー が他のカテゴリの話題のものと比べて全体的に大きかった.こ トの感情値の相関係数を算出した.そして,それぞれの感情値 のことから,実験期間中の政党カテゴリの話題に関するニュー の相関の有意性を統計的に検定するために, 『ニュース記事の感 ス記事とツイートは似たような感情を持って発信されたと考え 情値とツイートの感情値には相関がない』とする帰無仮説のも られる.一方,映画・ドラマやスポーツ球団カテゴリでは,い と無相関検定を行った.このとき有意水準は 5% とした.表 5 くつかの話題に関するニュース記事とツイートの感情に大きな に算出された相関係数を示す.太字は相関の強さが 0.2 以上ま 差があることが確認された. たは −0.2 以下のものである.表 6 に検定結果の P 値を示す. 4. 2 ニュース記事とツイートの感情値の相関分析 太字は P 値が有意水準以下となり帰無仮説が棄却されたものを ニュース記事とツイートの情報発信者の感情の相関分析を行 示す.図 5 と図 6 に映画・ドラマカテゴリの「学校のカイダン」 表 8 3 つの流行ピーク日における感情の推移 軸1 軸2 軸3 楽しい ⇔ 悲しい うれしい ⇔ 怒り のどか ⇔ 緊迫 楽しい → 楽しい → 悲しい 怒り → うれしい → うれしい 緊迫 → のどか → 緊迫 カテゴリ 検索キーワード 学校のカイダン ニュース記事 ツイート 楽しい → 楽しい → 悲しい 怒り → うれしい → うれしい 緊迫 → のどか → 緊迫 マッサン ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → のどか ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい のどか → のどか → のどか 中日 ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 イーグルス ニュース記事 楽しい → 楽しい → 楽しい 怒り → うれしい → うれしい 緊迫 → のどか → 緊迫 ツイート 楽しい → 楽しい → 楽しい 怒り → うれしい → うれしい 緊迫 → のどか → 緊迫 ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 日ハム ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → のどか ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → のどか ベイスターズ ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ニュース記事 楽しい → 楽しい → 楽しい うれしい → うれしい → 怒り 緊迫 → のどか → 緊迫 ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 ニュース記事 楽しい → 楽しい → 楽しい うれしい → 怒り → うれしい 緊迫 → 緊迫 → 緊迫 ツイート 楽しい → 楽しい → 楽しい うれしい → うれしい → うれしい 緊迫 → のどか → 緊迫 映画 ・ドラマ オリックス スポーツ 球団 ライオンズ 千葉ロッテ 日本共産党 政党 民主党 表 7 検索キーワードの流行ピーク日とその前後の流行ピーク日(流 行時期判定期間:2015 年 1 月下旬から 2 月下旬) カテゴリ 検索キーワード ピーク日 1 ワードの全ての軸においてニュース記事とツイートの感情値に は相関が認められなかった. ピーク日 2 ピーク日 3 4. 3 ニュース記事とツイートにおける感情の推移 映画・ 学校のカイダン 1/31 2/7 2/14 ドラマ マッサン 1/31 2/7 2/12 イーグルス 2/2 2/7 2/15 オリックス 2/2 2/5 2/7 スポーツ 千葉ロッテ 2/3 2/7 2/10 発生した流行時期の流行ピーク日を Google トレンドのトレン 球団 中日 2/1 2/7 2/15 ドグラフを用いて求めた.本実験を実施した 2015 年 1 月下旬 政党 話題の異なる流行時期におけるニュース記事の感情値とツ イートの感情値の推移を分析した.そのために,表 3 に示した 27 個の検索キーワードの流行ピーク日をもとに,その前後に 日ハム 2/4 2/7 2/11 から 2 月下旬に表 3 の流行ピーク日の前後の流行ピーク日を取 ベイスターズ 1/31 2/7 2/14 得することができたのは,27 個の検索キーワードのうち 11 個 ライオンズ 2/2 2/7 2/14 の検索キーワードであった.対象とした検索キーワードと 3 つ 日本共産党 2/1 2/5 2/7 民主党 2/2 2/6 2/8 の流行ピーク日(ピーク日 1,ピーク日 2,ピーク日 3)を表 7 に示す.これらの検索キーワードを用いて流行ピーク日前後の ピーク日のニュース記事とツイートをそれぞれ取得し,感情辞 とスポーツ球団カテゴリの「ベイスターズ」のニュース記事と 書を用いて感情値を求め,同一話題に対する 3 つの流行ピーク ツイートの各軸の感情値に基づく相関グラフをそれぞれ示す. 日におけるニュース記事とツイートの感情値の推移を観察した. 結果として,映画・ドラマカテゴリの「銭の戦争」の軸 1 お 結果を表 8 に示す.単純化のために,表 8 では各軸の感情値 よびスポーツ球団カテゴリの「ベイスターズ」の軸 3 に低い正 に基づく感情を示した.例えば,軸 1(楽しい ⇔ 悲しい)の場 の相関が認められた.また,映画・ドラマカテゴリの「ウロボ 合,感情値が 50 以上の場合は「楽しい」という感情,50 未満 ロス」の軸 2, 「学校のカイダン」の軸 3, 「ベイマックス」の軸 の場合は「悲しい」という感情とした.3 つの流行ピーク日に 2, 「流星ワゴン」の軸 3,スポーツ球団カテゴリの「ベイスター おけるニュース記事とツイートの感情の推移をそれぞれ確認し ズ」の軸 2 に低い負の相関が認められた.カテゴリ別に見ると, たところ,ドラマ・映画のカテゴリの「マッサン」に関するツ 映画・ドラマカテゴリでは 5 つの検索キーワードの軸でニュー イートの全ての軸の感情が 3 つの流行ピーク日において同一で ス記事とツイートの感情値に相関が認められ,スポーツ球団カ あった.それ以外のキーワードに関するニュース記事やツイー テゴリでは 1 つの検索キーワードの 2 つの軸の感情値に相関が トでは,いずれかの軸において感情の変化があることが確認さ が認められた.これらに対し,政党カテゴリの全ての検索キー れた.また軸 1 の感情の変化は映画・ドラマカテゴリの「学校 のカイダン」に関するニュース記事とツイートのみ,軸 2 の感 クについての意見を発信しているユーザを考慮するために,文 情の変化は映画・ドラマカテゴリの「学校のカイダン」に関す 脈を考慮したツイート取得手法について検討する予定である. るニュース記事とツイート,スポーツ球団カテゴリの「イーグ また,ツイートの感情を適切に把握するために,リツイートに ルス」に関するニュース記事とツイート,政党カテゴリの「日 より繰り返し出現している単語集合をフィルタリングするなど, 本共産党」に関するニュース記事と「民主党」に関するニュー ツイートの取得手法を改善する予定である.さらに,ユーザが ス記事にしか見られなかった.これに対し,軸 3 の感情の変化 指定した流行期間におけるニュース記事とツイートの感情俯瞰 は映画・ドラマカテゴリの「マッサン」に関するツイートを除 グラフを生成して提示することができるインタラクティブなシ く全ての検索キーワードに関するニュース記事とツイートにつ ステムの構築を計画している. いて確認された. 次に,同一の検索キーワードに関するニュース記事とツイー 謝 辞 トの感情の変化の相違について分析した.その結果,映画・ド 本 研 究 の 一 部 は ,総 務 省 戦 略 的 情 報 通 信 研 究 開 発 事 業 ラマカテゴリの「マッサン」の軸 3,政党カテゴリの「日本共 (SCOPE) および JSPS 科研費 24780248, 26330347, 26870090 産党」の軸 2 および同カテゴリの「民主党」の軸 2 と軸 3 にお により実施した.ここに記して謝意を表す. いて,ニュース記事の感情変化とツイートの感情変化に相違が あることが分かった(表中の太字).これらに対し,スポーツ 球団カテゴリの全ての検索キーワードに関して,ニュース記事 とツイートの感情変化には相違が見られなかった. 5. お わ り に 本研究では,特定の話題に対するニュース記事とツイートの 情報発信者の感情分布の相違を俯瞰可能な可視化システムを構 築した.そのために,既存の研究で開発した感情辞書を用いて ニュース記事とツイートの感情値をそれぞれ算出し,感情俯瞰 グラフを生成する手法を提案した.実験では,実験期間中に流 行していた話題の流行ピーク日におけるニュース記事とツイー トを取得して感情値を算出し,それぞれの感情値の相関分析を 行った.その結果,検索キーワードや軸による違いはあるもの の,同一の話題に対するニュース記事とツイートの感情分布の 相違や感情変化の相違を観察することができた. 今後の課題として,短文のテキストであるツイートの感情を 適切に抽出するために,複数のツイートに分けて同一のトピッ 文 献 [1] 熊本 忠彦,河合 由起子,田中 克己,“新聞記事を対象とするテ キスト印象マイニング手法の設計と評価”,電子情報通信学会論 文誌,J94-D(3), pp. 540-548, 2011. [2] Jianwei Zhang, Yukiko Kawai, and Tadahiko Kumamoto, “Extracting Similar and Opposite News Websites Based on Sentiment Analysis,” In Proc. of 2012 International Conference on Industrial and Intelligent Information (ICIII 2012), pp. 24-29, 2012. [3] 但馬 康宏, “コメントとしてつぶやかれた短文の感情推定”, 電子 情報通信学会技術研究報告,NLC, 言語理解とコミュニケーショ ン,112(196), pp. 37-40, 2012. [4] 内藤 和宏,榎堀 優,梶田 将司,間瀬 健二,“Twitter コメン トに含まれる感情語がイベント印象に与える影響の評価”,情報 処理学会インタラクション,pp. 871-876, 2012. [5] 秦 徳明,若宮 翔子,河合由起子,熊本 忠彦,張 建偉,白石 優 旗,“話題の対する多様な感情を含む網羅的検索手法の提案” , DEIM Forum 2014, E6-5, 2014. [6] Shoko Wakamiya, Yukiko Kawai, Tadahiko Kumamoto, Jianwei Zhang and Yuhki Shiraishi, “Searching Comprehensive Web Pages of Multiple Sentiments for a Topic,” Transactions on Engineering Technologies, pp. 337-352, 2014.