Comments
Description
Transcript
先読みブロガーによる投稿記事の分析に基づく流行語予測手法の提案
DEIM Forum 2015 P3-2 先読みブロガーによる投稿記事の分析に基づく流行語予測手法の提案 田川 和幸† 稲垣 陽一††† 朝永 中本 聖也†† レン††† 中島 伸介† 張 建偉†††† † 京都産業大学 コンピュータ理工学部 〒 603–8555 京都府京都市北区上賀茂本山 †† 京都産業大学大学院 先端情報学研究科 〒 603–8555 京都府京都市北区上賀茂本山 ††† 株式会社きざしカンパニー 〒 103–0015 東京都中央区日本橋箱崎町 20-14 日本橋巴ビル 6F †††† 筑波技術大学 産業技術学部 〒 305–8520 茨城県つくば市天久保 4-3-15 E-mail: †{g1244640,nakajima}@cse.kyoto-su.ac.jp, ††[email protected] , †††{inagaki,reyn}@kizasi.jp, ††††[email protected] あらまし 一般的に,流行語は世間で話題になってから知る事が多く,流行前に知る事は困難である.一方で,流行 を早期に知る事は,マーケティング等の観点において,重要だと考えられる.そこで,我々は,流行に敏感な先読み ブロガーを発見し,そのブロガーを監視する事で,流行を先取りする手法を開発してきた.しかし,先読みブロガー から流行語候補を抽出する具体的な手法については未検討であった.よって,本稿では,先読みブロガーから流行語 候補を抽出する手法を提案する.具体的には,先読み度の高さ,及び先読みブロガーが,ある一定期間毎に投稿する キーワードを考慮した流行語抽出手法を提案する. キーワード ブログマイニング,先読みブロガー,流行語抽出 1. は じ め に 定した上で,この過去の流行語に対して事前に言及した頻度を 分析する手法 [7] [8]」について報告している.前者の「各ブロ 近年,世の中の動きや流行を捉えるための分析対象データと ガーの投稿記事の履歴が,未来の話題に近いのか,過去の話題 して,ブログや SNS データが注目されており,我々は特に流 に近いのかを分析する手法 [5] [6]」では,あるトピックレベルで 行語の予測に着目している.流行語は世間で話題となったキー のコミュニティ内において,他のブロガーよりもコミュニティ ワードやヒットした商品名・コンテンツ名であり,2014 年で 内話題を早期に投稿している傾向を分析するため,相対的に話 は, 「集団的自衛権」「ありのままで」「壁ドン」等のキーワー 題を先取りしている事で先読みブロガーとなり,実際に大きな ド [1] や, 「アナと雪の女王」「妖怪ウォッチ」等の商品・コンテ 流行を先取りしているブロガーの発見が困難であった.一方後 ンツ [2] が注目された.このような流行語は世間に知れ渡って 者の「過去のメジャーな流行語を特定した上で,この過去の流 から初めて知ることが多く,流行する前にこれを早期に発見す 行語に対して事前に言及した頻度を分析する手法 [7] [8]」では, ることは大変困難である.しかしながら,マーケティングの観 過去のメジャーな流行語を特定した上で,この過去の流行語を 点において,流行語をいち早く検知することは大変重要だと考 早期に投稿している傾向を分析する手法であり,実際に大きな えられる.そこで我々はブログ分析に基づいた流行語の早期発 流行を先取りしているブロガーの発見が可能だと考え,単純に 見手法の開発に向けた研究を行っている.ブログや SNS 等の 過去の流行語を早期に投稿している傾向を分析するだけではな CGM は,一般ユーザによって情報発信されるものであり,こ く,過去の流行語および過去の流行語の流行時の話題を含む記 れを分析することで世間にはまだ知れ渡っていないような未来 事を早期に投稿している傾向を分析する事で先読みブロガーと の流行語候補を検出できる可能性がある. 考えられるブロガーの発見に繋がる事を確認している [9].しか 流行語の早期発見手法として,“将来世間に広まりそうな流 し,先読みブロガーから流行語候補を抽出する具体的な手法に 行語候補を推測する方法” と,“流行に敏感な先読みブロガー ついては未検討であった.よって,本稿では,先読みブロガー を発見し,このブロガーが発信する情報から流行語候補を検出 から流行語候補を抽出する手法を提案する.具体的には「先読 しようとする方法” の 2 通りを考えている.これまでの研究で, み度の高い先読みブロガーが投稿したキーワード程,流行語候 前者の “将来世間に広まりそうな流行語候補を推測する方法” 補である事が期待できる」という仮定に基づき,先読み度の高 に関する研究については,既に実施しており,ある程度の成果 い先読みブロガーが投稿するブログ記事より,先読み度の高さ を得ている [3] [4].したがって,後者の “流行に敏感な先読み を考慮して流行語候補を抽出する事を目指す.なお,流行は時 ブロガーを発見し,このブロガーが発信する情報から流行語候 間の流れとともに変化していくため,現時点において,流行語 補を検出しようとする方法” に取り組んでおり, 「各ブロガーの 候補となりうるのか,過去の時点まで遡って,時系列の変化と 投稿記事の履歴が,未来の話題に近いのか,過去の話題に近い 共に,先読みブロガーが投稿する頻度が増加していっているの のかを分析する手法 [5] [6]」や, 「過去のメジャーな流行語を特 か,また増加がその過去の流行語と比較して,十分な増加傾向 にあると言えるのかを調べる事で流行語候補の判定を行う. る分類器の作成を行っている [19].石井らは,ヒット現象の数 例えば,ブックカテゴリの先読みブロガー A が投稿した記事 理モデルを用いて,映画の日々の広告出稿費から観客動員数を 内において,小説 X について書いていたとしても,小説 X が 予測および地域イベントのシミュレーションの結果をブログ書 流行するとは限らない.しかし,ブックカテゴリの先読みブロ き込み数と比較して,数理モデルの有効性を示す研究を行って ガー群において,先読みブロガー A だけでなく,他の先読みブ いる [20].白木原らは,流行している事柄についての情報を簡 ロガーも小説 X について投稿しているならば,小説 X は,流 単に手に入れる事を可能とするために,Twitter ユーザの中か 行する可能性があると考えられる.ただし,単純に,短い期間 ら流行に敏感な人をバースト検出アルゴリズムを用いて検出す において,ブックカテゴリの先読みブロガー群が,小説 X を多 るシステムを提案している [21]. 数投稿しているだけでは,小説 X を流行語候補とみなす事は 以上の通り,既に広まったキーワードの検出,可視化を目的 できないと考えている.流行語候補と判定するためには,ある とした研究や,話題の伝播に関する研究は行われているが,過 一定期間毎に,ブックカテゴリの先読みブロガー群の,小説 X 去に流行を先取りしていたブロガーを発見し,そこから流行語 に対する投稿傾向を分析したとき,過去の流行語と同じような, やトレンドを効率的に取得することを目指した研究はなされて 増加傾向であると判定する必要があると考えられる. いない. 以上より,先読み度の高さを考慮してキーワードを抽出し, 対象カテゴリ内の先読みブロガー群において,ある一定期間毎 の対象キーワードの投稿傾向を調べ,過去の流行語の増加傾向 と比較することにより,対象キーワードを流行語候補と判定し, 抽出する手法を提案する. 以降,2 章にて,関連研究について述べる.3 章にて,先行 研究において過去の流行語を学習データに用いた流行先読みブ ロガー発見手法について述べる.4 章にて,流行語を予測する 手法について述べる.最後に 5 章にて,まとめと今後の課題に ついて述べる. 2. 関 連 研 究 ブログ等の分析により流行語やトレンドを発見もしくは抽出 3. 過去の流行語を学習データに用いた流行先読 みブロガー発見手法の提案 本章では,先行研究の流行先読みブロガー発見手法の処理の 流れについて説明する.先行研究の提案手法の流れは,以下の 4 つに大別できる. ( 1 ) 対象ブロガーの抽出とカテゴリ分類 ( 2 ) 学習データとなるシード語(過去の流行語)の抽出と カテゴリ分類 ( 3 ) 対象シード語(過去の流行語)の分析 ( 4 ) 対象ブロガーの先読み能力の評価 1 つ目の「対象ブロガーの抽出とカテゴリ分類」では,各ブ しようとする関連研究を以下に挙げる. ロガーがどの分野について専門性を持っているかを,熟知度と 奥村らは,ブログ記事中でのキーワードの出現頻度の推移を いう指標でカテゴリ毎(ブロガーコミュニティ毎)に分類する. 調べることで,そのキーワードが,いつ,どの程度広まったかを これは,対象ブロガーがどの分野について詳しいかに応じて, 検出し提示するシステムを開発している [12].福原らは,感情 どの分野で先読み能力があるかについて絞るためである.2 つ 表現と用語のクラスタリングを用いた時系列テキスト集合から 目の「学習データとなるシード語の抽出(過去の流行語)とカ の話題検出に関する研究を行っている [13].長谷川らは,時系 テゴリ分類」では,先読みブロガーを発見するための学習デー 列文書のクラスタリングに基づくトレンド可視化システムに関 タとなる,シード語(過去の流行語)を抽出し,カテゴリ(ト する研究を行っている [14].この研究ではトレンドの発見その ピック毎)に分類を行う.これは学習データ(シード語群)を ものではなく,ユーザがトレンドを把握しやすいように可視化 作成し,対象シード語がどの分野での先読み能力の評価に用い することを目的としている.灘本らは,ブロガーの注目情報を る事が可能かを判定するためである.3 つ目の「対象シード語 用いた株価変動予測に関する研究を行っている [15].この研究 の分析」では,対象シード語の成長期間の推定を行い,各時点 では,ブログ記事中に現れる株価の変動と相関のあるキーワー の先読みの価値を先読みポイントとして算出する.これは 4 つ ド群を抽出することで株価変動予測に取り組んでいる.金澤ら 目のスコアリングの前準備である.4 つ目の「対象ブロガーの は,検索エンジンを用いて将来情報が含まれる文書を効率的に 先読み能力の評価」では,先読み傾向の強さをブロガーの先読 収集し文書中の将来情報を抽出すると共に,情報の信頼性に基 み度として算出する.これはブロガー先読み度により,各カテ づいてクエリに関する将来情報を集約しグラフを用いて可視化 ゴリ毎の流行先読みブロガーを判定するためである. する方式を提案している [16].古川らは,ブログにおける話題 の伝搬が語とブロガーの影響力によって起こるという仮説の下 以上の提案手法の流れを具体的に,括弧内に示した各節にお いて詳細を説明する. で,伝搬の情報から議論の連なりやすい語を重要語として判別 ( 1 ) ブロガーグループの分類と熟知度判定(3.1 節) する手法を提案している [17].横山らは,潜在的ディリクレ配 ( 2 ) ブログアーカイブ解析によるシード語の抽出(3.2 節) 分法を用いてブログ記事のトピックを推定することで,情報伝 ( 3 ) シード語の成長期間推定に基づく先読みポイントの算 播のネットワークを抽出する枠組みを提案している [18].小阪 らは,注目話題を早期に発見するために,話題頻度の推移を学 習データとして用い,話題が全体に波及するかどうかを判別す 出(3.3 節) ( 4 ) ブロガーの先読み度の算出(3.4 節) また,解析用データとして,kizasi.jp [22] にて保持している をシード語候補とする.周期性のあるキーワードとは, 「正月」 「オリンピック」など,特定の周期で出現するキー ブログデータ(2013 年 9 月 6 日時点で,12,103,387 ブロガー, 「ハロウィン」 172,018,786 記事)を対象としており,本手法では,先読みブ ロガー発見のための学習データとして用いる過去の流行語を, ワードである. 3. 2. 2 シード語候補のカテゴリ分類 各シード語が,どの分野に関連する流行語であるのかを判別 シード語と呼称している. するため,シード語候補をカテゴリ毎に分類する必要がある. 3. 1 ブロガーグループの分類と熟知度判定 先行研究の提案手法では,流行語に対していち早く反応する 分類方法としては,シード語候補と熟知グループの意味的な 傾向を有する先読みブロガーの判定を目的としているが,各先 近さを表す関連度を算出することによって行う.この関連度は, 読みブロガーがどの分野における先読み能力が高いかを示す必 “ シード語候補の共起語集合 ”と“ 熟知グループの共起語集合 ” 要がある.なぜなら,ある先読みブロガーが「インターネット」 の類似度により表現する. に関する話題において先読み能力が高いとしても, 「経済」に関 シード語候補の共起語集合は,全ブログ記事中における共起 する話題において先読み能力が必ずしも高い訳ではないためで 度の高いキーワード上位 400 個としている.熟知グループの共 ある.また,先読みブロガーは,分類された該当分野に対して 起語集合は,各熟知グループに属するブロガーが投稿した該当 ある程度熟知していることを想定しているため,各ブロガーを カテゴリに関連するブログ記事中における,共起度の高いキー 話題別のブロガーグループに分類し,その各カテゴリ内におけ ワード上位 400 語としている. なお,先行研究 [8] でのカテゴリ分類評価実験の結果を踏ま るブロガーの熟知度に基づいたランキングを行う. 対象の熟知グループ(カテゴリ)gi に対しブロガー b がどの え,共起語集合間の類似度算出手法は,共起度順に重みを付与 程度熟知しているかを示す熟知度スコアを knowledgegi (b) は, したコサイン類似度を用い,最も類似度の高い上位 1,2 を関連 以下のように表すことができる. していると判定する手法を用いることを検討している. l log(m) ∑ · · relevancegi (ek ) n m 3. 2. 3 影響度に基づくシード語の認定 m knowledgegi (b) = (1) k=1 提案手法では,シード語が示す過去の流行語を,世間に広ま る以前から言及していたブロガーを先読みブロガーと認定しよ ただし,ek はブロガー b が投稿した記事である.m はブロ うとしているため,認定されるシード語はある程度重要なキー ガー b が対象期間内に投稿した記事数である.l はブロガー b が ワードに絞る必要がある.シード語候補の重要性の評価は,ブ 対象期間内に投稿した記事に出現した共起語数である (l < = n). n はこの熟知グループ gi の共起語数であり,今回は n = 400 で ログにおける該当キーワードの投稿数のピーク以降の期間 T に ある.したがって,l/n はブロガー b が使用した共起語の全共 出することで行う. おけるブログ投稿数の累計を,シード語候補の影響度として算 起語に対する網羅率である.log(m)/m では,関連性の低い記 具体的な算出方法としては,シード語候補毎にブログ投稿数 事を大量に投稿した場合に,そのブロガーの熟知度が高くなっ を調べ,対象シード語候補の過去 2 年間の投稿数に対し,必要 てしまう問題に対して,記事数の増加の影響を緩和させている. に応じて移動平均を算出し,投稿数のピークを確認する,この relevancegi (ek ) は対象熟知グループ gi に対する,あるブログ ピークが社会的認知が最も高くなった時点と言える.このピー 記事 ek の関連度スコアを示したものである.最終的に,対象 ク以降の期間 T における投稿数の累計が非常に減少している場 となるカテゴリに対する熟知度スコアが,設定した閾値を超え 合,このシード語候補はピーク後に世間から忘れ去られるよう れば,そのブロガーが属するものと判定する.また,このブロ なキーワードであると考えられるため,ピーク以降も投稿数が ガーグループの分類と熟知度判定の具体的な手法については先 あまり減少しないようなシード語候補を影響度が高いキーワー 行研究にて触れているため,ここでは割愛する. ドであると判断し,シード語として認定する(図 1 参照). 3. 2 ブログアーカイブ解析によるシード語の抽出 本節では,ブログアーカイブより,シード語候補を抽出し, カテゴリ分類後,シード語候補のブログ投稿数に基づく影響度 算出により,シード語の認定を行う過程について説明する. 3. 2. 1 ブログ分析によるシード語候補の抽出 なお,シード語候補毎に,関連度の高い熟知グループを幾つ か求める.さらに各熟知グループ毎に,影響度の高い上位数個 のシード語候補を,その熟知グループのシード語とする. 3. 3 シード語の成長期間の推定に基づく先読みポイントの 算出 提案手法ではシード語(過去の流行語)を使って,ブロガー 本節では,まず,シード語の成長期間の推定手法について述 の先読み分析を行うため,ブログ分析によりシード語候補の抽 べる.シード語の成長期間を推定するためには,まずはシード 出を行う必要がある. 語が表す流行語について,どの時点から語られ始めたのかを推 シード語候補を抽出するにあたり,ブログで話題になった キーワードを取り上げている kizasi.jp [22] の話題ランキング 定する.この時,流行のピーク時の話題の内容とかけ離れてい ないことを確認する必要がある. (アーカイブ 2 年分) を利用する.手順としては,まず,kizasi.jp 例えば, 「iOS 7」がシード語である場合, 「iOS 7 はいつリリー より上位 100 までに入ったキーワードを抽出する.その後,抽 スされるんだろう?」といった記述内容は,先読みブロガーで 出したキーワードから重複語,一般語,総出現数が少ないキー なくとも投稿することが可能であるため, 「iOS 7」というシー ワード,周期性のあるキーワードを除外し,残ったキーワード ド語のみを記述するだけでは,流行を先読みしているとはいえ 手順 1 シード語の 1 週間毎の出現数を計算する 手順 2 シード語の流行時 (最大出現数となる時点の前後 1 週 間) における共起語集合を抽出する 手順 3 手順 2 の各共起語の 1 週間毎の出現数を計算する 手順 4 シード語の 1 週間毎の出現数 (手順 1) と各共起語の 1 週間毎の出現数 (手順 3) に対し,早期に投稿された順に順位を 付与し,シード語と各共起語のスピアマンの順位相関係数の高 い上位キーワードを抽出する スピアマンの順位相関係数を用いる事により, 「流行時特有 図1 影響度の概念図 キーワード」をより多く含む可能性が高い事を先行研究 [10] に て確認している. 3. 3. 2 流行のピーク時の話題とそれ以前の話題との類似度 計算 本節では,シード語の流行時の話題とそれ以前の話題との 類似度計算により,成長期間を推定する手法について述べる. シード語のピーク時の話題とそれ以前の話題との類似度により, シード語が出現した時期から投稿数が最大となる時点までの変 化を調べることができる.この類似度曲線の立ち上がり付近に おいて,シード語か示す話題がブログ上で語られ始めたと考え られるが,先行研究 [10] において, 「流行時特有のキーワード」 だけを自動的に抽出する事は困難な事も確認されており,シー 図 2 ピーク時の話題とそれ以前の話題との類似度計算 ド語のピーク時の話題とそれ以前の話題との類似度は,完全に ゼロとなる保証はない.したがって、“ピーク時の話題とそれ ない.一方, 「iOS 7 では UI がフラットデザインが採用される 以前の話題との類似度” の 1 次近似線の切片 (近似線が 0 とな らしい」という内容を, 「iOS 7」リリース前からブログに投稿 る時点) を,シード語の成長期間の開始時点とする手法を検討 していれば,この関連カテゴリに関するある程度の先読み能力 している(図 3). があると考えられる. そこで,シード語が流行のピークを迎えた際に,どのような 共起語と共に語られているかを,その共起語集合により表現し, それ以前の期間におけるシード語の共起語集合との類似度計算 を行うことにより,流行のピーク時に話題となったキーワード (「iOS 7」の場合,フラットデザイン等)を含めて,そのシー ド語が示す話題がどの時点から語られ始めているのかを推定す る方法を考案している(図 2 参照).しかし,この推定を精度 図 3 シード語の成長期間の判定 良く行うためには,流行のピーク時に話題となるような「流行 時特有キーワード」を抽出する必要がある.よって,3.3.1 節に 以上により,シード語の成長期間の開始時点を求め,ここか て,シード語に対する流行時の話題の抽出手法について述べ, らシード語の投稿数が最大となる時点(ピーク)までを,この 3.3.2 節にて,流行時の話題とそれ以前の話題との類似度計算 シード語の成長期間として判定する. による成長期間算出手法について述べる. 3. 3. 1 シード語に対する流行のピーク時の話題抽出手法 3. 3. 3 シード語の先読みポイントの算出 本節では,シード語の成長期間推定に基づく,各記事のある 本節では,シード語の流行時の話題の抽出手法について述べ 時点の先読みの価値を表現した,先読みポイントの算出手法に る.シード語と共に,流行時周辺で投稿されたキーワードを抽 ついて述べる.先読みポイントとは,シード語の成長期間内に 出するには,シード語に対する共起語を抽出することが考え おいて,対象時点の先読みの価値を表したスコアである.この られる.しかし,単純に,共起回数を基に抽出した共起語集合 先読みポイントは,シード語の成長期間内に投稿された(この だけでは,一般語,頻繁にシード語と共に投稿されているキー シード語に関する)ブログ記事に対して付与され,この期間の ワードや,ブログでよく話題になるようなキーワード等も含ま 開始時点が最も高く,終了時点(ピーク時)が最も低い値とな れ, 「流行時特有キーワード」をより多く含むようなキーワード る.ここで,ブログ記事 entryi に付与される先読みポイント 集合を作成するのは困難であると考えられる.したがって,以 P redictionP ointi の算出式を式 (2) に示す. 下の手順を踏まえ, 「流行時特有キーワード」をより多く抽出す ることを目指す. P redictionP ointi = (entryall + 1) − orderi entryall (2) entryall は,シード語の成長期間内にて対象シード語につい 考慮して流行語候補を抽出する事を目指す.なお,先読みブロ て投稿している記事数である.orderi は,シード語の成長期間 ガーの先読み度の高さを考慮した,流行する期待値を表すスコ 内において,シード語を早期に投稿した順序である.すなわち, アの事を,以後,流行期待値と定義する. 記事数 entryall が 100 の場合には,orderi が 1 から 100 の記 流行期待値の計算は,現在及び現在に近い期間だけでなく, 事に対する先読みポイントは,順番に 1, 0.99, · · · , 0.02, 0.01 と 過去に遡って調べる必要があると考えられる.なぜならば,先 いう値が付与される. 読み度が高いブロガーが投稿したキーワードであっても,ある 3. 4 ブロガー先読み度の算出 時点だけ流行期待値が高いだけでは,信頼性が低いと考えられ 本節では,各シード語に対するブロガー先読み度の算出方式 るからである.そこで,過去に遡って流行期待値を計算し,流 について説明する.各ブロガーのブロガー先読み度が高く算出 行期待値が増加傾向であるならば,そのキーワードは,流行語 されるための条件を以下に示す. 候補であると考えられる. • 対象シード語に関するブログ記事を,シード語の成長期 間内で早期に投稿している. • ワードを抽出するのかについて述べ,4.2 節では,先読み度の 上記ブログ記事の投稿数が多く,その内容がシード語の ピーク時の話題と類似している(図 4 参照). み度 P redictionScore(A,x) の算出式を以下に示す. Sim(DA , entryk ) × P redictionP ointk 補の判定手法について述べる. 4. 1 ブロガー先読み度を考慮したキーワードの抽出手法 本節では,どのように先読みブロガーからキーワードを抽出 P redictionScore(A,x) = 高さを考慮して抽出したキーワードの一定期間毎の投稿傾向を 調べ,過去の流行語の増加傾向と比較する事による,流行語候 そこで,あるシード語 A に対する,あるブロガー x の先読 N ∑ 以上より,4.1 節では,どのように先読みブロガーからキー するのかについて述べる.単に,キーワードを抽出しようとす (3) k=1 ると,膨大な数のキーワードを抽出する事になる.また,先読 みブロガーには先読み度が付与されているため,先読みブロ N は,ブロガー x が成長期間内に投稿したブログ記事数で ガーの先読み度の高さに応じて抽出するキーワードに差を付け ある.DA は,シード語 A のピーク時の共起語集合であり, ておく必要がある.したがって,一般語等のノイズを除去した Sim(DA , entryk ) は,シード語 A のピーク時の話題とブログ 上で, 「対象カテゴリ内では投稿される頻度は高いが,対象カテ 記事 entryk との類似度である.P redictionP ointk は,3.3.3 ゴリ外では投稿される頻度が低いキーワード」を抽出し,投稿 節にて説明したブログ記事 entryk に対する先読みポイントで した先読みブロガーの先読み度の高さを考慮した重みを付与し, ある. 流行期待値を算出する. ここで,昨年流行した「妖怪ウォッチ」を例に挙げる.流行 前, 「妖怪ウォッチ」は,当初,ゲームソフトとして販売された ため,ゲームカテゴリのブロガーに最も早く記事を投稿された と考えられる.中でも,ゲームに関する話題を先取りしている 先読みブロガーは,他のブロガーより早く, 「妖怪ウォッチ」に ついての記事を投稿していたと考えられる.一方で,流行前は, ゲームカテゴリのキーワードであるため.他のカテゴリのブロ ガーが投稿する頻度は低かったと考えられる.しかし, 「妖怪 ウォッチ」の流行後は,カテゴリに関係なく話題になっている. したがって,流行前の「妖怪ウォッチ」のような, 「対象カテゴ 図4 ブロガー先読み度判定のためのブログ記事の類似度分析 リ内では投稿される頻度は高いが,対象カテゴリ外では投稿さ れる頻度が低いキーワード」を抽出することにより,流行語候 このブロガー先読み度を,対象カテゴリにおける複数のシー 補であるキーワードを抽出することができると考えている. ド語において算出することにより,ある特定分野における「先 以上より,上記の抽出手法でキーワードの抽出を行い,その 読みブロガー」は,その後もこの分野に関しては「先読みブロ 後,投稿した先読みブロガーの先読み度の高さを考慮した重み ガー」であり続ける可能性が高いかどうかについて評価を行う を付与し,流行期待値を算出する.上記の手順を 1ヶ月毎に行 ことができると考えている. い,ある一定の期間 T で 1 つのデータとして扱う.なお,T は 4. 流行語予測手法の提案 本章では,新たに提案する流行語予測手法について説明する. 3ヶ月程度を想定している. 4. 2 流行期待値の変動を考慮した流行語候補の判定手法 本節では,先読み度の高さを考慮して抽出したキーワードの まず, 「先読み度の高い先読みブロガーが投稿したキーワード 一定期間毎の投稿傾向を調べ,過去の流行語の増加傾向と比較 程,流行語候補である事が期待できる」と仮定する.流行とな する事による,流行語候補の判定手法について述べる.まず, るキーワードを予測するため,仮定に基づき,先読み度の高い 「先読み度の高い先読みブロガーが投稿したキーワード程,流行 先読みブロガーが投稿するブログ記事より,先読み度の高さを 語候補である事が期待できる」という仮定に基づき,先読み度 の高い先読みブロガーが投稿したキーワードには,流行すると いう期待値を表した流行期待値を高く付与し,反対に,先読み 度のあまり高くはない先読みブロガーが投稿したキーワードに [3] は,流行期待値を低く付与し,キーワード毎に流行期待値を合 計する.その後集計する事で,流行期待値の合計が大きいキー ワード程流行語候補として期待できるという事となる. [4] こ こ で ,抽 出 し た キ ー ワ ー ド X に 付 与 す る 流 行 期 待 値 T rendScore の算出式を式 (4) に示す. [5] T rendScore(X,T ) = N ∑ Bk (X, T ) × k=1 (N + 1) − rank(Bk ) N (4) [6] N は,対象カテゴリ内の先読みブロガーの数である.Bk は, 対象カテゴリ内で k 番目の先読みブロガーを表すものである. Bk (X, T ) は,対象の先読みブロガー Bk が対象期間 T 内でキー [7] ワード X を投稿した頻度の数値である.rank(Bk ) は,対象 の先読みブロガー Bk の先読み度ランキングでの順位である. (N +1)−rank(Bk ) N は,対象の先読みブロガー Bk の先読み度ラン [8] キングの順位 rank(Bk ) を考慮した重みである. 上記の手順をそれぞれの期間 T 毎に行い, 式 (5) を満たす かを調べる. [9] T rendScore(Dk ,T 2) − T rendScore(Dk ,T 1) > T rendScore(Ck ,T 2) − T rendScore(Ck ,T 1) (5) Dk は,対象のキーワード X の流行期待値である.Ck は, [10] 過去の流行語の流行期待値である.式 (5) を満たす事で,過去 の流行語と比較して,流行する可能性が高いかを調べる. [11] 5. まとめと今後の課題 我々は,流行に鋭敏に反応するブロガー(先読みブロガー) 群を発見し,彼らの発信情報から流行語候補を早期発見する手 [12] 法の開発を目指している.本稿では,先行研究において未検討 であった流行語を予測する手法を提案した. [13] 今後は流行語候補の予測精度を検証する実験を行う予定であ る.具体的には,頻度,共起度,TFIDF 等を用いてキーワー [14] ドを抽出し, 「対象カテゴリ内では投稿される頻度は高いが,対 象カテゴリ外では投稿される頻度が低いキーワード」を満たす キーワードに,提案する流行期待値の算出を行い,流行語候補 [15] の抽出に繋がるかどうかを実験で確かめる事で,提案手法の有 効性を検証する. 6. 謝 [16] 辞 [17] 本研究の一部は,文部科学省科学研究費助成事業 (学術研究 助成基金助成金) 基盤研究 (C)(課題番号:#26330351) による. [18] ここに記して謝意を表します. 文 献 [1] 「現代用語の基礎知識」選,2014 ユーキャン新語・流行語大賞発 表,http://singo.jiyu.co.jp/ [2] 【速報】2014 年ヒット商品ランキング発表! 1 位は「アナと雪の女 [19] [20] 王」http://trendy.nikkeibp.co.jp/article/pickup/20141030 /1061085/ Shinsuke Nakajima,Jianwei Zhang,Yoichi Inagaki and Reyn Nakamoto. Early Detection of Buzzwords Based on Large-scale Time-Series Analysis of Blog Entries,23rd ACM Conference on Hypertext and Social Media (ACM Hypertext 2012),pp.275-284,June 2012. 中島伸介,張建偉,稲垣陽一,中本レン,大規模なブログ記事時 系列分析に基づく流行語候補の早期発見手法,情報処理学会論 文誌:データベース (TOD56),2013 年. Shinsuke NAKAJIMA,Adam JATOWT,Yoichi INAGAKI,Reyn NAKAMOTO,Jianwei ZHANG,Katsumi TANAKA: “Finding Good Predictors in Blogsphere Based on Temporal Analysis of Posting Patterns”,DBSJ Journal, Vol.10,No.1, pp.13-18,June 2011. 朝 永 聖 也 ,中 島 伸 介 ,Adam JATOWT,稲 垣 陽 一 ,Reyn NAKAMOTO,張 建偉,田中克己. ブログ記事の時系列分析 に基づくブロガー先読み度分析手法の提案. 第 3 回ソーシャル コンピューティングシンポジウム(SoC2012),SoC2012 講演 論文集 pp.79-84,2012 年 6 月. 朝永聖也,中島伸介,張建偉,稲垣陽一,中本レン, 流行語の事 前言及頻度分析に基づくブロガー先読み度判定手法の提案, 第 5 回データ工学と情報マネジメントに関するフォーラム (DEIM Forum 2013) C1-2,2013 年 3 月. 朝永聖也,中島伸介,稲垣陽一,中本レン,小倉 僚,張 建偉, 流行語に対する早期言及頻度分析に基づくブロガー先読み度判 定手法の提案,情報処理学会研究報告 データベース・システム 研究会報告,2013-DBS-158(1),1-8,2013-11-19. 朝永聖也,中島伸介,稲垣陽一,中本レン,張 建偉. 過去の 流行語を学習データに用いた流行先読みブロガー発見手法の提 案, Web とデータベースに関するフォーラム(WebDB Forum 2014),情報処理学会シンポジウムシリーズ,A-2-2,2014 年 11 月. 朝永聖也,中島伸介,稲垣陽一,中本レン,張 建偉,流行先読 みブロガー発見のための流行語分析手法, 第 6 回データ工学 と情報マネジメントに関するフォーラム (DEIM Forum 2014) C3-4,2014 年 3 月. 稲垣陽一,中島伸介,張建偉,中本レン,桑原雄,ブロガーの 体験熟知度に基づくブログランキングシステムの開発および評 価,情報処理学会論文誌:データベース,Vol.3,No.3(TOD47), pp.123-134,2010 年. 奥村学,blog マイニング-インターネット上のトレンド,意見分 析を目指して-,人工知能学会誌,Vol.21,No.4,pp.424-429, 2006 年. 福原知宏,中川裕志,西田豊明 :感情表現と用語のクラスタリ ングを用いた時系列テキスト集合からの話題検出,第 20 回人工 知能学会大会 2E1-02,2006 年 5 月. 長谷川 幹根,石川 佳治, 「T-Scroll:時系列文書のクラスタリン グに基づくトレンド可視化システム」,情報処理学会論文誌:デー タベース,Vol. 48,No. SIG 20(TOD 36),pp. 61-78,2007 年 12 月. 灘本裕紀,堀内 匡:ブロガーの注目情報を用いた株価変動予 測の試み,第 6 回情報科学技術フォーラム講演論文集,Vol.2, pp.369-370,2007 年 9 月. 金澤健介,Adam Jatowt,小山聡,田中克己, “ Web 上の将来 情報の集約的提示,”Web とデータベースに関するフォーラム (WebDB Forum 2009),4A-1,2009 年 11 月. 古川忠延,松尾豊,大向一輝,内山幸樹,石塚満.ブログ上での 話題伝播に注目した重要語判別,知能と情報(日本知能情報ファ ジィ学会誌),Vol.21,No.4, pp.557–566,2009 年. 横山 正太朗,江口 浩二,大川 剛直, “ 潜在トピックを用いたブ ログ空間からの情報伝搬ネットワーク抽出 ”,電子情報通信学会 論文誌,Vol.J93-D,No.3,pp.180-188 (2010). 小阪有平,安村禎明,上原邦昭, “ ブログのカテゴリ分類に基づ く注目話題の早期検出 ”,人工知能学会全国大会 (第 23 回) 論 文集,3B2-1 (2009). 石井晃,梅村早苗,松本武洋,松田直也,林隆文,新垣久史,中 川健,吉田就彦, “ 社会現象へのヒット現象の数理モデルの応 用に関する研究 ”,ファジィシステムシンポジウム (第 25 回), 3D2-05 (2009). [21] 白木原渉,大石哲也,長谷川隆三,藤田博,越村三幸, “ Twitter における流行語先取り発言者の検出システムの開発 ”,研究報 告情報基礎とアクセス技術,Vol.2010-IFAT-99 No.2,pp1-8, 2010-07-28. [22] kizasi.jp:ブ ロ グ か ら 、話 題 を 知 る 、き ざ し を 見 つ け る , http://kizasi.jp/ [23] blogram:ブログランキング & 成分解析 http://blogram.jp