Comments
Description
Transcript
Twitter の特性を考慮した社会的ネットワーク上の情報伝播
Twitter の特性を考慮した社会的ネットワーク上の情報伝播分析 プロフィットエンジニアリング研究 5212F020-8 鳥居壮志郎 指導教員 大野髙裕 An Analysis of Information Propagation on Social Network Considering Property of Twitter TORII Soshiro 1. はじめに 言及した人数を表わす.本研究では,IC モデルをベースと 近年,Twitter や Facebook に代表されるソーシャルネッ し,Twitter の情報伝播が持つ特性を考慮した形で情報伝播 トワーク・サービス(以下 SNS)が普及しつつある.これら モデルを構築する. により,企業は社会的相互作用と呼ばれる,家族や同僚の行 2.2. Twitter に関する従来研究 動が消費者へ与える影響を考慮したマーケティング活動を行 なうことが可能になりつつある.実際,新製品,新サービス の情報を効率良く消費者に伝搬させるため,SNS の公式ア カウントを持つ企業も増加している. 従来の SNS の研究では,実世界の情報伝播と SNS の情報 伝播では同質な特性と異質な特性があることが指摘されてい る.同質な特性としては,消費者は家族や友人,同僚などと 社会的ネットワークを形成しており,そのネットワークでは 消費者によって情報伝播に与える影響力は異なるという特性 が挙げられる [1].異質な特性としては,Twitter など一部 の SNS では,一方の消費者だけが相手の消費者の行動を観 測していることもあり,人間関係や情報伝搬が非対称となっ ているという実世界とは異質な特性が挙げられる [1].企業 が効率的に情報を伝搬させるためには,これらの特性を考慮 することが重要だといえる. そこで,本研究では Twitter の特性を考慮した社会的ネッ トワーク上の情報伝播を分析することを目的とする.具体 Twitter に関する従来研究は,Kwak et al. [1] に代表さ れるように実証研究がほとんどである.本研究では,それら の実証研究を通じて明らかになった特性を考慮したモデル化 を行なう.実証研究で明らかになった特性として次が挙げら れる. Twitter における社会的ネットワークの構造 • 約 8 割が一方向の人間関係(非対称な人間関係) • 実世界のネットワークと同じ性質を持つ(スモールワー ルド性1 ,スケールフリー性2 ,クラスター性3 ) Twitter の情報伝播の特性 • トピックによって情報伝播に差がある • ツイート内容がポジティブな内容か,ネガティブな内 容かによって情報伝播に差がある • URL を含むツイートは情報伝播しやすい • リプライ4 ,リツイート5 ,メンション6 の回数が影響力 を持つ 的には,Twitter に関する従来研究をもとに,Twitter の情 3. 本研究の提案 報伝播の特性を明らかにする.次に,その特性をもとに情報 3.1. 本研究における設定 伝播モデルを構築し,そのモデルを用いた数値実験を通し 本研究では,Twitter における情報伝播モデルを構築し, て,Twitter の情報伝播の特性を明らかにすることで,企業 数値実験を行なう.そのために本研究の提案モデルと数値実 にとって有益な情報を与えることができると考えられる. 験における設定を次のように定義する. 2. 従来研究 3.1.1. Twitter におけるネットワークの定義 2.1. 情報伝播に関する従来研究 本研究では,ネットワークを Twitter のフォロー,フォロ 情報伝播に関する研究は,病気の感染モデルをベースとし ワーの関係で定義する.あるユーザー A が別のユーザー B たものから始まり,マーケティング分野においても多くの研 をフォローし,B は A をフォローしていないとき(人間関 究がなされている.Goldenberg et al. [2] の研究では,IC 係が非対称),A は B のツイートを把握できるが,B は A (Independent Cascade) モデルと呼ばれる確率的に情報が伝 のツイートを把握できない.A と B のお互いがフォローし 播するモデルを用いて実世界での情報伝播を分析している. ているときは(人間関係が対称),お互いのツイートを把握 IC モデルでは,時刻 t においてあるトピックの情報が伝播 することができる.本研究では,人間関係が対称と非対称な する確率 p(t) を次で表わす. 1 ネットワークの平均ノード間距離は小さいという性質 p(t) = 1 − (1 − α)(1 − β)j (1) ここで,α は企業のマーケティングによる影響,β は隣人に よるクチコミの影響,j は隣人の中でそのトピックに関して 2 次数分布がべき乗則にしたがうという性質 3 ネットワークに三角形が多く含まれるという性質 4 返信(@ユーザー名を冒頭に含むツイート) 5 引用(RT @ユーザー名を含むツイート) 6 言及(@ユーザー名を冒頭以外に含むツイート) 場合ではフォロー相手のツイート内容から受ける影響力が異 ここで,Zi は個人 i の過去のツイート数,zi1 は過去にリプ なるとする. ライした回数,zi2 は過去にリツイートした回数,zi3 は過去 にメンションした回数を表わす. 3.1.2. Twitter における情報伝播の定義 本研究では,あるユーザー A がツイートしたトピックに 関して別のユーザー B が “@ユーザー名 (A)” を含む形でツ イートしたとき,A が B に情報を伝播したと定義する.ま 4. 数値実験 4.1. 準備 本研究では Twitter API を用いてツイートの情報を取得 た,B がツイートしない場合は,A のツイートを把握した する.トピックとしては iPhone 5s と流行語大賞を対象とし が情報が伝搬しなかったと定義する. 検証を行なう.iPhone 5s は発売日の 2013 年 9 月 13 日,流 行語大賞は発表日の 2013 年 12 月 2 日のデータを活用し,取 3.1.3. 各ユーザーの属性の定義 本研究では,各個人の属性として次数(フォローしてい る人数)と総ツイート数,リプライ数,リツイート数,メン ション数を考える.総ツイート数,リプライ数,リツイート 数,メンション数に関しては,Twitter の従来研究で重要と 指摘されていたため考慮することとする. 得する情報としては各トピックのツイート内容(各トピック 300 ツイート)と個人の属性とする.また,ツイート内容のポ ジティブ,ネガティブ判定は Twitter API 上のテキストマイ ニングを活用することとする.最小二乗法を用いたパラメー タ推定の結果は表 1 のとおりである.ここで,ω1 , ω2 , ω3 , ω4 は人間関係が対称な場合のパラメータであり,ω1′ , ω2′ , ω3′ , ω4′ 3.1.4. ツイート内容の定義 は人間関係が非対称な場合のパラメータである.パラメータ 本研究では,ツイート内容として,ツイートしたフォロー の特徴として,対称なネットワークのパラメータはネガティ 相手に対しての過去のリプライ,リツイート,メンション経 ブなツイートか否かの反応パラメータ ω3 以外,非対称なネッ 験の有無を考える.これは,信頼度の高い相手に対してほど トワークのパラメータより大きな値をとることがわかる.こ リツイートなどを行なう傾向が強いことから,ツイート内容 れは,Twitter の特性上,非対称な人間関係では相手に気を の信頼性を考慮することと同義だと考える.また,Twitter 使うことなく情報を伝播しやすく,相手に気を使うネガティ の従来研究で指摘されているポジティブな内容かネガティブ ブなツイートに関しては,お互いに知り合いである対称な人 な内容かということと,URL や画像の有無も考慮すること 間関係より非対称な人間関係の方が情報を広めやすいためと とする. 考えられる. また,数値実験においてツイート内容を決定するために, 3.2. 提案モデル 本研究では,時刻 t でユーザー i があるトピックに関して ツイートする確率 pi (t) を次で表わす. pi (t) = 1 − (1 − α)(1 − βi )(1 − γi ) 含まれるツイートの発生確率を用いる.こちらの発生確率は 各トピックに対して 1000 件のツイートデータから算出して (2) このとき,α はトピックのインパクト,βi はフォロー相手に よるツイートの影響,γi は個人の属性による影響を表わす. フォロー相手によるツイートの影響 βi を次で表わす. ! Pni j=1 Yij βi=(ω1 Xret +ω2 Xpos +ω3 Xneg +ω4 XU RL ) (3) ni 制約条件 表 2 のポジティブツイート,ネガティブツイート,URL が いる.また,数値実験はポジティブな内容とネガティブな内 容が同じツイートに含まれない設定で行なう. 本研究の数値実験で扱うネットワークは,対称な人間関 係を多く持つネットワークと非対称な人間関係を多く持つ 表 1. パラメータ推定結果 ω 1 + ω 2 + ω3 + ω4 5 1 このとき,Xret , Xpos , Xneg , XU RL はフォロー相手の直近の iPhone 5s ツイートの内容とし,Xret はツイートをした人に対する過去 のリツイート等の経験の有無,Xpos はポジティブなツイー トか否か,Xneg はネガティブなツイートか否か,XU RL は 流行語大賞 ツイート内の URL の有無,Yij はフォロー相手 j がそのト ピックに関してツイートしたか否かを表わすバイナリ変数で ある.また,ni は i のフォローしているユーザーの数であ γi = zi1 + zi2 + zi3 Zi (4) ω1′ ω2′ ω3′ ω4′ 0.089 0.092 0.158 0.116 ω1′ ω2′ ω3′ ω4′ 0.083 0.063 0.235 0.095 表 2. ツイート内容の発生確率 り,ω1 , ω2 , ω3 , ω4 はそれぞれの変数に対する反応パラメー タである.個人の属性 γi は次式で表わす. α 0.000542 ω1 0.153 ω2 0.101 ω3 0.134 ω4 0.147 α 0.000863 ω1 0.127 ω2 0.085 ω3 0.194 ω4 0.103 ポシティブ iPhone 5s 流行語大賞 0.233 0.145 ネガティブ 0.167 0.393 URL 0.098 0.142 500 ኻ⒓ 㕖ኻ⒓ 400 300 ኻ⒓ 㕖ኻ⒓ 20,000 ᐲᢙ ᐲᢙ 25,000 300 200 15,000 100 200 10,000 100 5,000 0 0 0 6 1 2 3 4 5 7 8 6 7 9 8 10- 9 10- ⷙᮨ㧔ੱ㧕 Informedߦߥߞߚੱᢙ㧔ੱ㧕 図 1. iPhone 5s の informed の人数 500 20,000 ኻ⒓ 㕖ኻ⒓ 400 300 200 ኻ⒓ 400 㕖ኻ⒓ 300 15,000 ᐲᢙ ᐲᢙ 図 3. iPhone 5s の情報伝播の規模 200 100 10,000 0 3 100 5,000 0 0 1 Informedߦߥߞߚੱᢙ㧔ੱ㧕 2 3 4 5 4 5 6 6 ▸࿐㧔ੱ㧕 図 2. 流行語大賞の informed の人数 図 4. iPhone 5s の情報伝播の範囲 ネットワークとし,Jackson and Rogers [3] で示されたネッ の informed になった人数の平均値を表わす.また,図 3,4 は トワーク生成アルゴリズムにより生成する.また,各ネット iPhone 5s の情報伝播の規模と範囲を表わしている.情報伝 ワークのユーザー数は 500 とする.数値実験は下記の手順で 播の規模とはユーザーのツイートに対してリツイートなどを 行なう. 行なったフォロワーの人数を表わし,範囲とはユーザーのツ • 初期 t = 0 では,全ユーザーが uninformed(ツイート していない)の状態とする. イートがフォロワーのリツイートなどによってどこまで遠く に情報が伝播したのかを表わす指標である.まず表 3 から, • 前期においてフォロー相手がトピックに関してツイー 対称なネットワークの方が平均的に多くの人に情報伝播して トしていない場合は式 (2) にしたがいトピックのイン いることがわかる.これは,対称なネットワークにおいては パクトのみによって,ユーザーがツイートするか否か ネットワーク内に密な部分が存在する可能性が高いため,図 を決定する. 3 で示すように非対称なネットワークに比べて規模の大きな • 前期においてフォロー相手のうち少なくとも一人がト 情報伝播が起こりやすく,その密な部分で効率的に情報が伝 ピックに関してツイートした場合,式 (2),(3),(4) に 播しているためと考えることができる.次に,図 1,2 から非 したがいユーザーはそのフォロー相手のツイート内容 対称なネットワークでは稀に非常に多くの人に情報伝播する とトピックのインパクト,個人の属性によってツイート ことがわかる.これは,非対称なネットワークにおいては対 するか否かを決定する. 称なネットワークに比べて密な部分が存在しにくい代わりに • ユーザーが informed(ツイートをした)になった場合 各ユーザーが多くの人と関わりを持つことで,図 4 で示す は,ツイート内容を表 2 の発生確率によって決定する. • 期間は 100 とし,t = 100 まで上記の手順を繰り返す. 表 3. informed の人数の平均値 4.2. 結果 図 1,2 は,数値実験を 1000 回繰り返した際に最終的に informed になった人数のヒストグラムを表わし,表 3 はそ iPhone 5s 流行語大賞 対称 非対称 59.3 65.3 48.8 58.2 65 660 640 60 ಽᢔ ᐔဋ୯ 620 55 50 600 580 560 45 540 40 520 0 0.2 0.4 0.6 0.8 1 ࡀ࠶࠻ࡢࠢߦ߹ࠇࠆ㕖ኻ⒓ߥੱ㑆㑐ଥߩഀว 0 0.2 0.4 0.6 0.8 1 ࡀ࠶࠻ࡢࠢߦ߹ࠇࠆ㕖ኻ⒓ߥੱ㑆㑐ଥߩഀว 図 5. informed の人数の平均値 図 6. informed の人数の分散 ように対称なネットワークに比べて範囲の広い情報伝播が起 な部分において安定的に情報が伝播したためと考えられる. こったためと考えることができる.最後に,図 1 と図 2 を比 また,人間関係が非対称なネットワークにおいては,図 1,2 べて,流行語大賞の方が iPhone 5s よりも情報伝播している で示したように稀に非常に多くの人に情報伝播することがあ ことがわかる.これは,流行語大賞の方がトピックのインパ るため分散が大きくなったと考えられる. クト α が大きく,自発的に情報を流す人が多く存在したた めとと考えられる. 以上から,企業が効率的で安定的に情報を伝播するために は,人間関係が対称であるネットワークを対象にマーケティ 以上のことから,企業が Twitter を用いて多くの人に情報 ング活動を行なうことが重要だといえる.また,効果的なツ 伝播をするためには,対称なネットワークを対象としてマー イート内容を見極めることでより効果的に情報を伝播するこ ケティング活動を行なうべきである.しかし,対称なネット とが可能になるといえる. ワークでは情報がある密な部分にだけ留まる可能性がある ので,より広範囲に情報を広めるためには,非対称なネット ワークを効果的に活用すべきである.また,トピックのイン パクトが情報伝播に与える影響は非常に大きいことから,企 業はインパクトの大きなマーケティング活動を積極的に行な うべきであるといえる. 4.3. 感度分析 感度分析として,ネットワークに含まれる非対称な人間 関係の割合を変化させて数値実験を行なう.図 5 は iPhone 5. おわりに 本研究では,Twitter の特性を考慮した社会的ネットワー ク上の非対称な情報伝播を分析するモデルを構築した.その モデルを用いた数値実験を通して,企業が効率的で安定的に Twitter 上で情報を伝播するためには,対称な人間関係の多 いネットワークをターゲットとしてマーケティングを行なう ことが重要だとわかった.また,広範囲に情報を伝播するた めには非対称なネットワークを効果的に活用する必要がある ことがわかった. 5s のパラメータを用いて 1000 回数値実験を行なった際の 今後の課題としては,別のトピックを対象として数値実験 informed の人数の平均値を表わす.図 5 から人間関係が対 を行なうこと,様々な特徴を持ったネットワークで数値実験 称であるほど,多くの人に情報が伝播することがわかる.こ を行なうことが挙げられる. れは,人間関係が対称であるほどネットワークに密な部分が 存在する可能性が高まり,その密な部分において情報が効率 的に伝播したことと,表 1,2 からパラメータの値が大きく比 較的リツイートなどがされやすいポジティブなツイートの 発生確率が高いためと考えられる.また,人間関係が非対称 なネットワークにおいては,表 1,2 で示しているようにパラ メータの値が大きく情報伝播しやすいと考えられるネガティ ブツイートの発生確率が低いため,多くのユーザーに情報伝 播しなかったと考えられる.図 6 は iPhone 5s のパラメータ を用いて 1000 回数値実験を行なった際の informed の人数 の分散を表わす.図 6 から人間関係が対称であるほど,分散 が小さく安定的に情報が伝播することがわかる.これは,人 間関係が対称であるネットワークに存在する可能性の高い密 参考文献 [1] Kwak, H., Lee, C., Park, H. and Moon, S.: “What is Twitter, a social network or a news media?,” Proceedings of the 19th international conference on World wide web, ACM (2010) [2] Goldenberg, J., Libai, B., and Muller, E.: “Talk of the network: A complex systems look at the underlying process of word-of-mouth,” Marketing letters, Vol.12, No.3, pp.211-223 (2001) [3] Jackson, M.O. and Rogers, B.W.: “Meeting Strangers and Friends: How Random are Social Networks?,” The American Economic Review, Vol.97, pp.890-915 (2007)