Comments
Description
Transcript
比較評価情報を用いた オブジェクトのランキング手法
テキストマイニング いまだかつてない検索サービス実現に向けたWeb コンピューティング技術 評判分析 グラフマイニング 比較評価情報を用いた オブジェクトのランキング手法 くらしま たけし 倉島 健 /藤村 本稿では,人々が比較評価した情報を用いて商品,人,店舗等の対象をラ おく まさひろ ンキングする技術を述べます.この技術は, 「他の競合する対象との関係か 奥 雅博 ふじむら こう 考 らその対象の価値を判断する」という,新たな意思決定のかたちを人々に提 NTTサイバーソリューション研究所 供します. Webに発信されるクチコミ情報 のような潮流の中で,人々が発信した の画質はきれいです」といった1つの 大量のクチコミ情報を自動で分析し, 対象に対する評価(単体評価)を用 * 現在,ブログやソーシャル・ネット 対象 の価値を導出する評判分析技術 いて商品をランキングするものでした. ワーキング・サービス上を中心に,商 の必要性が高まっています.本稿では, 例えば,商品Aを購入した人のAに対 品を実際に使用した人々がその商品に 人々が発信するクチコミの中でも特に, する「悪い」という評価と,商品Bを 対する評価を発信するようになりまし 複数の対象を実際に使用した人々が 購入した人のBに対する「良い」とい た.このような,いわゆるクチコミ情 「比較評価」した情報を,対象の価値 う評価とを組み合わせて「商品B>商 報は,商品を提供する側が発信する広 を測る重要な手掛かりとして分析し, 品A」という関係を導き出します.し 告情報とは異なり,利害関係抜きで率 対象を精度高くランキングする技術を かし,商品Aの評価者と商品Bの評価 直に書かれます.そのため,これらの 紹介します. 者が異なる場合,つまり,不特定多数 情報を有効に利活用すれば,実際に商 比較評価した情報の価値 品を使用した消費者が選ぶ,真に良い これまでの評判分析技術は「商品A 商品にたどり着くことができます.こ の人々の評価を組み合わせて扱う際に 問題となっていたのが,評価内容の個 人差でした.例えば,同じ商品でも, その商品分野に詳しい人は他の良い商 品を知っている可能性があるので辛い 評価をつけるでしょうし,初めてその AとCを両方とも 使用した人 AよりCのほうが良い C A 分野の商品を購入した人は他の商品に 詳しくないので,甘い評価をつけるか もしれません.複数の人の評価の組み 合わせから導き出した対象間の優劣は 信頼性に乏しいといえます. CのほうがBより素晴らしい AのほうがBより良い が商品Bより良い」といった,人々が B Bは素晴らしい 対象 Bはイマイチ 比較評価 Bを使用したが,AとCを 使用していない人 図1 単体評価と比較評価との関係 46 複数の対象を比較評価した情報(比 較評価情報)に着目しました.図1の 人(評価者) 単体評価 そこで,本技術では「商品Aのほう NTT技術ジャーナル 2009.1 赤線で示すように,比較評価情報は, 複数の対象を使用した広い視野を持つ * 対象(オブジェクト):商品,人,店舗,場所 等を指し示す用語. メディアコンピューティングの追求 特 集 人が導き出す優劣です.これに着目す を抽出する技術ですので,評価対象 ることで,評価者間の個人差の問題も (カメラA)と比較対象(カメラB)の なく,信頼性高く対象の優劣を得るこ 抽出が主な技術的課題となります.本 とができます. 技術では,比較文に特徴的な「より」 比較評価情報に基づく対象の ランキング技術 べます. 人間の購買行動モデル 得られた比較評価情報の集合をヒン 「のほうが」などの言語パターンを手掛 トに,より良い対象を求めて次々に移 かりとして,精度高く比較評価情報を 動していく人々を想定し,最終的にそ 抽出します. れぞれの対象にどのくらい多くの人が Web上に存在する,人々が比較評 次に,抽出した大量の比較評価情 集中するかを求めることで,対象をス 価した情報を基に,対象をランキング 報を集約してすべての対象をランキン コア付けしようというのが本技術のア する本技術の概要を説明します.最初 グします.2つの対象のうちのどちら イデアです. のステップは,「{カメラA}のほうが が良いか多数決をとった場合,その優 手法を直感的に理解してもらうため {カメラB}より{デザイン}が{良 劣が評価者全員一致のもとに決定する に,スーパーマーケットの売り場にお い}」という4つ組{評価対象,比較 ケースはごく稀です.「AよりBのほう ける客Cの行動について考えます.Cは 対象,属性,評価}からなる比較評 が好きだ」と言う人もいれば, 「Bより 商品Xからスタートして次々に商品を 価情報の抽出です(図2(a)).この情 Aのほうが好きだ」と言う人もいるの 見て行きます.Cの次の選択は,以下 報を人々のクチコミが記述されたWeb が自然だと思います.次の項では,こ のいずれかです. 文 書 から抽 出 します. 従 来 技 術 は, れらの情報を全体としてうまくまとめ ① 目の前の商品Xの前にとどまる. 「{カメラA}の{デザイン}が{良い}」 あげ,多くの評価者にとって納得のい ② Xの隣に陳列されているn個の競 という3つ組{対象,属性,評価} くランキング結果を導き出す手法を述 合商品Y 1 , Y 2 ,…Y n の前に移動 Web文書 Web文書 評価 属性 評価対象 綺麗 画質 A 悪い 性能 A B A C 良い 比較対象 B グラフの“高さ”が対象の 評価値を表現 (a) 比較評価情報の抽出 ノードが対象を表現 (b) 購買行動モデルに基づく グラフの生成(2次元) (c) グラフ構造に基づく 対象のランキング エッジが対象の比較関係を表現. エッジの“重み”は両者の 優劣から導出 図2 技術の全体像 NTT技術ジャーナル 2009.1 47 いまだかつてない検索サービス実現に向けたWeb コンピューティング技術 する. のしやすさ」を示す重みが与えられま とも良い商品はどれかといった情報 もし,今見ている商品Xよりも良い す.例えば,「XよりYのほうが良い を容易に発見することができます.な 商品が少ない場合には,人はその場所 (Y>X)」と述べた評価者の数が,そ お図中のグラフの可視化においては にとどまり,商品Xを見続けるでしょ の逆の「YよりXのほうが良い(X> NTTコミュニケーション科学基礎研究 う(①を選択).逆に,商品Xよりも Y)」と述べた評価者の数よりも大きけ (3) 所のグラフ可視化技術を用いました . 良い商品が数多く存在するのであれば, れば,ノードXからノードYへのエッジ 客は他の商品Y i(1≦ i ≦n)に目移 の重みはその逆方向の重みより大きく りしてXの前を去ることでしょう(② なります(重み算出方法は参考文献 を選択).他の商品に移る場合には, 商品Xよりも良いという評価の多い商 (1), (2)を参照) . 比較検索システム 前述した技術に基づき,人々の「過 去に商品を購入した人々のクチコミ情 最後に,生成したグラフ上を動き回 報を参考にし,複数候補の中から1つ る人が,それぞれの状態にたどり着く を選択する」行為をサポートするシス 本技術ではこのような人間の購買行 確率を求めて評価値とします(図2 テムを開発しました.システムの構成 動をグラフで表現します(図2(b)). (c)).生 成 したグラフを可 視 化 して を図3に示します.このシステムへの 対象(商品)はグラフのノード(頂 ユーザに提示することで対象間の関係 入力は,商品名,人名,地名,店舗名 点),商品から商品への経路はグラフ 性を直感的に把握することができます. などのユーザが興味ある1つ,もしく をつなぐエッジ(辺)です.エッジに 図 2 のグラフ中 のノードの「 高 さ」 は比較したい複数の対象名で,その は方向が存在し(有向グラフ),各々 は, その対 象 の評 価 値 を表 します. ジャンルは問いません.システムは収 のエッジには「対象から対象への移動 これにより,競合商品群の中でもっ 集した記事からあらゆるジャンルの比 品Y i ほど選択されやすいはずです. ユーザインタフェース システムが定期的に実行 クエリ あらゆるジャンルの 比較評価情報を抽出(クエリ非依存) ③ ● AよりBのほうが良い 関連する比較評価 情報の集約 ① ● 映画 商品 人 ユーザが興味ある単一,もしくは 比較したい複数の対象名 ② ● BよりCのほうがダメ 出力 クエリとの 関連性判定 CはDに似ている 入力 クエリと関連する 比較評価情報の 集計結果 Web 比較評価情報 (クエリ依存) 比較評価 情報の抽出 記事データベース (ブログ,SNS等) 比較評価情報 (クエリ非依存) ④ ● 購買行動モデルによる グラフの生成 ⑤ ● グラフ構造に基づく 対象のランキング 図3 比較検索システムの構成 48 NTT技術ジャーナル 2009.1 ⑥ ● 対象間の関係とランキング結果を 可視化した結果 特 集 今後の展開 クエリ入力部: 興味のある対象を クエリとして入力 今後は,従来の単体評価情報によ るランキング結果との比較実験を通し 比較対象提示部: クエリの比較対象を提示 類似度提示部: プ総合ポータル「g o o 」上での一般 ユーザ向けのサービス,または企業向 比較評価情報の 抽出元文書を検索 集計結果提示部: (4) 「クエリのほうが良い」と記述した人が1人, 「比較対象のほうが良い」と記述した人が4人いることを意味 図4 システムの画面イメージ 較評価情報を抽出し,データベースに 示します(比較対象提示部).また, 蓄えるまでの処理をあらかじめ実行し クエリと比較対象との優劣を棒グラフ ておきます.ユーザがクエリを入力す で一瞥することができます(集計結果 ると,関連する情報のみ(クエリが人 提示部).例えば,図4の集計結果提 名であれば人どうしの比較評価情報の 示部でフォーカスした集計結果は,「ク み)を自動で抽出・提示します. エリのほうが良い」と記述した人が1 システムの出力モードは2つ存在し 人,「比較対象のほうが良い」と記述 ます.第1は,図2のようなグラフを した人が4人いることを意味します. 可視化した形式での提示です.第2は また,「クエリと比較対象が似てい クエリと直接比較されている対象に る」といった類似関係を述べた情報も フォーカスし,詳細な抽出結果を提示 抽出して提示します(類似度提示部) . するモードです.その画面イメージを 比較対象をクリックすれば,比較評価 図4に示します.図4の画面イメージ 情報の抽出元文書を参照することも可 はクエリ入力部,比較対象提示部, 能です. 集計結果提示部,類似度提示部の4 このシステムは,個人の経験に左右 つのパーツから構成されます.ユーザ されやすい単体評価ではなく,他の競 が,商品名,人名,地名といったキー 合する対象との関係性から対象の価値 ワードをクエリとして与えると(クエリ を判断するという新たな情報検索のフ 入力部),システムはそのクエリと文書 レームワークを提 供 するものといえ 中で直接比較されている対象を自動で ます. 抽出し,比較回数の降順にユーザに提 本稿で紹介した技術は,NTTグルー クエリと比較対象との 類似度を提示 クリック (1) て本技術の有効性を検証していきます. けマーケティングツールとしての商用化 を目指し,研究開発を進めています. ■参考文献 (1) 倉島・別所・戸田・内山・片岡・奥:“比較 評 価 情 報 に 基 づ く ラ ン キ ン グ 手 法,” 日 本 デ ータベース学会Letters,Vol.6,No.1, pp.5-8,2007. (2) T. Kurashima,K. Bessho,H. Toda,T. Uchiyama,and R. Kataoka:“Ranking Entities Using Comparative Relations,”In Proc. of DEXA 2008,pp.124-133,2008. (3) T. Yamada,T. Saito,and K. Ueda:“CrossEntropy Directed Embedding of Network Data,”In Proc. of ICML 2003,pp.832-839, 2003. (左から)藤村 奥 考/ 倉島 健/ 雅博 便利な,そして充実した生活を人々が送 れることを目指し,斬新なアイデアを世の 中に発信し続けていきたいと思います. ◆問い合わせ先 NTTサイバーソリューション研究所 メディアコンピューティングプロジェクト TEL 046-859-2198 FAX 046-855-1730 E-mail kurashima.takeshi lab.ntt.co.jp NTT技術ジャーナル 2009.1 49