...

電子情報通信学会ワードテンプレート (タイトル)

by user

on
Category: Documents
21

views

Report

Comments

Transcript

電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2015 D3-3
比較に基づいたオブジェクト選別支援ためのレビューランキング手法
趙 耕弘†
角谷 和俊‡
牛尼 剛聡‡
†九州大学大学院芸術工学府 〒815-8540 福岡県福岡市南区塩原 4-9-1
‡兵庫県立大学環境人間学部 〒670-0092 姫路市新在家本町 1 丁目 1-12
‡九州大学大学院芸術工学研究院 〒815-8540 福岡県福岡市南区塩原 4-9-1
E-mail: †[email protected],
‡[email protected],
‡[email protected]
あらまし 近年,インターネット上で,映画や書籍などのオブジェクトの選別が行われるようになった.オブジェクトの選別に
おいてユーザレビューは重要な役割を果たす.しかし,ユーザレビューが大量に存在する場合には,選別に効果的なレビュ
ーを見つけることが困難である.本研究では,ユーザが検索や推薦などによって絞りこまれた2個の候補オブジェクトから1個
を選別することを支援するために,ユーザレビューをランキングする手法の開発を目標としている.本論文では,候補オブジ
ェクトの共通特徴と固有特徴という観点から単語の重み付けをする手法を提案する.そして,その重み付け手法を用いて,レ
ビューをランキングする手法を検討する.
キーワード
レビュー,ランキング,選別支援
1. は じ め に
る た め に , い く つ か の 試 み が な さ れ て い る . Amazon
近 年 , 社 会 の 発 展 とともに , 我 々は 生 活 を する様 々な 局
で は 「この レビ ューが 参 考 に なった 」と いう レビ ュー に 対 す る
面 において 選 択 肢 が 多 くなった. 毎 日 その日 に着 る服 を 選
評 価 を登 録 することができる.YAHOO 映 画 では,「役 立 ち
んだり,昼 食 を食 べる店 を選 んだり,我 々は,毎 日 ,いくつの
度 」という映 画 レビューに対 する評 価 を登 録 できる.これらの
選 択 から一 つを選 ぶことを行 っている.現 在 ,Web 上 には膨
レビューに対 する評 価 に基 づいたレビューランキングを利 用
大 な コンテンツ や 商 品 が 存 在 し, 我 々はそれ ら の 膨 大 な 候
すると,ユーザは有 用 なレビューを発 見 できる可 能 性 が高 く
補 の中 から,一 つを選 別 することが多 い .大 量 のオブジェク
な る. し か し, 上 記 の レビ ュー ランキン グ 手 法 は 比 較 す る 時
ト か ら , ユ ー ザ の 要 求 に 合 致 し た 対 象 を 発 見 す るた めに は
にあまり役 に 立 たないことが 多 い. 選 別 においては, 同 じ 種
検 索 が利 用 されることが多 い .しかし, 一 般 に,検 索 条 件 を
類 で,類 似 点 が 多 い オ ブ ジ ェ ク ト か ら , 一 つ を 抽 出 す
満 足 す るオ ブ ジ ェ ク ト は 複 数 存 在 し , 検 索 結 果 の 中 か ら ユ
る作業が必要となる.一つを選ぶ時に,オブジェクト
ーザ が 自 分 の 目 的 に 適 し た 一 つ のオ ブジ ェ ク ト を 選 別 す る
の間の異なる特徴を探すのはもっと難しい.
必 要 がある.その際 に,候 補 となるオブジェクトを比 較 するこ
そこで,本研究では,ユーザが選別の候補として指
とが重 要 である.しかし,これまで,ユーザの選 別 のためにオ
定した2オブジェクトに関して,それぞれのオブジェ
ブジェクトを効 果 的 に比 較 する機 構 に関 する研 究 は十 分 に
クトの特徴を知るために適したオンラインレビューの
行 われてきているとは言 えない.
ランキングを行う手法を開発することを目的とする.
楽 天 1 ,Amazon 2 などのネットショッピングサイト には,ユー
本論文では,ユーザが指定した2オブジェクトに
ザが,自 分 の買 った商 品 についてレビューを書 くことが提 供
関して,それらのユーザレビューから,自動的にいく
されている.その他 にも,食 べログ 3 ,YAHOO 映 画 4 などのサ
つのオブジェクトの共通の特徴と固有の特徴を明確に
イトでは,飲 食 店 ,映 画 などの対 象 についてレビューが多 数
して,それぞれの特徴が表現されているという観点か
投 稿 されている.これらのレビューはユーザが選 択 する時 に
ら,ユーザレビューのランキングを行う手法を提案す
重 要 な役 割 を果 たしている. しかし,ユーザが選 別 のために
る.
レビューを利 用 する場 合 には,いくつかの問 題 点 がある.ま
2. 関 連 研 究
ず,ユーザが大 量 のレビューを全 部 読 むことは 困 難 である.
近 年 ,ユーザレビューについての研 究 が多 く行 われてい
また , ユ ー ザは 膨 大 な レ ビ ュ ーか ら オブ ジ ェ ク トの 特 徴 を 発
る.これらの研 究 は,大 きく2種 類 に分 類 できる. 一 つは,ユ
見 するのは困 難 である. したがって,選 別 に必 要 なレビュー
ーザレビューをランキングする手 法 であり,もう一 つはユーザ
を発 見 することが困 難 である.
レビューから,ユーザの観 点 を抽 出 することである.
大量のレビューの中から有用なレビューを発見す
2.1
レビューの価 値 を推 定 する研 究
ユ ー ザ レビ ュー の 価 値 を 推 定 す る 研 究 は , ユ ー ザ レビ ュ
1
2
3
4
http://www.rakuten.co.jp/
http://www.amazon.co.jp/
http://tabelog.com/
http://movies.yahoo.co.jp/
ー の 特 徴 に 基 づ いて レビ ュー の 価 値 を 推 定 す る アル ゴリ ズ
ムを開 発 することである.Zhang ら[1]はテキストのセンチメン
ト情 報 を利 用 して,ユーザレビューの実 用 性 を 推 定 する.彼
図 1:データの収 集 と前 処 理 のイメージ
らは, 回 帰 モ デル を 利 用 して , 実 用 性 の 高 さを 予 測 す る 手
法 を提 案 している.Moghaddam ら[2]は,ユーザごとに,レビ
ュー の 質 が 異 な るユ ー ザ の た めに 等 価 で は な いか も し れ な
いと 考 え ,レ ビ ュー の 有 用 性 をパ ーソナ ラ イズ して 推 定 す る
手 法 を提 案 している.彼 ら は ,レ ビ ュ ー と 評 価 者 間 の 社
会的ネットワークを利用して提案手法を拡張すること
も 検 討 し て い る .ま た ,Moghaddam ら[3]はユーザレビュ
ーから特 徴 及 び 特 徴 の 相 関 ス コ ア を 抽 出 す る た め , 三
つ の 確 率 モ デ ル を 導 入 し ,ILDA と い う 新 し い LDA モ
デルを提案している.
2.2
レビューからユーザの観 点 を抽 出 する研 究
3.2
比 較 する特 徴 の計 算
近 年 ,レビューからユーザの観 点 を抽 出 する研 究 も 数 多
本 節 では,比 較 に基 づいたオブジェクト選 別 支 援 手 法 を
く報 告 されている.中 国 のショッピングサイト Taobao 5 はユー
説 明 する.本 論 文 では,二 つのオブジェクトに対 しての選 別
ザレビューから,ユーザの観 点 を抽 出 し,直 感 的 にユーザに
を対 象 とし,二 つ以 上 のオブジェクトの選 別 は 将 来 の研 究
提 示 する手 法 を提 案 している.Moghaddam ら[4]は商 品 の
で検 討 する. 二 つのオブジェクトを比 較 するため, 我 々はそ
重 要 な 観 点 を 抽 出 す るた め , 教 師 な し 機 械 学 習 手 法 を 用
れぞれの単 語 の,それぞれのオブジェクトにおける重 要 度 を
い,商 品 のレビューから,完 璧 ,良 い,普 通 ,悪 い,ひどい,
考 える.
という,5 つの満 足 度 を推 定 する手 法 を提 案 している.Lin ら
例 として,「永 遠 の 0」と「プライベート・ライアン」という二 つ
[5]はレビューの質 を決 定 するための集 合 を用 いて,低 品 質
の映 画 を 比 較 す ることを 考 え る.このとき, 一 つ の 映 画 に 関
の商 品 レビューから有 用 性 の観 点 を抽 出 する手 法 を提 案 し
するレビ ューを 結 合 して 一 つ の文 書 と したとき, 作 品 にお け
ている.
るそれぞれの単 語 の TFIDF 値 を計 算 することができる.いま,
このよう に,レ ビューに 関 する研 究 は 数 多 く 行 われている
比 較 対 象 とする2オブジェクト𝑂1 , 𝑂2 に対 するある単 語 w の
が,2 つのオブジェクトを比 較 するためにレビューをランキン
TFIDF の値 を(tfidf(w, 𝑂1 ), tfidf(w, 𝑂2 ))と表 現 すると,単 語
グする手 法 については研 究 されていない.
の重 要 度 は 𝑂1 に対 する重 要 度 をx軸 ,𝑂2 に対 する重 要 度 を
3. 対 象 の 比 較 と 特 徴 の 計 算
y 軸 とする平 面 上 の1点 として表 現 できる.図 1に,「 永 遠 の
本 節 では,比 較 に基 づいたオブジェクト選 別 支 援 手 法 に
ついて具 体 的 に説 明 する.3.1 節 と 3.2 節 では,データの前
0」と「プライベート・ライアン」を対 象 として,ソレラの映 画 に出
現 する単 語 を平 面 上 にマッピングした図 を示 す.
処 理 について説 明 する.3.3 節 は特 徴 的 な単 語 についての
図 2:比 較 の例
計 算 方 法 について説 明 する.3.4 節 は最 後 の特 徴 レビュー
の計 算 方 法 について述 べる.
3.1
データの収 集 と前 処 理
本 研 究 は商 品 ,店 ,映 画 などのことをオブジェクトとして,
これらのユーザレビューを 対 象 とする. 本 論 文 は 例 題 とし て,
映 画 のユーザレビューを用 いる.我 々は JSOUP 6 というライブ
ラリを利 用 して,HTML 解 析 で YAHOO 映 画 がら公 開 されて
いる映 画 600件 と約 22万 件 のレビューを収 集 した.
収 集 したデータに対 して,形 態 素 解 析 を 行 った.形 態 素
解 析 については, Mecab を利 用 した.次 に,解 析 した単 語
の 重 要 度 を 計 算 す る . 重 要 度 の 計 算 の た め に , TF 値 と
TFIDF 値 を利 用 する.膨 大 な文 本 データの TF 値 と TFIDF
次 に2つのオブエクトに 共 通 の特 徴 と 固 有 の 特 徴 を 分 け
値 を計 算 するため,我 々は Hadoop を利 用 する.我 々 は ,
るために,二 つの閾 値 を 設 定 する. 図 1では,見 やすさのた
形容詞と形容動詞を特徴単語として利用する.計算し
め, 閾 値 を 黒 い 線 で 表 示 し ている . 青 い 部 分 は2つの 映 画
た特 徴 と特 徴 の重 要 度 は Hbase という「Big Table」データベ
に共 通 の特 徴 であり,黄 色 いと赤 の部 分 は固 有 の特 徴 であ
ースで保 存 する.
る.単 語 から原 点 までの直 線 と 横 軸 の 角 度 は 以 下 で 計 算
する.
5
6
http://www.taobao.com/
http://jsoup.org/
θ1 =𝑡𝑎𝑛−1
𝑡𝑓𝑖𝑑𝑓(𝑤1 ,𝑂1 )
𝑡𝑓𝑖𝑑𝑓(𝑤1 ,𝑂2 )
(1)
(8)
共 通 の特 徴 の中 に,二 等 分 線 から遠 い点 は近 い点 よりも
重 要 な共 通 の特 徴 であると考 えられる.そこで,以 下 の式 に
よって共 通 の特 徴 量 を計 算 する.
特 徴 量 とコサイン相 関 値 のバランスを取 るため,以 下 の計
算 式 によりレビューの重 要 度 を計 算 する.
𝑅𝑒𝑣𝑖𝑒𝑤𝑄𝑢𝑎𝑛𝑡𝑖𝑡𝑦 = 𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑄𝑢𝑎𝑛𝑡𝑖𝑡𝑦 ∗ 𝐶𝑂𝑆𝑟𝑒𝑣𝑖𝑒𝑤&𝐹𝑒𝑎𝑡𝑢𝑟𝑒
(9)
𝑖𝑚𝑝𝑠𝑖𝑚 (𝑤1 , 𝑂1 , 𝑂2 )= sin(2 ∗ θ1 )
(2)
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑉𝑎𝑙𝑢𝑒(𝑤1 , 𝑂1 , 𝑂2 ) = ( 𝑡𝑓𝑖𝑑𝑓(𝑤1 , 𝑂1 ) +
𝑡𝑓𝑖𝑑𝑓(𝑤1 , 𝑂2 ) ) ∗ 𝑖𝑚𝑝𝑠𝑖𝑚 (𝑤1 , 𝑂1 , 𝑂2 )
図 3:結 果 のイメージ
(3)
固 有 の特 徴 に対 しては,横 軸 または縦 軸 から近 い点 は遠 い
点 よりも,重 要 な固 有 の特 徴 であると考 えられる.そこで,以
下 の式 により,固 有 の特 徴 量 を計 算 する.
𝑖𝑚𝑝𝑑𝑖𝑓𝑓 (𝑤1 , 𝑂)= |cos(2 ∗ θ1 )|
(4)
𝐷𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑡𝑉𝑎𝑙𝑢𝑒(𝑤1 , 𝑂) = ( 𝑡𝑓𝑖𝑑𝑓(𝑤1 , 𝑂) ) ∗ 𝑖𝑚𝑝𝑑𝑖𝑓𝑓 (𝑤1 , 𝑂)
4. 実 験 評 価
(5)
今 回 は, 閾 値 としては,30度 と60度 および,15度 と75度
本 研 究 の 手 法 の 有 効 性 を 検 証 す るため に, 予 備 実 験 を
の 2 組 の閾 値 で予 備 実 験 をおこなった.予 備 実 験 結 果 によ
行 った.予 備 実 験 として,まず単 語 の特 徴 度 の有 効 性 を 検
って,閾 値 は15度 と75度 を採 用 する.
証 し た . レビ ュー の ランキ ン グ に つ いて は ,ま た 実 験 方 法 を
本 研 究 では,オブジェクトの 選 別 に効 果 的 な レビューを発
見 す るこ と が 目 的 で あ る. 以 下 に レ ビ ュー の 重 要 度 の 計 算
方 法 を示 す.
検 討 している.
4.1.
実験目的
この実験の目的は単語の特徴度の有効性を検証す
3.2.1 レビューの特 徴 度 の計 算
ることである.本実験では,本手法で計算した二つの
レビューの特 徴 度 の計 算 については,データ前 処 理 で計
オブジェクトに対する単語の分類結果と被験者の分類
算 し た 特 徴 の 重 要 度 の デ ー タベ ース を 利 用 し , 各 レビ ュー
結果が一致する割合によって,有効性を評価する.
の特 徴 度 を計 算 する.
4.2
実験手法
被験者は,我々が収集した600件の映画の中で,
自分が一番知っている映画を 2 件選んで,この 2 件の
𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑄𝑢𝑎𝑛𝑡𝑖𝑡𝑦𝑠𝑖𝑚 = ∑ 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑉𝑎𝑙𝑢𝑒(𝑤𝑖 , 𝑂1 , 𝑂2 )
映画を検索対象として本手法によって特徴度を計算す
𝑖
(6)
る.そして,共通の特徴と特有の特徴に分類し,上か
𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑄𝑢𝑎𝑛𝑡𝑖𝑡𝑦𝑑𝑖𝑓𝑓 = ∑ 𝐷𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑡𝑉𝑎𝑙𝑢𝑒(𝑤𝑖 , 𝑂)
ら10個の単語,合計30個の単語を取って,ランダ
ムに並べる.被験者に,30個の単語を共通の特徴と
𝑖
(7)
2種類のそれぞれの映画の特有の特徴という,三つの
レビ ュー の 特 徴 度 だ け で レビ ュー を 重 み 付 け を 行 っ た 場
グループに分類する.最後にユーザが分類した結果と
合 ,長 いレビューが重 要 度 が大 きくなる傾 向 があった.長 い
システムの計算結果はが一致する割合を計算する.
レビューは 短 いレビューよりもっと多 いの特 徴 を含 む可 能 性
4.3
が高 い. でも,重 要 な特 徴 を どのぐらい 含 むかどうかのは確
実験結果
被 験 者 5 人 が 選 ん だ 映 画 と 結 果 を 表 1 に 示 す .本 手
認 できない.
法で計算した特徴は被験者の判断との合う確率は約7
3.2.2 特 徴 ベクトルとのコサイン相 関 値
3%である.そして,本手法で抽出した単語の特徴度
重 要 な特 徴 を含 むレビューを探 すため,我 々は式 3と式 5
の結 果 とレビューの特 徴 をベクトルとし,レビューと共 通 特 徴
或 は固 有 特 徴 のベクトルのコサイン相 関 値 として,重 要 度 を
計 算 する.
𝐶𝑂𝑆𝑟𝑒𝑣𝑖𝑒𝑤&𝐹𝑒𝑎𝑡𝑢𝑟𝑒 =
に有効性があるということを検証した.
4.4
レビューランキングについての実験
こ の 実 験 で は ,抽 出 し た 単 語 の 特 徴 度 の 有 効 性 を 検
証できた.しかし,単語の特徴度に基づいたレビュー
∑𝑤𝑜𝑟𝑑 𝑂𝑐𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑒𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦∗𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑉𝑎𝑙𝑢𝑒
√∑ 𝑂𝑐𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑒𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 2 ∗√∑ 𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑉𝑎𝑙𝑢𝑒 2
ランキングについての検証はまだ行っていない.これ
らについての実験は現在検討中である.
表1:実験結果
映画1
アナと雪の女王
インセプション
タイタニック
パシフィック リム
名探偵コナン 異次元の狙撃手(スナイパー)
合計
5. ま と め
本 論 文 は 比 較 に基 づいたオブジェクト選 別 支 援 ためのレ
ビューランキング手 法 を提 案 した.提 案 手 法 では,二 つのオ
ブジェクトの共 通 の特 徴 と固 有 の特 徴 を含 むレビューをユー
ザに分 かりやすく提 示 することができ,オブジェクトの選 別 を
支 援 す る. 今 回 の 実 験 では , 単 語 の 特 徴 度 の 有 効 性 を 検
証 した.今 後 ,特 徴 を含 むレビューのランキングについ有 効
性 を検 証 する予 定 である.
参 考 文 献
[1] Zhu Zhang,Balaji Varadarajan,“Utility Scoring of
Product Reviews”, CIKM’06, November 5–11, 2006,
Arlington, Virginia, USA.
[2] Samaneh Moghaddam, Mohsen Jamali, Martin Ester,
“ETF: Extended Tensor Factorization Model for
Personalizing Prediction of Review Helpfulness” ,
WSDM’12,
February
8 –12,
2012,
Seattle,
Washington, USA.
[3] Samaneh Moghaddam, Martin Ester, “ILDA:
Interdependent LDA Model for Learning Latent
Aspects and their Ratings from Online Product
Reviews”, SIGIR’11, July 24–28, 2011, Beijing,
China.
[4] Samaneh Moghaddam, Martin Ester, “Opinion
Digger: An Unsupervised Opinion Miner from
Unstructured Product Reviews”, CIKM’10, October
26–30, 2010, Toronto, Ontario, Canada.
[5] Jingjing Liu, Yunbo Cao, Chin-Yew Lin, Yalou
Huang,Ming Zhou, “Low-Quality Product Review
Detection in Opinion Summarization ”, Proceedings
of the 2007 Joint Conference on Empirical Methods
in Natural Language Processing and Computational,
pp. 334–342, Prague, June 2007.
[6] Anindya Ghose, Panagiotis G, “Estimating the
Helpfulness and Economic Impact of Product
Reviews: Mining Text and Reviewer Characteristics”,
IEEE TRANSACTIONS ON KNOWLEDGE AND
DATA ENGINEERING, VOL. 23, NO. 10, OCTOBER
2011
[7] Anindya Ghose, Panagiotis G. Ipeirotis, “Designing
Novel Review Ranking Systems: Predicting the
Usefulness and Impact of Reviews”, ICEC'07, August
映画2
トランスフォーマー
ミッション:8 ミニッツ
もののけ姫
サマータイムマシン ブルース
サマーウォーズ
合 う 数 /総 数
25/30
23/30
20/30
24/30
20/30
112/150
19{22, 2007, Minneapolis, Minnesota, USA.
[8] Jianxing Yu, Zheng-Jun Zha, MengWang, Tat-Seng
Chua, “Aspect Ranking: Identifying Important
Product Aspects from Online Consumer Reviews ”,
Proceedings of the 49th Annual Meeting of the
Association for Computational Linguistics, pages
1496–1505, Portland, Oregon, June 19 -24, 2011.
[9] M. P. O’Mahony, B. Smyth, “Learning to recommend
helpful hotel reviews”, Proceedings of the third ACM
conference on Recommender systems - RecSys ’09, p.
305, 2009.
[10] Y. Liu, X. Huang, A. An, and X. Yu, “Modeling and
predicting the helpfulness of online reviews”,
ICDM’08. IEEE, 2009, pp. 443–452.
[11] 松 尾 昇 ,牛 尼 剛 聡 , “差 異 を明 確 化 する「たとえ」の
提 示 に よ るコンテ ンツ 選 別 支 援 手 法 ”, DEIM Forum
2014
[12] P. Chaovalit and L. Zhou, “Movie review mining: a
comparison between supervised and unsupervised
classification approaches”, Proceedings of the 38th
Annual Hawaii International Conference on System
Sciences, vol. 00, no. C, pp. 112c–112c, 2005.
[13] L. Zhuang, F. Jing, and X.-Y. Zhu, “Movie review
mining and summarization”, Proceedings of the 15th
ACM international conference on Information and
knowledge management - CIKM ’06, p. 43, 2006.
[14] M. Hu and B. Liu, “Mining and summarizing
customer reviews”, Proceedings of the tenth ACM
SIGKDD international conference on Knowledge
discovery and data mining. ACM, 2004, pp. 168–177.
[15] C. L. A. Clarke, M. Kolla, G. V. Cormack, O.
Vechtomova, A. Ashkan, S. B¨uttcher, and I.
MacKinnon, “Novelty and diversity in information
retrieval evaluation”, Proceedings of the 31st annual
international ACM SIGIR conference on Research
and development in information retrieval, ser.
SIGIR ’08. New York, NY, USA: ACM, 2008, pp.
659–666.
[16] K. Dave, S. Lawrence, D. M. Pennock, “Mining the
peanut gallery: opinion extraction and semantic
classification of product reviews”, WWW ’03:
Proceedings of the 12th international conference on
World Wide Web, pages 519–528, New York, NY,
USA, 2003. ACM Press.
Fly UP