概念グラフを使った推薦 - 廣川研究室へ

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 概念グラフを使った推薦 - 廣川研究室へ

Transcript

概念グラフを使った推薦 - 廣川研究室へ

社団法人電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
概念グラフを使った推薦
下司
義寛†
廣川佐千男††
† 九州大学大学院システム情報科学府〒 819-0395 福岡市西区大字元岡 744
†† 九州大学情報基盤研究センター〒 812-8581 福岡市東区箱崎 6-10-1
E-mail: †[email protected], ††[email protected]
あらまし
本稿では , 利用者ごとの好みの映画リストを文書, リストに含まれる映画を単語と考え, 単語の上位下位関
係を抽出し可視化する概念グラフを映画の推薦に応用する. 映画タイトルを入力すると , MovieLense のデータから関
連する映画を求め, 共起頻度に基づき上位下位の関係を可視化するシステムを実装した. ユーザが面白いと思う映画の
推測を行ない, ユーザの類似度を用いる協調フィルタリングによる推薦方法と比較して , 提案手法は 10 倍の効果があ
ることを検証した.
キーワード
推薦, MovieLens, 概念グラフ, 協調フィルタリング
Recommendation System using Concept Graph
Yoshihiro SHIMOJI† and Sachio HIROKAWA††
† Graduate School of Information Science and Electrical Engineering, Kyushu University
†† Research Institute of Information Technology, Kyushu University
E-mail: †[email protected], ††[email protected]
Abstract This paper presents a recommendation system of movies based on the notion of Concept Graph, which
extracts important keywords from given a set of documents and visualizes their relationships as a directed graph.
When titles of movies are sent as query, the system retrieves the list of users who like the movies from the MovieLens
dataset and recommends related movies as a directed graph. Effectiveness is evaluated by ROC(Rate of Collecting),
which is the percentage of the successful guess of favourite movies of the user. The proposed system is ten times
effective compared to a naive method which recommends favourite movies of similar users.
Key words Recommendation, MovieLens, Concept Graph, Collaborative Filtering
1. まえがき
今日, WWW 上は我々がいつでも自由に閲覧可能な情報で溢
れている. しかし, 大量の情報の中から, 自分の必要とする情報
を効率よく入手することは容易ではない. 情報検索はユーザが
自らの必要とする情報をクエリを使って手に入れる技術である
各ユーザの好みの映画タイトルのリストを文書, 映画タイト
ルを単語とすることで , ユーザにとって未知の映画を発見する
システムを実装し, 評価実験を行った.
2. 関連研究
協調フィルタリングはユーザの各アイテムに対する好みの情
が, クエリをユーザが単語と記号を使って表現する必要がある.
報から, 特定のユーザの好みと類似した別のユーザあるいはそ
ユーザが未知の単語を使うことは出来ず, 全く知らないことは
のユーザの好きなアイテムと類似した別のアイテムを抽出し,
検索できない. また, 空白区切りによる AND 検索など検索シ
ユーザのまだ知らないがおそらく気に入るであろうアイテムの
ステム上での特殊な表現についての理解が必要である. そこで ,
集合を発見する研究である [2]. 本稿で利用する MovieLens の
ユーザの必要とする情報をシステムが推測し, ユーザに提示す
データは , インターネットが始った当初から協調フィルタリン
る推薦の研究が期待されている.
グを行なっているグループが提供しているものである（注 1）. イ
概念グラフは , 単語とそれを含む文書群の関係からある単語
ンターネットバブル崩壊で一時は下火になったようだが, 近年,
の関連を抽出し, 関連語間の上位下位の関係を可視化するシス
顧客に応じたサービスの提供という観点からも再び注目を集め
テムである [5]. 本稿では , 概念グラフの推薦システムへの応用
を提案する.
（注 1）：http://www.grouplens.org
るようになっている [1], [3], [4], [6]∼[9]. 学術的な研究だけでな
く, Amazon のように顧客への商品推薦のための技術として , 期
待されている.
P (u|v) > 0.5
(3)
ただし, 本稿では単語間の関係は前節の特徴語抽出と同様に ,
特定の分野, 文書集合に着目して行う. そのため, 式 (2), (3) は
協調フィルタリングではユーザがどのアイテムに何点をつけ
ているかを表のような情報としてとらえ, ユーザ-アイテム行列
ユーザの入力キーワード q を含む文書集合 D(q) での文書頻度
を用いて次の用に書き換える.
を作り, アイテムあるいはユーザのベクトルを用いて推薦を行
う. 協調フィルタリングはユーザベクトル, アイテムベクトル
どちらを利用するかで分類される.
2. 1 ユーザベース協調フィルタリング
あるユーザ u に類似したユーザ集合 N eighbor(u) を抽出し,
N eighbor(u) に属するユーザ達が高い点数をつけている映画を
u に推薦する協調フィルタリングをユーザベース協調フィルタ
df (u, D(q)) > df (v, D(q))
(4)
P (u|v) = df (u ∗ v, D(q))/df (v, D(q)) > 0.5
(5)
ここで df (u ∗ v, D(q)) は D(q) での u, v の共起頻度を表す.
つまり, v よりも u が D(q) でより多く出現し, v が出現する
過半数で u も出現しているとき, u は v の上位である. また,u
リングと呼ぶ.
を v の上位語と呼ぶ.
2. 2 アイテムベース協調フィルタリング
あるユーザ u が高い点数をつけているアイテムの集合 I(u)
の要素 i と類似したアイテム集合 SimilarItem(i) を i のアイ
テムベクトルを用いて抽出し, ∪i∈I(u) SimilarItem(i) の中で
高いスコアをもつアイテムを u に推薦する協調フィルタリング
式 (4), (5) を満たす全ての特徴語のペアを上位下位関係にあ
る単語のペアとして抽出する.
3. 3 隣接上位関係
前節の上位下位関係の定義により抽出された単語 w の上位語
から隣接する上位語を抽出する. これにより, 単語の上位下位
を協調フィルタリングと呼ぶ.
本稿では , 比較対象のベースラインとしてユーザベースの協
の階層構造を構築する.
隣接上位関係の定式化のために単語 v の上位語集合 U P (v)
調フィルタリングを実装した.
と隣接上位語集合 DU P (v) を定義する.
3. 概念グラフ
本稿では , 単語を節として上位下位の関係を枝とする有向グ
U P (v) = {u ∈ D(q)|u は v の上位語 }
(6)
DU P (v) = {u|∀w ∈ U P (v).u ∈
/ U P (w)}
(7)
ラフを概念グラフと呼ぶ.
3. 1 特徴語
同じ単語でも, それが使われる環境によって意味がかわり, 二
v の上位語 u が u 以外の上位語の上位ではないとき
つの単語の間の上位下位関係も異なる. そこで本研究では全て
u ∈ DU P (v) であり, u は v の隣接上位である. また, u を
の単語の階層構造を扱わず一部の単語の階層構造を構築する.
v の隣接上位語と呼ぶ.
一部とは特定の文書群の特徴を表す単語である. ユーザの必要
とする分野に特徴的な単語の関係を提示することが有用である.
本研究ではユーザの必要とする分野をユーザの入力キーワード
q を含む文書集合とする. これによりユーザの入力にあわせた
動的な特徴語抽出が可能となる. 今後単語 q を含む文書集合を
D(q) と表記する.
全ての特徴語間の隣接上位関係について下位の単語から上位
の単語に向いた枝を引き有向グラフとして可視化する.
4. 概念グラフを使った推薦システム
前節の概念グラフの定式化における, 文書と単語をそれぞれ,
ユーザとそのユーザの評価しているアイテムと捉えることで ,
ユーザの入力キーワード q によって決定される文書集合 D(q)
に対し, w が D(q) の特徴語であるとは次の条件 (1) を満たす
概念グラフの推薦システムへの応用が可能である.
概念グラフでは単語 q を入力とし, それを含む文書 D(q) に
こととする. ここで , df (w, D(q)) は , 単語 w の D(q) での文書
特徴的な単語群を抽出し, それらの関係を可視化した. 推薦シス
頻度, df (w, U ) は全文書集合 U での文書頻度を表す.
テムではアイテム i を入力とし, それを好むユーザの集合 U (i)
から特徴的なアイテム群を抽出し, それらの関係を可視化する.
df (w, D(q))/df (w, U ) > 0.5
(1)
つまり, 単語 w が出現する過半数が文書集合 D(q) に含まれ
ているとき, w は D(q) の特徴語という.
図 1 は , ミッション・インポシブル (1996) をキーワードとし
て検索した結果である. この映画に 4 点以上の評価を付けた人
が 648 人いて , その中で 100 人以上の人が 4 点以上の評価を付
けている映画が 14 タイトルあり, ダイハードやゴールデンアイ
3. 2 上位下位関係
などアクション系の傾向の映画が図 1 に表示されている. 上に
本節では単語間の上位下位関係の抽出法を説明する.
単語 u が v の上位であることを, より一般的な単語であるこ
と式 2 と v から見た u の関連が強いこと式 3 で定義する.
あるものが頻度, つまり人気が高い.
図 2 は , トイ・ストーリーを入力としたもので , トイ・ストー
リー 2, ベイブ, ライオンキング, アラジン, 美女と野獣などの
ファンタジー系ディズニー映画が表示されている. MovieLens
df (u) > df (v)
(2)
の映画データにはアクション, アドベンチャー, アニメーション
図1
Mission Impossible についての概念グラフ
図2
Toy Story についての概念グラフ
などのジャンルが付けられているが, 本システムはこのような
スコアつけている (表 1). ただし, 本稿では 4 点以上のスコア
ジャンル情報は利用していないにも関わらず, 同じジャンルの
を 1, 3 点以下を 0 として 2 値のユーザ-アイテム行列を作りシ
映画が得られている.
ステムを実装した.
1,000,209 件の評価データから 10 万件をランダムに選択し,
5. 評価実験
それらを 10 個に分割し, そのうちの 9 割のデータを用いて , 概
本稿では MovieLens のデータを用いて , 提案システムの評価
念グラフのシステムを実装し, システムが残りの 1 割を予測可
を行った. 1,000,029 件のユーザ ID, 映画 ID, スコアの 3 つか
能かどうか評価した.
5. 1 ベースラインとしての協調フィルタリング
らなるデータを利用した.
評価のための比較対象として , 以下のような協調フィルタリ
ング手法を実装した.
ユーザ ID
映画 ID
スコア
1
661
3
入力となるユーザ u と映画の好みの類似するユーザ集合 N (u)
1
914
3
をコサイン類似度を用いて求める. ユーザ u, u0 の間のコサイ
1
1193
5
2
1687
3
2
1213
2
2
3578
5
表1
MovieLens データ形式
ン類似度 cos(u, u0 ) はユーザのレーティングベクトルを用
いて計算する.
cos(u, u0 ) =
·
| |∗|
|
(8)
cos(u, u0 ) の上位 10 人のユーザ u0 を N (u) の要素とした.
6,040 人のユーザが 3,883 種類の映画に 1 から 5 の整数値で
ui ∈ N (u) について各 ui の映画 mj についてのスコアの平
均を mj のユーザ u に対する推薦度 r(u, mj ) を求め, 上位 k 個
を推薦する.
5. 3 ROC による評価
ユーザー u について上位 k 個の推薦をしたときに , ans(u, k)
個の推薦が出来たとする. 上位 k 個による推薦の ROC(k) は ,
r(u, mj ) =
ans(u, k) の総和を, テストデータ中の正解の個数 (今の実験の
Σui ∈N (u) rating(ui , mj )
|N (u)|
(9)
ただし,rating(ui , mj ) は ui の mj に対するスコアが 4 点以上
の時 1, ui の mj に対するスコアが 3 点以下の時 0 とする.
5. 2 テスト・データ
推定対象のテスト・データである (ユーザ, 映画, 評価) の組
は 10000 件ある. 各ユーザについて , これ以外の訓練データに
基づきそのユーザにあった映画を推定し, 上位 k 個を推薦する.
ところが, 大半のテストデータについて , 正解の数が 1,2 個しか
場合 10,000) で割ったものとして評価した (表 3, 図 4). これ
は , 各ユーザについての適合率の加重平均と一致する. 表 3 は ,
k ∗ 10 件推薦したときの ROC の値をまとめたものである.
協調フィルタリングでは , システムが推薦する候補数を上げ
ても, ROC は 0.01 程度以上には増えない. 一方, 提案手法では
70 個の推薦で 0.10 となり, 10 倍の効果がある. 図 4 からも分
かるように , 提案手法の方は協調フィルタリングよりも 10 倍以
上の映画を推定できている.
ない (表 2, 図 3). これは , もともと各ユーザが 4 点以上の評価
概念グラフ CG
点をつけている映画の数が少ないことによる.
映画の数
表2
人数映画の数
k 正解数
人数
協調フィルタリング CF
ROC 正解数
ROC
1
85 0.0085
64
0.0064
2
302 0.0302
93
0.0093
1 2207
10
16
3
488 0.0488
99
0.0099
2
991
11
10
4
659 0.0659
100
0.0100
3
558
12
4
5
824 0.0824
100
0.0100
4
313
13
3
6
951 0.0951
100
0.0100
5
136
14
2
7
1076 0.1076
101
0.0101
6
104
15
3
8
1212 0.1212
102
0.0102
7
79
16
2
9
1313 0.1313
102
0.0102
8
31
21
2
10
1413 0.1413
102
0.0102
9
28
24
1
表3
ROC(Rate of Collecting)
ユーザーごとの好きな映画数の分布 (テスト・データ)
図4
図3
概念グラフと協調フィルタリングの ROC
ユーザーごとの映画件数分布 (全データ)
従って , 検索システムの性能評価で用いられる 11 点平均適
6. 考
察
合率のような方法で適合率と再現率の評価を行なうことは意味
6. 1 推薦候補の数の比較
がない. そこで , アルゴリズムで得られる候補のから上位 k 個
k の値に応じて各ユーザーごとに推薦できた件数をプロット
を推薦したとき, テストデータ中でユーザーが面白いと思った
したのが図 6. 1 である. 協調フィルタリングでは , k の値が大き
（つまり 4 以上の評価を付けた）映画のうちの予測できた割合
ROC(Rate of Collecting [1]) で評価することにする.
くなっても推薦できる件数は 10 件程度しかない. 一方, 概念グ
ラフでは , 協調フィルタリングに較べ 10 倍以上の推薦候補があ
る. これは , トレーニングデータに含まれる映画の OR 検索す
ることによる. つまり, あるユーザーが好むそれぞれの映画に
ついて関連映画を求めているからだと思われる. 一方, 協調フィ
ルタリングでは , そのユーザーに類似したユーザーを 10 人と
限定し, それらのユーザーが共通に好む映画を候補としている.
そもそも, 各ユーザーが上げた映画の数はベキ分布となってお
7. まとめと今後の課題
り, 大半のユーザーはごく少数の映画しか上げていない. 平均
単語とそれを含む文書群の関係からある特定の単語の関連語
の数としても, 21 件しかない. この二つで図 6 のような差が出
を抽出し, 関連語間の上位下位の関係を可視化する概念グラフ
たと考えられる.
の推薦への応用を提案した. 概念グラフを映画の推薦システム
MovieLens のデータに適用し, ユーザの ID を指定することで ,
ユーザの好みと関連する映画を出力するシステムを実装した.
また, 推薦結果をユーザ数とユーザの共起情報を用いて可視化
するシステムを実装した.
評価実験に関して , 今回はランダムに選んだ 100,000 件のデー
タを 10 分割し,9 割でシステムを構築し, 残り 1 割のユーザが 4
点以上のスコアをつけた映画を予測する評価実験を行った. 分
割の方法を 1 通りしか, 試しておらずその他の分割の方法を試
す必要がある. また, 分割の割合を変化させることで , システム
の推定精度がどのように変化するかも実験する必要がある. ま
た, 本稿では OR 検索を用いて関連する他のユーザーを求め, そ
図5
概念グラフ, 協調フィルタリングによる推薦候補数
こから関連映画を求めた. その結果, 推薦候補の映画の数が協調
フィルタリングによるよりも二桁多くなった. 関連ユーザーの
6. 2 推定が成功した対象ユーザーの特性
協調フィルタリングについて , 100 件以内の推薦で正解が得
られた映画は , 4,490 人について 102 件であった. それらのユー
検索までを協調フィルタリングと同様にすることも考えられる.
概念グラフの特徴は , 共起頻度に基づく有向グラフとしての
可視化であるが, 本稿で数量的な評価をしたのは関連映画の抽
ザーのテストデータを見ると , 正解の個数が 1,2 件しかないも
出についてだけである. 推薦映画の上位下位関係の評価も今後
のが大半であった. さらに , 協調フィルタリングによる推薦の個
の課題である.
数は 10∼20 個程度しかない. 一方, 概念グラフによる推薦で正
解が得られた映画は 1413 件で , 推測が成功したほとんどのユー
ザーについて , テストデータの正解の個数は 4 個以上であった.
そして , 概念グラフによる推薦の個数は数百個程度であった (図
7). また, 協調フィルタリングと概念グラフの二つの手法のど
ちらでも正解を得ることができたのは , 11 人しかいなかった.
つまり, 協調フィルタリングは少数の映画をしか評価していな
いユーザーについての推定が得意であり, 一方, 概念グラフは多
数の映画を評価しているユーザについての推定が得意と考えら
れる.
図6
推定成功ユーザーデータ特性
文
献
[1] 平山巧馬, 小柳滋, 協調フィルタリングにおける相関係数法の
予測性能向上, 電子情報通信学会論文誌 D, Vol.J90-D, No.2,
pp.223-232, 2007.
[2] Paul Resnick, Neophytos Iacovou, Mitesh Suchak, Peter
Bergsrom, John Riedl, GroupLens: An Open Architecture
for Collaborative Filtering of Netnews, Proc. of the 1994
ACM conference on Computer supported cooperative work,
pp. 175–186, 1994.
[3] Badrul Sarwar, George Karypis, Joseph Konstan, John
Riedl, Analysis of Recommendation Algorithms for ECommerce, Proc. of the ACM E-Commerce 2000 Conference, pp.158–167, 2000,
[4] Badrul Sarwar, George Karypis, Joseph Konstan, John
Riedl, Item-based Collaborative Filtering Recommendation
Algorithms, Proc. of the 10th International World Wide
Web Conference (WWW10), 2001.
[5] 下司義寛, 和多大樹, 廣川佐千男, 英和辞典からの知識抽出, 第 68
回情報処理学会全国大会講演論文集 3, pp. 19–20, 2006.
[6] Jun Wang, Arjen P. de Vries, Marcel J. T. Reinders, A UserItem Relevance Model for Log-based Collaborative Filtering, Proc. of European Conference on Information Retrieval
(ECIR 2006), pp. 37-48, 2006.
[7] Gui-ROng Xue, Chenxi Lin, Qiang Yan, WenSi Xi, Hua-Jun
Zeng, Yong Yu, Zhen Chen, Scalable Collaborative Filtering Using Cluster-based Smoothing, SIGIR’05, pp.114–121,
2005.
[8] 柳原正，帆足啓一郎，松本一則，菅谷史昭, 潜在クラスを利用し
たクロスメディアレコメンデーション方式の提案, 情報処理学会
全国第 68 回大会, 2006.
[9] C-N Ziegler, S.M. McNee, J.A. Konstan, and G. Lausen,
Improving Recommendation Lists Through Topic Diversification, Proc. of the Fourteenth International World Wide
Web Conference (WWW2005), pp. 22–32, 2005