...

音楽 CD 購買履歴データを用いた アーティスト推薦モデル

by user

on
Category: Documents
17

views

Report

Comments

Transcript

音楽 CD 購買履歴データを用いた アーティスト推薦モデル
オンライン ISSN 1347-4448
印刷版 ISSN 1348-5504
赤門マネジメント・レビュー 6 巻 1 号 (2007 年 1 月)
音楽 CD 購買履歴データを用いた
アーティスト推薦モデル
廉
民善
成蹊大学大学院経営学研究科
E-mail: [email protected]
要約:消費者のニーズが多様化・不透明化している今日において、顧客に対して多種
多様な情報・商品の中からそれぞれの嗜好に合ったものを推薦できることは、顧客満
足度の向上および購買促進のために重要となっている。本稿では、レコメンデーショ
ン・エージェントのひとつである協調フィルタリング手法をとりあげ、顧客関係マネ
ジメントの実践について考察する。具体的には音楽 CD 購買履歴データを用いた実証
分析を行い、任意の顧客に特定アーティストの CD を推薦するモデルを構築する。
キーワード:レコメンデーション、協調フィルタリング、E コマース、顧客関係マネ
ジメント
1. 問題の所在
近年、情報技術の飛躍的な発達により、情報伝達・処理のコストが大幅に削減され、消費
者は容易に情報源にアクセスできるようになってきている。中でもインターネットは、その
インタラクティブ性が生かされ、EC(電子商取引)のためのメディアとして定着しつつあ
る。その反面、情報過多の今日において、消費者の情報取捨選択の能力はかえって低下し、
消費者の意思決定において必要とする情報の獲得はますます困難となってきている (Simon,
1945; 野島, 2005)。 1
したがって、情報の送り手である企業は、膨大な量の情報を提供するだけでなく、情報氾
1
野島 (2005) は、オンライン取引において、消費者と企業間での情報ギャップに起因する不確実性
によってその市場が阻害されるとし、その要因として、人間の情報処理能力の限界を挙げている。
7
©2007 Global Business Research Center
www.gbrc.jp
廉
民善
濫に起因する消費者の情報処理能力の限界を考慮すると同時に、消費者の購買意思決定を手
助けし、消費者が膨大な情報ないしは商品の中から適切な情報や商品を容易に選択できるよ
う工夫する必要がある。加えて、消費者ニーズの多様化と複雑化に十分対応できるような新
たな仕組み作りを行わなければならない。
一方、企業を取り巻く環境が複雑かつ不透明になった今日のような成熟化社会においては、
消費者購買履歴に基づき、消費者の特性を把握することの重要性が認識されつつある。中で
も、WEB アクセスデータ、POS データ等のような購買履歴データなどを有効に活用し、顧
客との友好な関係を構築しようとする関係性マーケティングへの取り組みが高まってきて
いる。このように飛躍的に発展を成し遂げた情報技術を利用し、企業と顧客とのあらゆる接
点から得られる顧客に関する情報を活用することで、顧客との関係強化を図り、リレーショ
ンシップ・マーケティングの考え方を実践しようとする取り組みは、顧客関係マネジメント
(customer relationship management; 以下、CRM と記す)と呼ばれる。
顧客一人ひとりに対する関係を重要視し、顧客との友好な関係を構築できる手法のひとつ
に、情報検索の分野や人工知能分野で盛んに研究されてきた協調フィルタリングという手法
がある。協調フィルタリングとは、大量の情報の中から顧客が自分の嗜好に合った情報の獲
得を目指すレコメンデーション・エージェントのひとつである。レコメンデーション・エー
ジェントの代表的な手法としては、協調フィルタリング手法とコンテンツベース・フィルタ
リング手法が挙げられる。 2 そして現在では、協調フィルタリングが最も成功した手法とし
ての評価を得ている。協調フィルタリング手法の代表的な例としては、アマゾンの「この本
を買った人は、こんな本も買っています」のような、当該顧客の嗜好と最も類似性が高い商
品の推奨がある。
協調フィルタリングのような手法により、多種多様な情報の中から各々の顧客の嗜好に合
った情報や特定アイテムが推薦出来れば、顧客の意思決定に必要とされる負担が低減され、
より一層、顧客の購買意欲が高まると考えられる。今後の E コマースのより急速な広がりを
考えると、インターネットの高いインタラクティブ性を生かすことで、一人ひとりの顧客に
対し、よりきめ細かで個別化された製品やサービスを提供する能力は一層重要になってくる
と考えられる。
しかし、こうした協調フィルタリングのマーケティング手段としての有効性にも関わらず、
マーケティング分野においては、協調フィルタリングを取り上げた研究はあまり多くない
(Ansari, Essegaier, & Kohli, 2000; 新井, 2005)。現在、多くの企業において顧客の購買履歴を利
2
コンテンツベース推薦システムとは、顧客の興味や関心を記述した顧客プロファイルに基づいて類
似度を計算し、推薦アイテムを提示する手法である。
8
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
用して顧客との関係強化を目的する CRM への取り組みが活発に行われているが、このよう
な CRM への取り組みが消費者の真のニーズを開拓できたとはいえない。消費者ニーズが多
様化かつ不透明化していく今日においては、消費者ニーズを先取りし、消費者ニーズの変化
にリアルタイムで対応しなければならない。
こうした問題意識に基づき、本研究では、協調フィルタリングを、顧客との関係強化を目
的とするリレーションシップ・マーケティングの実践手段として捉え、実際の購買履歴デー
タを用い、一人ひとりの顧客に対して有用な商品を提案するモデルを構築する。具体的には、
実際の購買履歴データに協調フィルタリング手法を適用し、顧客の好みに合った商品を推薦
するモデルを作成する。 3
以下では、第 2 節で協調フィルタリングの概要とマーケティングにおける協調フィルタリ
ング手法の有効性について述べる。第 3 節では、協調フィルタリングの代表的な手法を考察
し、協調フィルタリングに関する関連研究について触れる。第 4 節では、本稿の分析手法と
して用いた記憶ベース推論(MBR: memory based reasoning)のアルゴリズムについての説明、
および本稿の分析手順について述べる。第 5 節では、実際の購買履歴データに MBR 手法を
適用し、得られたモデルの結果を示すとともに、モデルの精度評価を行う。そして第 6 節で
は、本研究の意義および実務上の示唆点、今後の課題について述べる。
2. 協調フィルタリングの概要とマーケティングにおける有効性
レコメンデーション・エージェントは、ターゲット顧客に対し、推薦アイテムのリストを
提供することによって、購買可能性の高いアイテムを発見しやすくすることを目的とする
(Sarwar, Karypis, Konstan, & Riedl, 2001)。
以下では、レコメンデーションの代表的な手法である協調フィルタリングの概要について
述べた上で、協調フィルタリング手法のマーケティングにおける有効性について論じる。
2.1. 協調フィルタリングの概要
協調フィルタリング手法では、当該顧客と嗜好が似ている顧客が好むアイテムは当該顧客
に好まれる、という仮定に基づき、ターゲット顧客にとって購買可能性の高いアイテムを推
定する。一般に協調フィルタリング手法では、ターゲット顧客の未評価もしくは未購入アイ
テムの推定に、アンケート情報、Web アクセス履歴、購買履歴等から、類似顧客の評価値を
3
具体的には、ある任意の顧客(以下、ターゲット顧客と記す)に特定アーティストの CD を推薦す
るモデルを作成する。
9
廉
民善
用い(協調)
、ターゲット顧客に好まれそうなアイテムを自動的に推薦する。
協調フィルタリング手法の先行的なシステムとしては、Goldberg, Nichols, Oki, and Terry
(1992) によるTapestryシステムがある。このシステムは、ネットニュースの記事に対する顧
客の評価に基づいて、顧客の要求に応じた推薦情報を生成するものであった。しかし、顧客
一人ひとりに対する個人化されたサービスは提供しなかった。 4 個別対応が可能でかつ自動
的な推薦機能を持つ本格的な協調フィルタリング・システムとしては、Resnick, Iacovou,
Suchak, Bergstrom, and Riedl (1994) のグループ・レンズ(GroupLens)5 が挙げられる。この
システムでは、ネットニュースの記事に対する顧客の評価に基づき、個々の顧客に対して自
動的に記事が推薦される。
協調フィルタリング手法は、評価データの内容によって、明示的評価(explicit method)
と暗黙的評価(implicit method)に区別される (Herlocker, Konstan, Borchers, & Riedl, 1999)。
明示的手法は、主に従来の研究においてよく見られる評価方法であり、アンケート質問のよ
うな方法を通じて顧客の関心や興味に関する情報を収集し、それを基に推薦を行うものであ
る。これに対し、暗黙的手法は、WEB アクセス履歴や購買履歴等のデータから顧客の興味
や関心に関する情報を取得し、それに基づいて推薦を行う。このような暗黙的評価のメリッ
トとしては、顧客が実際行った購買行動に基づいた顧客の評価となっているので、購入への
実現可能性が高いことや、顧客が自分の興味に関するデータを直接入力するといった手間を
必要としないことが挙げられる。
そこで本分析では、購買履歴データにおける購買回数を顧客の評価とみなし、ターゲット
顧客にとって購買可能性が高いと推定されるアイテムを推薦するモデルを作成する。
2.2. マーケティングにおける協調フィルタリングの有効性
マーケティングを取り巻く環境が成熟化するに従い、平均的消費者を想定するマーケティ
ングは、次第に無意味な概念になりつつある。成熟した経済社会では、商品やサービスに関
する選好やマーケティング反応に対する反応の異質性を十分に認識し、それに適切に対応す
る必要がある (阿部, 近藤, 2005)。
前述した CRM は、社会的価値観の変化や消費者のニーズの多様化に対応するため、情報
技術を活用し、企業と顧客とのあらゆる接点から得られる顧客情報や企業側に蓄積される大
量の顧客購買データを分析・理解し、活用することによって、顧客との関係強化を図る取り
4
5
Tapestry はネットのニュースに対する評価が類似している人を見つけ出し、ニュースの推薦を行う
ものである。
ミシガン大学を中心とする協調フィルタリング手法に関する代表的な研究プロジェクトである。
GroupLens は、その後 Net Proception という名称で商用化されている。
10
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
図1
Fornell による事業戦略
事業戦略
戦略類型
行動目標
攻撃型戦略
防衛型戦略
(新規顧客獲得)
(既存顧客維持)
市場規模
市場シェア
スイッチング
顧客満足
拡大
拡大
障壁の構築
向上
出所)Fornell (1992), p. 8.
組みのひとつである。すなわち、CRM は、顧客獲得、維持、ロイヤルティを増加させるた
めに、意味のあるコミュニケーションを通じて顧客行動を理解し、顧客満足や顧客ロイヤル
ティを増加させることを目的とした経営手法である。CRM の考え方の基本は、顧客の視点
に立つことにあり、製品・サービスの提供における企業と顧客とのすべての関係を通じて顧
客関係を管理することにある (守口, 2001)。
協調フィルタリングは、顧客一人ひとりの要求に個別対応できるだけでなく、顧客の要求
にリアルタイムで対応可能な側面においては、顧客との関係強化のための非常に有効なツー
ルである。
一方、レコメンデーションは、消費者の購買意思決定において大きな影響を及ぼすとされ
ている。Haubl and Trifts (2000) は、オンライン・ショッピングコンテキストにおいて、レコ
メンデーション・エージェント(recommendation agent)が消費者の購買意思決定に与える効
果について検証を行った。彼らは、レコメンデーション・エージェントが情報探索の量、考
慮集合(consideration set)のサイズと質、そして意思決定の質に影響を及ぼすという問題意
識に基づき、実験計画と GEE(Generalized Estimating Equations)モデルを用いて実証研究を
行っている。分析の結果、レコメンデーション・エージェントが、製品情報に対する探索量
を減らし、考慮集合のサイズを小さくし、そして購買意思決定の確信度を高めるというよう
な、消費者の購買意思決定における質を高めることに効果があると述べている。
本稿では、協調フィルタリングを、CRM の実践手法として位置づけ、マーケティングに
おける協調フィルタリングの有効性を、競争優位の観点から検討する。
11
廉
民善
Fornell (1992) によると、事業戦略には大きく分けて攻撃型(新顧客獲得)と防衛型(既
存顧客維持)があるとし、顧客の好みが多様化している成熟市場においては、マーケティン
グ戦略の焦点が、顧客獲得よりも顧客維持にあることを強調した。その上で、既存顧客を維
持するためには、顧客満足とスイッチング障壁構築が必要であるとしている(図 1)。
本稿では、Fornell の事業戦略のフレームワークを参照し、協調フィルタリングによる推薦
システムを、消費者の購買意思決定を手助けし、顧客の満足度を高める CRM の実践手段と
して位置づける。レコメンデーション・エージェントによって、一人ひとりに対して、個人
化された製品やサービスが提供出来れば、消費者の購買意思決定における負担が軽減され、
顧客満足度は向上されるであろう。そして高い顧客満足は顧客ロイヤルティの向上に寄与し、
最終的には企業利益の向上に反映されると考えられる。
さらに、協調フィルタリングを通じて、リアルタイムで更新される購買履歴から得られる
知識の活用能力、もしくは顧客との関係性を構築する能力は、他社との差別化を作り出し、
持続可能な競争優位を創出する。すなわち、企業と顧客との双方向コミュニケーションを通
じて得られた顧客関係性は、企業側の顧客ニーズの変化の先取り及び顧客ニーズの変化への
迅速な対応能力に影響を与える。また、企業への顧客情報のフィードバックは、顧客の多様
性を含む市場において企業に競争優位を与える (Day, 1994)。
こうした顧客と企業との長期的な相互作用を通じて、企業は顧客のニーズや欲求を学習し、
顧客と企業にとって新たな価値を創出することが可能となる。例えば、企業側は、WEB 上
においてリアルタイムで更新される購買履歴データを、新商品の開発や商品の改善に生かし
ていくことによって、他の企業が模倣できない競争優位を持つことができると考えられる。
一方、顧客のニーズや要求に製品やサービスを迅速に提供することによって、顧客は当該企
業に対し高いロイヤルティを持つようになると思われる。
このことから、協調フィルタリング手法は、CRM の実践手段として有効であり、マーケ
ティングの根本的な考え方に大きく影響を与える可能性があるといえよう。
3. 協調フィルタリング
前述したように、協調フィルタリングは、新聞記事、書籍、音楽、ウェブページ、映画作
品等における多くのアイテムの中から、顧客の好みに合うと予想されるアイテムを抽出し、
ターゲット顧客に推薦する手法である。このような協調フィルタリング手法は、一般的にメ
モリベースアルゴリズムとモデルベースアルゴリズムに大別される (Breese, Heckerman, &
Kadie, 1998)。以下では、協調フィルタリングの代表的な手法の原理について考察を行うと
12
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
同時に、各々の手法のメリットとデメリットについて触れる。
3.1. メモリベースフィルタリング手法
メモリベースフィルタリング(memory-based algorithm)手法は、 k -近傍ベースフィルタ
リング(k-neighbor based filtering)、またはユーザベース協調フィルタリング(user-based
collaborative filtering)とも呼ばれる手法で、Resnick et al. (1994) のグループ・レンズが代表
的である。以下では、グループ・レンズのシステムで代表されるメモリベース協調フィルタ
リングの原理について考察し、協調フィルタリングのアルゴリズムについての理解を深める。 6
n 人の顧客からなる顧客集合を C = (c1 ,c 2 ,....., cn ) とし、m 個のアイテムからなるアイテム
集合を I = (i1 ,i 2 ,....., im ) とする。また、各々の顧客 ci によるアイテム i j に対する評価を Ri , j と
する。この時、メモリベース協調フィルタリング手法では、ターゲット顧客 ca に対して推薦
を行うには、図 2 で示されているように、ターゲット顧客 ca にとって購買経験のないアイテ
ム j についての潜在的選好度 pa , j を推定する必要がある。
Resnick et al. による推薦システムでは、ターゲット顧客にアイテムを推薦する場合、表 1
の手順に従ってターゲット顧客にとってのアイテム潜在的選好度を求め、その中から購買可
能性の高いアイテムを、ターゲット顧客に提示する (Sarwar et al., 2001)。
図2
im
c1
R1,1
R1, 2
…
R1, j
…
R1,m
c2
R2,1
R2, 2
…
R2, j
…
R2, m
…
p a, j
…
Ra ,m
…
Rn , j
…
Rn , m
⋮
Rn 2
⋮
Rn ,1
Ra , 2
⋮
⋮
⋮
cn
Ra ,1
⋮
…
⋮
ij
⋮
…
⋮
i2
⋮
i1
ca
6
協調フィルタリングの原理
協調フィルタリングの原理の具体的な例については、付録 1 を参照されたい。
13
廉
民善
① 顧客間の類似度計算
メモリベース協調フィルタリングによる推薦を行うためには、まず、図 2 のように顧客−
アイテムデータセットを用意し、ターゲット顧客と嗜好、または購買パターンが類似してい
る顧客を見つけ出す必要がある。そのための類似尺度としては、以降で述べる相関係数
(Resnick et al., 1994) をはじめ、表 1 に示されているような、様々な類似尺度が提案されてい
る。
以下では、類似尺度として最も一般的に用いられているピアソンの相関係数による顧客間
の類似度の計算例を示す (Resnick et al., 1994)。
ピアソンの相関係数による顧客 c a と顧客 ci 間の類似度 similarity (ca ,c i ) は、顧客 c a と顧客
ci が共に評価したアイテム ( I j ∈ I Ca ∩ I Ci ) に対して、二つのベクトルの共分散を各ベクト
ルの標準偏差の積で割ることによって求められる。すなわち、ターゲット顧客 c a と顧客 ci に
ついて顧客間の類似度 similarity (c a , ci ) は、次のように定義される。
similarity(c a , ci ) =
covar(Rca , Rci )
σR σR
ca
∑ (R
I j ∈I c a ∩ I ci
=
ci
∑ (R
I j ∈I c a ∩ I ci
a, j
a, j
− Ra )(Ri , j − Ri )
− Ra )
2
∑ (R
I j ∈I c a ∩ I ci
i, j
(式 1)
− Ri )
2
ここで、 Ra , j は、アイテム j に対する顧客 c a の評価であり、 Ri , j はアイテム j に対する顧
表1
Step1
メモリベース手法のアルゴリズム
顧客間の類似度の計算
・Pearson correlation coefficient (Resnick et al., 1994)
・Significance weight (Herlocker et al., 1999)
・Cosine vector similarity (Breese et al., 1998)
・Correlation and mean squared difference (Shardanand & Maes, 1995)
・Jaccard coefficient (Ansari, Essegaier, & Kohli, 2000)
Step2
類似度に基づく潜在的選好度の予測
・ターゲット顧客の未購買アイテムに対する評価値を、類似顧客が与え
た評価値に基づいて予測する。
Step3
購買可能性の高いアイテムの提示
・予測評価値の高い Top−N 個の未購買アイテムをターゲット顧客に推薦
する。
14
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
客 ci の評価を表す。また、 Ra と Ri は、顧客 c a と顧客 ci のそれぞれの平均評価値を表してい
る。
② 類似度に基づく評価値の予測
式 1 の相関係数を用いて顧客間の類似度を計算した後、類似度を重みとした重み付き平均
を用いて、ターゲット顧客の潜在的選好度の推定を行う。具体的には、式 2 のように、ター
ゲット顧客 c a の未評価アイテム i j の潜在的選好度 p a , j を、類似度の高い k 人の顧客(k-nearest
neighbors)との類似度を重みとした重み付き平均によって求める。したがって、類似度の高
い顧客によって高く評価されたアイテムほど、潜在的選好度 Ra ,i は大きな値をとる。
pa , j =
∑ similarity(c , c )R
a
ci ∈k - NearestNeighbors
i
i, j
∑ similarity(c , c )
a
ci ∈k - NearestNeighbors
(式 2)
i
ここで、 Ri , j は顧客 ci のアイテム j に対する評価を表し、また、 similarity (c a , ci ) は、顧客
c a と顧客 ci の類似度を表している。
また、式 3 のように、ターゲット顧客の平均評価と調整項( k 近傍の評価値の偏差付き加
重平均)からなる式に基づいて、潜在的選好度 p a , j を予測する手法も提案されている
(Resnick et al., 1994; Breese et al., 1998)。
p a , j = Ra +
∑ (R
− Ri ) similarity(ca , ci )
i, j
ci ∈k - NearestNeighbors
∑ similarity(c , c )
ci ∈k - NearestNeighbors
a
(式 3)
i
③ 購買可能性の高いアイテムの提示
協調フィルタリングアルゴリズムにおける推薦プロセスの最後の段階は、ターゲット顧客
c a の購入していないすべてのアイテムに対して潜在的選好度を求め、購買可能性の高いアイ
テム順に推薦を行うことである。例えば、予測値の高い上位 10 個のアイテム(Top-10)を、
ターゲット顧客に提示する。
3.2. メモリベース協調フィルタリングのメリットとデメリット
前述のように、メモリベース協調フィルタリングによる推薦システムは、ターゲット顧客
15
廉
民善
と類似度の高い上位 k 人の顧客をターゲット顧客の近傍(類似顧客)として見なし、その類
似顧客が高い評価をしたアイテムほど潜在的選好度は高いとする。すなわち、メモリベース
協調フィルタリング手法の特徴は、顧客が好むであろうアイテムの推定に、似たような嗜好
を持つ類似顧客の評価を用いることにある。このような協調フィルタリングの原理に従えば、
似ている顧客によって実際に購買されたアイテムだけが推薦されることになり、推薦の質は
高い。
一方、メモリベース協調フィルタリング手法の問題点としては、以下の三点が指摘されて
いる (Manos & Dimitris, 2004)。ひとつ目はスパーシティ問題(sparsity problem)である。こ
の問題は、協調フィルタリング手法が、同じアイテムを共に購入した顧客を対象にしている
ことから生じる問題である。すなわち、大多数の顧客は多くのアイテムの中でごく一部のア
イテムしか購入しないため、顧客−アイテムのデータセットでは全データの 99%が欠損値と
なる。 7 このような欠損値が多く含まれているデータを用いて予測を行うと、モデルの精度
が悪くなってしまう。 8 二つ目の問題は、顧客の数が増加するに従い、莫大な計算が必要と
なるスケーラビリティ問題(scalability problem)である。このようなメモリベース手法を克
服するためモデルベース協調フィルタリング手法が提案されている。メモリベースアルゴリ
ズムが抱えている三つ目の問題として、コールドスタート問題(cold-start problem)がある
(Huang, Chen, & Zeng, 2004)。これは、メモリベース手法が、類似顧客の存在を前提としてい
るため、新しいアイテムが発売されても、顧客によって評価が行われるまでは推薦が不可能
となる問題である。
3.3. モデルベース協調フィルタリング
モデルベース手法は、メモリベース手法の持つスケーラビリティ問題を克服しようと、
Sarwar et al. (2001) によって提案された手法であり、アイテムベース協調フィルタリング
(item-based collaborative filtering)とも呼ばれる。
モデルベース協調フィルタリング手法の特徴は、ターゲット顧客 c a と顧客 ci が共に評価し
たアイテム間の類似度に基づいて推薦を行うことにある。このようなモデルベースアプロー
チとしては、Sarwar et al. によって提案された手法のほかに、確率的アプローチ(ベイジア
ン・ネットワーク: Breese et al. (1998) やクラスタリングによるアプローチ (Breese et al.,
7
8
協調フィルタリングは、嗜好が類似している顧客の評価に基づいて、推薦を行う。そのため、類似
した顧客が十分確保される必要がある。
このような問題を克服するための方法として、主成分分析や LSI(Latent Semantic Indexing)による
次元縮小による方法が提案されている (Sarwar et al., 2001)。しかし、主成分分析や特異値分解によ
る次元縮小過程で潜在的に有用な情報が失われる可能性は依然として残される。
16
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
1998)、アソシエーション・ルールによるアプローチなど、様々なアプローチが提案されて
いる。
モデルベース協調フィルタリングの最も代表的な例としては、Amazon.com で見られるよ
うな、「この本を買った人は、こんな本も買っています」が挙げられる。モデルベース協調
フィルタリング手法の主な考え方は、顧客は自分自身が過去において購買したことのあるア
イテムと類似したアイテムを好む傾向がある、との仮定である。そこで、ターゲット顧客が
過去に評価したアイテムセットと推薦対象となるアイテム(以下、ターゲットアイテムと呼
ぶ)との類似度を計算し、ターゲットアイテムに対する潜在的選好度を予測する。
以下では、ターゲット顧客が購買したことのある既存のアイテムと推薦対象のアイテムと
の類似度の尺度として、相関係数を用いてアイテム間の類似度を計算し、潜在的選好度を予
測するプロセスの例を示す。 9
① アイテムの間の類似度計算
まず、ターゲット顧客 c a と顧客 ci が共に評価を行ったアイテムを選び出し、相関係数を用
いてアイテム間の類似度を求める。具体的には、アイテム i とアイテム j を共に評価した顧
客だけを抽出し、これらの顧客を集合 U とし、集合 U に属する各顧客のアイテム i と j に対
しての評価に基づいて類似度を計算する。アイテム i とアイテム j の類似度 corri , j は、式 4
によって定義される。 10
② 潜在的選好度の予測
アイテムベース協調フィルタリングは、メモリベース協調フィルタリングと違い、特定ア
イテムセットが、ターゲット顧客の過去に行ったアイテムセットに対する評価とどの程度類
似しているのかを計算し、 k 個の最も類似したアイテムを選ぶ。最も類似した k 個のアイテ
ムの抽出により、顧客 c のアイテム i に対する潜在的選好度 p c ,i を求めることが出来る。潜在
9
10
モデルベース協調フィルタリング手法におけるターゲットアイテムを推薦プロセスは、メモリベー
ス協調フィルタリングとほぼ同様であるが、ひとつ異なる点は、メモリベース手法が顧客間の類似
度を計算するに対して、アイテムベース手法では、アイテム間の類似度を計算する。
sim(i, j ) = corri , j =
∑
∑
c∈C
c∈C
( Rc,i − Ri )( Rc , j − R j )
( Rc ,i − R j ) 2 ∑ c∈C ( Rc , j − R j ) 2
(式 4)
ここで、 Rc ,i はアイテム i に対する顧客 c の評価を表しており、 Ri は i 番目アイテムの評価値の
平均を示している。
17
廉
民善
的選好度 p c ,i は式 5 によって定義される。 11
アイテムベースアプローチは、当該アイテムを共に評価した顧客だけを抽出し、類似度を
計算するため、メモリベースアプローチの持つスパーシティ問題が克服できる。しかし、ア
イテムベース方法においては、顧客間の類似度が考慮されないため、全く購買されてないア
イテムが推薦される場合も生じ得る。
4. 音楽 CD 購買履歴データを用いた実証分析
4.1. 分析目的
本稿では、以上の協調フィルタリングに関する先行研究を踏まえつつ、アンケート情報に
基づく評価の代わりに、音楽CDの購買回数を顧客の評価として見なすことで、ターゲット
顧客に特定アイテムを推薦するモデルを構築する。今回の分析のように、音楽CDの購買回
図3
人数
欲
CD
が
比率
663
64%
700
600
500
400
300
200
100
0
しい
CD の購買枚数が減った理由(複数選択)
281
27%
ら
か
い
な
使
に
由
自
え
るお
が
金
ら
か
た
っ
減
レン
タル
CD
す
用
利
を
ター
ン
イ
ッ
ネ
234
22%
ら
るか
用
を利
信
ト配
す
53
ら
るか
70%
60%
50%
40%
30%
182
17% 20%
10%
0%
5%
そ
他
の
人数
比率
理由
出所)http://www.watch.impress.co.jp/av/docs/20020607/enq02.html を基に作成(2005 年 9
月 15 日アクセス)。
11
pc ,i =
∑
∑
all similiar items , N
( simi , N )( Rc , N )
all similiar items , N
( | simi , N |)
(式 5)
但し、式 5 における N は、式 4 によって求めた類似度に基づいてアイテム i と最も類似している
k 個アイテムからなるアイテム集合を表している。式 5 で、ターゲット顧客 c のアイテム i に対す
る潜在的選好度は、アイテム i と類似したアイテムの集合 N に含まれる各アイテムに対する顧客 c
の評価値の加重平均により求められる。
18
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
数を顧客の暗黙的な評価として見なすことで、以下に挙げるいくつかのメリットが得られる。
まず、アイテムの購買個数等を顧客の評価値として見なす暗黙的評価では、顧客に全く負担
を負わせることがない。また、WEBアクセスデータや購買履歴データのような顧客が実際
行った購買行動に基づいているため、購入への実現可能性が高い。さらに、音楽CDという
アイテムの特性上、時間の経過に伴って消費者の嗜好が変化する可能性が高いが、暗黙的評
価を用いることで、このような顧客の嗜好変化にも素早く対応できる。 12
音楽 CD は経験財のひとつであり、
消費者が適切な CD を前もって選択することが難しい。
さらに、音楽 CD の品質、価格は、どのような店舗においても一定であり、企業は、店舗の
差別化を図ることが困難である。そこで、多くの CD の中から各々の顧客の嗜好に合った特
定 CD・アーティストを推薦することは、購買促進と顧客関係マネジメントのために有効な
手段となる。
図 3 は、
2002 年に日本において CD の購入枚数が減少した理由についての調査結果である。
調査結果からは、
「欲しい CD がないから」と答えた人が 64%と、CD の購買枚数が減った
理由の最も大きな要因となっていることがわかる。消費者の情報処理の限界を考慮し、多く
のアーティスト・CD の中から消費者が有用かつ適切なものを選択できるように、消費者意
思決定を手助けする必要性がこの調査結果から読み取れる。
顧客に対しそれぞれの興味にあった情報ないしはサービスを提供することが出来れば、よ
り一層、顧客の購買動機は高まると考えられる。また、音楽 CD を扱う小売業者は、推薦シ
ステムのような消費者の情報処理の限界を考慮した新しいサービスを提供することによっ
て、他社との差別化が可能になるであろう。
こうしたことから、今回の分析では、アーティスト別のCDの購買個数を顧客の暗黙的な
評価として見なすことによって、ターゲット顧客に購買される可能性が高いと推定されたア
ーティスト(CD)を推薦するモデルを構築する。 13
4.2. 利用したデータ
今回の分析に用いたデータは、東京都内にあるCD販売店のハウスカードメンバーの音楽
CDの購買履歴データである。データの収集期間は、2003 年 9 月から 2005 年 8 月の 2 年間の
12
リアルタイムで購買履歴データの更新が行われるため、顧客ニーズを先取りすることが可能である。
推薦対象は、アーティストのひとつひとつの CD ではなくて、アーティストを推薦するものとなっ
ている。具体的には、ある任意の顧客と嗜好が似ている顧客が好む商品は、当該顧客によって好ま
れるといったメモリベース協調フィルタリングの原理に従い、類似したアーティストの CD を購入
する顧客は、類似した嗜好を持つと仮定する。
13
19
廉
図4
民善
ジャンル別購入回数比率
ジャンル別購入回数比率
0.40
0.35
0.35
0.30
0.26
0.25
0.20
0.15
0.09
0.10
0.06
0.05
0.02 0.02 0.02
0.00
0.02
0.06
0.02
0.00
0.02 0.02
0.03
0.00 0.00 0.00 0.01
0.00
0.00
op
j_ p
c
et
me ste n
ga
li
a_
e_
s
kid
ic
ss
c la
e
al
et
nc
_m
da
hr
p
n
ul
po
sio b_so
fu
h ip
es
bl u
ck
ro
z
rld
jaz
wo
w_
st
w_
ka
en
il d
ch
zz
j_ ja
t
j_ s
ジャンル
図 5 ジャンルの購買有無による階層型クラ
スタリングの樹木図
データとなっている。 14 また、今回のデータは、取引に関するデータ(会員ID、性別、生年
月日、購入数量、売上金額など)、商品に関するデータ(JANコード、商品タイトル、大ジ
ャンルコード、中ジャンルコード、アーティストコード、アーティスト名称など)、ジャン
ルに関するデータ(大ジャンルコード、大ジャンル名、中ジャンルコード、中ジャンル名)
の三つのデータセットで構成されている。
図 4 は、ジャンル別の購入傾向を見るために、ジャンル別購買回数の比率を表したもので
14
データ及び分析ツールは、平成 17 年度データ解析コンペティションでご提供頂いた。
20
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
ある。図 4 によると、特定ジャンル(J-POP、ダンス、ヒップホップ&ラップ、ブラック&
ソウル、ロック&ポップス)に対する購入回数の比率が比較的高くなっていることが見て取
れる。
消費者は多くのジャンルの中から、特定のジャンルだけを好む傾向にあるといわれており、
ジャンル間の連関性を調べるために、クラスター分析を行った結果が図 5 である。図 5 に示
されているように、J-POP、ダンス、ヒップホップ&ラップ、ブラック&ソウル、ロック&ポ
ップスのようなジャンルは、同じクラスターに属している。
このことから、音楽 CD を推薦するモデルを構築する際には、全ジャンルを対象とするモ
デルよりも、個々のジャンル別にモデルを構築するか、もしくは似たような好みを持つとさ
れるジャンルを分類し、各グループ別にモデルを構築した方が、より妥当であると考えられ
る。
本稿では、個別のジャンル別にモデルを構築するより、グループ別モデルを構築すること
とした。具体的には、購入頻度が高く企業にとって重要な商品群である四つのジャンル
(J-POP、ロック&ポップス、ブラック&ソウル、ヒップホップ&ラップ)に属するアーティ
ストの中から、売上数量上位 33 人のアーティストを分析対象にした。 15 さらに、消費者は普
段多くのCD(アルバム)の中から、ごく一部のCDしか購入しない傾向にあることから、購
買回数が 5 回以上で、かつ 4 アーティスト(4 枚以上のCD)を購入した 9,801 人を最終的な
分析対象とした。
4.3. 分析方法と分析手順
本分析では、特定アーティストに対するCDの購買回数に、 k 近傍ベースMBR(memory
based reasoning)という手法を適用し、ターゲット顧客にアーティスト(CD)を推薦するモ
デルを作成する。 16
MBRアルゴリズムでは、顧客間の類似度は基本的に式 6 のユークリッド距離によって評
価されるのが一般的である。 17 今回の分析でも、顧客間の類似度をユークリッド距離を用い
て測定し、ターゲット顧客と最も距離の近い k 人の顧客を抽出し、それらの顧客をターゲッ
ト顧客の近傍顧客とみなす。 18
15
16
17
18
詳しくは、付録 2 を参照されたい。
分析ツールとしては、SAS Enterpriser Miner 4.3 Memory-based Reasoning を用いた。
Dis (c a , ci ) =
n
∑ (c
i =1
a
− ci ) 2
(式 6)
k 類似顧客とは、学習データのうち、ターゲット顧客 ca に距離が近い順に並べたとき、それが上
位 k 位以内に含まれる学習データの集合のことである。
21
廉
民善
MBR手法では、ターゲット変数がカテゴリー型の場合は分類問題となり、数値型の場合
には予測問題として扱われる。MBR手法における分類問題を扱う場合、新しいレコード( c a )
が与えられた際、ターゲット顧客と最も距離が近い k 人を学習データから抽出し、 k 人の持
つ最も一般的な(多数決原理)属性値が、ターゲット変数の属性値となる。一方、ターゲッ
ト変数が連続型の場合には、式 7 の尺度を用いターゲット顧客と最も距離が近い k 人を学習
データから抽出して、 k 人の持つ平均値をターゲット変数の値とする。 19 今回の分析では、
図 3 の階層型クラスタリングの結果に基づき、売上数量上位 33 人の中で、特定アーティス
トのCDの購買有無をターゲット変数とし、残り 32 人のアーティスト別の購買回数を入力変
数とした、特定アーティストのCDの購買有無を分類するモデルを作成する。
以下では、音楽 CD 購買履歴データに近傍ベース MBR 手法を適用する手順を示す。
① 正規化された顧客−アーティスト行列の作成
購買回数が 5 回以上でかつ 4 アーティスト(4 枚以上のCD)を購入した顧客を対象とし、
顧客毎のアーティスト別購買回数となる顧客−アーティスト行列を作成した上で、購買回数
を式 8 によって正規化する。 20
② データの分割
データを無作為抽出によって、学習データ(training data)40%、テストデータ(test data)
30%、バリデーションデータ(validation data)30%と三つに分ける。
③ MBR 手法による分類モデルの作成
まず、学習データをスキャンし、メモリに保存する。次に、ターゲット顧客( c a )とメ
モリに保存されている学習データに属する顧客間の類似度を、ユークリッド距離を用いて測
定し、最も距離の近い k 人の顧客を類似顧客(k-nearest neighbors)とする。さらに、 k 人の
類似顧客の評価値に基づいて、特定アーティストに対するターゲット顧客の潜在的な選好度
(購買有無の確率)を、多数決原理により顧客毎に算出する。
尚、今回の分析では、ターゲット変数と入力変数との相関係数の絶対値を用いてウェイト
付けを行い、特定アーティストのCDに対する選好度を分類する。すなわち、ユークリッド
19
20
pca =
∑
k
i =1
f (ci )
(式 7)
k
Normalized ( f i , j ) =
f ij − Min( f j )
Max( f j ) − Min( f j )
(式 8)
22
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
距離を用いて顧客間の類似度を計算し、 k 人の類似顧客を抽出した上で、入力変数とターゲ
ット変数との相関係数によって、ウェイト付けを行っている。したがって、購買パターン、
または嗜好が似ている顧客によって、高い頻度で購買されるアーティスト(CD)が優先的
にターゲット顧客に推薦されることになる。 21
5. 分析結果とモデルの精度評価
協調フィルタリング手法では、複数の類似顧客による評価値を用いて未評価値の予測を行
うため、適切な類似顧客が見つかるか否かが予測精度に大きく影響する。すなわち、類似顧
客数が少なければ、実際には似ていない顧客を類似顧客とみなしてしまう可能性が増え、質
の良い推薦が行えない。一方、類似顧客数が多すぎると、類似度の低い顧客の評価値が予測
のノイズになり、推薦の質が低下してしまう (二方, 2003)。
図 6 は、適切な類似顧客を抽出するため、
図6
類似顧客数 k の決定
k のサイズを変更しながら誤分類率と関係
を見たものであり、横軸は類似顧客数を、縦
軸は k に対応する誤分類率を示している。今
0.300
0.250
回の分析では、適切な類似顧客を発見するた
0.200
め学習データを用い、類似顧客数( k )を変
更しながら、最も誤分類率の小さくなった
k =16 を類似顧客として採用した。
0.150
0.100
また、誤分類行列を用いモデルの精度を行
は 87.12%と比較的高くなっている(表 2)。
但し、全体の正分類率に関しては改善の余地
21
ptarget =
∑ similarity(R
ci ∈k - NearestNeighbors
∑
target
, Rinput ) fca , I i
similarity(Rtarget , Rinput )
Misclassification Rate
Test:Misclassification Rate
50
29
26
23
20
17
14
8
11
0.000
1
際のCD購買者を購買者として分類した比率
0.050
4
。表に示されているように、実
った 22(図 7)
Valid:Misclassification Rate
(式 9)
ci ∈k - NearestNeighbors
ここで、 p target は、ターゲット変数の購買有無を表しており、 Rtarget と Rinput は、それぞれターゲッ
ト変数の属性値(購買有無)と入力変数の属性値(正規化された購買回数)を表している。また、
f ca , I i は、ターゲット顧客が各アイテム I i における正規化された購買回数を意味する。
22
表 2 は、分類の閾値を変更しながら、最も分類率が高くなったところ(図 7)における、誤分類行
例を表している。
23
廉
図7
民善
正分類率グラフ
表2
閾値 15 における誤分類行列
予測値
実際値
0
1
0
33.75%
66.25%
1
12.88%
87.12%
注)1:購買、0:非購買
図8
ゲイングラフ
図9
リフトグラフ
がある。
さらに、ゲイングラフ(図 8)とリフトグラフ(図 9)を用い、モデルの性能を評価した。
図 8 の累積ゲインチャートは、ベースラインに対してモデルに基づく曲線の位置付けを評
価するものであり、ベースラインよりもモデルの曲線が離れているほうがパフォーマンスが
よいと評価される。グラフの横軸は学習によって得られた CD 購入者である確率の高い順番
に並べたケース(個体)の割合(%)であり、10 に近いほど CD 購買者である確率が高く、
10 から離れる(右側にいく)に従って CD 非購買者である確率は低くなる。一方、縦軸は全
CD 購買の人数を分母とし、実際 CD 購買者であった人数を分子とした時の割合(%)を表
24
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
す。例えば図 8 では、ある特定アーティストの CD に対する購買確率を高い順番にケースを
並べた場合、上位 30%内に特定アーティストの CD を購入した顧客の 50%が含まれているこ
とを表している。従って、上位 30%の顧客をターゲットとした場合、当該アーティストの
CD を購入した顧客の約 50%が特定可能である。このことは、顧客を平等に扱うプロモーシ
ョンではなく、企業にとって価値のある顧客をターゲットとする、顧客差別化に基づく価格
戦略の可能性を示している。
また、図 9 のリフトグラフによると、不特定多数の顧客にランダムにメールを送る場合の
顧客反応率に比べて、今回構築された推薦モデルの方が、2.1 倍高く、顧客反応率が高くな
っていることが確認された。 23 インターネットの普及により、Eメールは、顧客からのフィ
ードバックを容易に受けることが可能で、かつ時間もコストもかからない点が非常に高く評
価されている。さらに、インターネットの高いインタラクティブ性を生かして、個々の顧客
との長期的な関係を築く上で欠かせないCRMのツールとして優れていることは事実である。
しかしながら、不特定多数の消費者にメールを送ったとしても、SPAMメール(迷惑メール)
として認識する可能性が高くなってしまう点に注意が必要である。
6. 総括と実務上の含意
6.1. まとめ
本稿では、実際の音楽 CD 購買履歴データを協調フィルタリング手法に適用し、実証分析
を行った。具体的には、アーティスト別の購買回数を顧客による暗黙的な評価値として捉え、
音楽 CD 購買履歴データをメモリベース協調フィルタリング手法に適用することによって、
アーティスト推薦モデルを作成した。その結果、不特定多数の消費者に対し、ランダムにメ
ールを送る場合に比べて、今回構築された推薦モデルの方が、顧客反応率が約 2 倍高く、優
れていることが確認できた。
このことから、類似顧客の嗜好に基づいて推薦対象の消費者にアイテムを推薦した場合、
消費者は、購買意思決定における情報処理の負担が軽くなり、その結果、顧客満足や顧客ロ
イヤルティが向上され、最終的には企業の利益の向上に貢献できるようになると考えられる。
6.2. 研究意義と今後の課題
第一に、本研究では、協調フィルタリングをリレーションシップ・マーケティングの考え
23
リフトグラフは、無作為に顧客を抽出場合に比べて、予測モデルを用いることにより何倍の効果が
得られるかという倍率を表すものである。
25
廉
民善
方を実践する手段として捉え、その有効性を明らかにした。情報不足の時代においては、一
方的なコミュニケーションを通じて大量の情報を提供し、情報に対する認知率を高めること
に重点が置かれていた。しかし、今日のような情報過多の時代では、消費者の情報処理能力
の限界を考慮し、多くの情報から有用な情報を適切かつ迅速に消費者側に提供する能力の方
がより重要視される。協調フィルタリング手法を用いることにより、多種多様な情報の中か
ら各々の顧客の興味や嗜好に合った情報や特定アイテムを推薦することで、消費者の情報探
索・情報処理コストは軽減され、顧客満足度の向上が期待される。また、消費者ニーズの多
様化が進む状況において、顧客ニーズを先取りし、その変化にリアルタイムで対応できる協
調フィルタリングに基づく企業と顧客との長期的な相互作用は、顧客との緊密な関係強化や
顧客ニーズの学習を可能にする。さらに、進化する顧客ニーズを先取りし、その変化にリア
ルタイムで対応していく能力および蓄積された顧客知識の活用能力は、企業に持続可能な競
争優位をもたらす。
第二に、リレーションシップ・マーケティングの実践手段としての有効性に加え、協調フ
ィルタリング手法が顧客の立場に立って顧客のことを考える、顧客志向的なマーケティング
手法であることを明らかにした。すなわち、協調フィルタリング手法は、当該顧客と好みが
類似している顧客が好む商品・サービスは当該顧客に好まれる、という考え方に基づいたも
のであり、顧客ニーズや要求を最優先視する顧客志向的マーケティング手法であるといえる。
以上のように、本稿の貢献は、コンピュータ・サイエンスや人工知能分野を中心にして研
究されてきた協調フィルタリング手法を、マーケティング論における顧客マネジメントの観
点から捉え直し、協調フィルリングのマーケティングにおける意義を示したこと、そしてデ
ータマイニング手法を用いた実証分析によりその有効性を示したことにある。
協調フィルタリングは、WEB 上で顧客との個別対応を通じて、顧客と関係性の強化を図
る顧客マネジメントの実践手段(CRM)として有効であり、今後リレーションシップ・マ
ーケティングの考え方を実践するという観点からも更なる研究の蓄積が必要であろう。
一方、いくつかの残された課題がある。まず、今回の分析においては、協調フィルタリン
グアルゴリズムの理解や消費者購買履歴データに協調フィルタリング手法を適用すること
に焦点が置かれており、実証研究としての基礎的なものに過ぎない。すなわち、今回の分析
では、音楽 CD 購買履歴を用いてアーティスト推薦モデルを作成しているが、今後はより細
かい推薦が可能となるよう、個別の CD を推薦するモデルを作成する必要がある。また、今
回の分析においては、顧客間の類似度の尺度としてユークリッド距離を用いているが、いく
つかの類似尺度との比較を行い、最適な類似尺度を用いてモデルを構築する必要がある。さ
らに、離脱と満足度、そしてロイヤルティ等のような代理指標を作成することにより、協調
26
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
フィルタリングの具体的な効果もしくは成果を明確にする必要がある。
これらのことについては、今後の課題にしたい。
6.3. 実務上の含意
本研究は実務上次のようなことを示唆している。
第一に、企業は情報を提供することに留まることなく、消費者が多くの情報から有用な情
報を適切かつ迅速に情報を選択できるよう、努力しなければならないことを示唆する。協調
フィルタリングは、今日のような情報氾濫の時代において、消費者が多くの情報から有用な
情報を適切かつリアルタイムで選択できるように手助けしてくれる。今後の E コマースのよ
り急速な広がりを考えると、インターネットの高いインタラクティブ性を生かすことで、一
人ひとりの顧客に対し、よりきめ細かで個別化された製品やサービスを提供する能力は一層
重要になってくると考えられる。
第二に、音楽CD購買履歴データを用いた実証研究の結果は、ビジネスに対するひとつの
インプリケーションである。例えば、消費者が過去に購入したことのないアーティスト、も
しくは商品などを推奨することで、今まで知らなかったアーティストに関心を持つようにな
り、その結果新たな購買行動につながる可能性は高くなる。 24
第三には、協調フィルタリングは、企業側に強力な潜在的競争優位をもたらす可能性を秘
めていることである。すなわち、企業と顧客との双方向コミュニケーションを通じて得た顧
客に関する知識は、顧客ニーズの変化への対応能力を高め、市場における企業の競争能力を
一層強くしてくれる。言い換えれば、協調フィルタリングを通じて、リアルタイムで更新さ
れる購買履歴、もしくは顧客との関係性を構築する能力が、他社との差別化を作り出し、持
続可能な競争優位の獲得に大きく寄与できるであろう。
要約すると、膨大な情報の中から、有用かつ適切な情報をリアルタイムで個々の顧客に提
供すれば、消費者の購買意思決定に必要とされるコストは低減され、顧客の満足度は向上さ
れ、そのような散発的な満足が長期間にわたって累積されれば、顧客・ロイヤルティが高ま
り、顧客維持率や企業収益率の上昇が期待される。このことから、協調フィルタリングはマ
ーケティングの根本に影響を与える可能性があり、特に CD のような製品カテゴリーを扱う
企業は、協調フィルタリングの導入と実施を検討すべきである。
謝辞
本稿に対し査読者の方から有益なコメントをいただきました。ここに記して感謝の意を表します。
24
例を付録 3 に示す。
27
廉
民善
また、本研究をすすめるにあたりご指導頂いた成蹊大学大学院経営学研究科の相原修教授と野島美保
助教授、そして成蹊大学理工学部情報科学科の岩崎学教授にこの場をお借りしまして深くお礼申し上
げます。
参考文献
阿部誠, 近藤文代 (2005)『マーケティングの科学―POS データの解析』朝倉書店.
Ansari, A., Essegaier, S., & Kohli, R. (2000). Internet recommendation systems. Journal of Marketing
Research, 37(3), 363-375.
新井範子 (2005) 「エントロピーを利用した推薦システムの提案―協調フィルタリングの新たな展開」
『マーケティング・ジャーナル』25(3), 4-13. 日本マーケティング協会.
Basu, C. H., & Cohen, W. (1998). Recommendation as classification: combining social and content-based
information in recommendation. Proceedings of the Fifteenth National Conference on Artificial Intelligence,
AAAI-98, 714-720.
Blattberg, R. C., & Deighton, J. (1996). Manage marketing by the customer equity test. Harvard Business
Review, 74(4), 136-144.
Breese, J. S., Heckerman, D., & Kadie, C. (1998). Empirical analysis of predictive algorithms for collaborative
filtering. Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence Technical, 43-52.
Day, G. S. (1994). The Capabilities of market-driven organizations. Journal of Marketing, 58(4), 37-52.
Fornell, C. (1992). A national customer satisfaction barometer: The Swedish experience. Journal of Marketing,
51(1), 6-21.
Goldberg, D., Nichols, D., Oki, B. M., & Terry, D. (1992). Using collaborative filtering to weave an
information tapestry. Communications of the ACM, 35(12), 61-70.
Haubl, G., & Trifts, V. (2000). Consumer decision making in online shopping environments: The effects of
interactive decision aids. Marketing Science, 19(1), 4-21.
Herlocker, J., Konstan, J., Borchers, A., & Riedl, J. (1999). An algorithmic framework for performing
collaborative filtering. Proceedings of the 22nd Annual International ACM SIGIR Conference on Research
and Development in Information Retrival, 230-237.
Herlocker, J., Konstan, J., Terveen, L., & Riedl, J. (2004). Evaluating collaborative filtering recommender
systems. ACM Transactions on Information Systems (TOIS), 22(1), 5-53.
石野正彦, 八巻直一, 市川照久 (2004) 「商品属性を用いたレコメンデーション・システムの提案」『情
報処理学会研究報告 (2004-IS-90)』6, 41-46.
Konstan, J. A., Miller, B. N., Maltz, D., Herlocker, J. L., Gordon, L. R., & Riedl, J. (1997). GroupLens:
28
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
Applying collaborative filtering to Usenet news. Communications of the ACM, 40(3), 77-87.
Manos, P., & Dimitris, P. (2004). Qualitative analysis of user-based and item-based prediction algorithms for
recommendation agents. CIA 2004, 152-166.
Mithas, S., Krishnan, M. S., & Fornell, C. (2005). Why do customer relationship management applications
affect customer satisfaction? Journal of Marketing, 69(4), 201-209.
守口剛 (2001)「マーケティングにおけるデータマイニングの役割」『品質管理』52(3), 16-22. 日本科
学技術連盟.
二方厚志 (2003) 「商品の特徴を用いた顧客志向の推薦システムの提案―新商品を推薦可能な協調フ
ィルタリング手法の開発」『電力中央研究所報告通信』R02011, 1-14.
野島美保 (2005)「情報過多時代における情報選択とオンライン小売業の戦略マネジメント」東京大学
大学院経済学研究科博士論文.
大杉直樹, 門田暁人, 森崎修司, 松本健一 (2004) 「協調フィルタリングに基づくソフトウェア推薦シ
ステム」『情報処理学会論文誌』45(1), 267-278.
Pine, B. J., Peppers, D., & Rogers, M. (1995). Do you want to keep your customers forever? Harvard Business
Review, (1995, March-April), 103-119.
Resnick, P., Iacovou, M., Suchak, M., Bergstrom, P., & Riedl, J. (1994). Grouplens: An open architecture for
collaborative filtering of netnews. ACM Conference on Computer Supported Cooperative Work (CSCW’94),
175-186.
Sarwar, B., Karypis, G., Konstan, J., & Riedl, J. (2001). Item-based collaborative filtering recommendation
algorithms. Proceedings of the 10th international World Wide Web Conference (WWW10), 285-295.
Shardanand, U., & Maes, P. (1995). Social information filtering: Algorithms for automating word of mouth.
Proceedings of ACM Conference on Human Factors in Computing System (CHI'95), 1, 210-217.
Simon, H. A. (1945). Administrative behavior. New York: Free Press. 邦訳, (1989) H・A・サイモン『経営行
動』松田武彦, 高柳暁, 二村敏子 訳. ダイアモンド社.
Huang, Z., Chen, H., & Zeng, D. (2004). Applying associative retrieval techniques to alleviate the sparsity
problem in collaborative filtering. ACM Transactions on Information Systems, 22(1), 116-142.
〔2006 年 11 月 28 日受稿; 2007 年 1 月 4 日受理〕
29
廉
付録 1
民善
協調フィルタリングの原理
ここで、 Ri , j はアイテム j に対する顧客 ci の評価値であり、 Ri は、式(1)のように顧客 ci の平
均評価値を表している。また、 I i は、顧客 ci が評価したアイテムの集合である。
Ri =
1
Ii
∑R
j∈I i
(1)
i, j
以下では、グループ・レンズのネットニュースの記事推薦システムを取り上げ、協調フィルタリン
グの原理について説明する。
グループ・レンズのシステムでは、まず下記の表のように、顧客は記事に対して 5 段階の評価を入
力する必要がある(用語および記号の統一のため、記事を i 、ユーザーを c と表記する)
。次に、顧客
の評価値からピアソンの相関係数を用いて顧客間の類似度を計算する。具体的には、当該顧客 c a と
同じ記事に対して評価を行っている他の顧客( c 2 , c3 , c 4 )間の相関係数を計算し、これを類似度と
する。例えば、当該顧客 c a と顧客 c 2 との類似度は、-0.8 となる。
similarity(Ca ,C2 ) =
covar(Rca , Rc2 )
σ RC σ RC
a
= −0.8
2
同じく当該顧客 c a と顧客 c3 との類似度は 1.0、当該顧客 c a と顧客 c 4 との類似度は 0.0 となる。こ
のことから、当該顧客 c a と顧客 c 2 とは嗜好が相反しており、当該顧客 c a と顧客 c 3 は、似たような嗜
好を持つ。また、顧客 c a と顧客 c 4 との嗜好には関係性がないと解釈をする。
付録表 1 顧客によるネットニュースの記事に対する評価
i1
i2
i3
i4
i5
ij
ca
c2
c3
c4
1
5
4
2
2
4
2
4
2
4
5
1
2
p a, j
5
1
5
合計
平均評価値
類似度
重み
平均からの偏差
重み付き偏差
3
3
-0.8
1.8
-1
0.8
注)Resnick et al., 1994 を加筆修正し、作成。
30
3
1
1
2
2
3
0
0
-3
0
1.8
1.6
2.8
音楽 CD 購買履歴データを用いたアーティスト推薦モデル
さらに、当該顧客 c a の未読の記事 i j に対する潜在的選好度 p a , j は、以下のように、 c a 以外の顧客
( c 2 , c3 , c 4 )による評価値に、類似度の重みを付けて足し合わせることによって求められる。
pa , j = Ra +
∑ ( R − R )similarity(c , c ) = 3 + 2.8 = 4.6
1.8
∑ similarity(c , c )
i, j
i
a
a
i
i
付録 2 売上数量上位 33 人(単位:円)
順位
アーティスト名
売上数量
順位
アーティスト名
売上数量
1
オムニバス
60,705
18
B’z
7,069
2
Mr.Children
22,337
19
ブリトニー・スピアーズ
6,878
3
ケツメイシ
16,550
20
ゆず
6,822
4
オレンジレンジ
14,980
5
平井堅
6
Def
7
8
ASIAN
21
13,938
GENERATION
6,759
13,774
22
aiko
6,757
浜崎あゆみ
13,493
23
KinKi Kids
6,597
宇多田ヒカル
11,459
Tech
BUMP
24
9
KUNG−FU
EXILE
10,516
OF
CHICKEN
6,423
10 サザンオールスターズ
10,488
25
アヴリル・ラヴィーン
6,420
11 ポルノグラフィティ
10,210
26
Utada
6,297
12 中島美嘉
9,407
27
クイーン
6,142
13 BoA
7,967
28
MISIA
6,127
14 L’Arc∼en∼Ciel
7,910
29
スピッツ
5,711
30
CHEMISTRY
5,684
31
平原綾香
5,274
7,506
32
SMAP
5,187
7,445
33
安室奈美恵
5,070
DREAMS
15
COME
7,746
TRUE
16 Crystal
17 大塚愛
Kay
* 企業にとって重要な商品群である四つのジャンル(J-POP、ロック&ポップス、ブラック&
ソウル、ヒップホップ&ラップ)に属するアーティストの中から、売上数量上位 33 人のア
ーティストを分析対象にした。
31
廉
付録 3
民善
クロス集計表:アーティスト S(購買回数)×アーティスト H(購買回数)
アーティスト H
アーティスト
S
0
1
2
3
4
5
6
7
8
9
10
21
SUM
0
6111
1853
401
99
26
13
5
2
1
0
0
0
8511
1
553
199
63
17
9
4
1
1
1
0
0
0
848
2
154
67
24
5
2
1
1
0
0
0
0
0
254
3
50
23
14
2
3
0
0
0
0
0
0
0
92
4
37
8
4
2
1
0
0
0
0
0
1
0
53
5
7
2
0
0
0
1
0
0
0
1
0
0
11
6
3
3
0
0
0
0
0
0
0
0
0
0
6
7
2
0
0
0
0
0
0
0
0
0
0
0
2
8
1
0
1
1
0
0
0
0
0
0
0
0
3
11
1
0
0
0
0
0
0
0
0
0
0
0
1
12
1
0
0
0
0
0
0
0
0
0
0
0
1
14
0
0
0
0
0
0
0
0
0
0
0
1
1
15
1
1
0
0
0
0
0
0
0
0
0
0
2
18
0
0
0
1
0
0
0
0
0
0
0
0
1
44
3
1
0
0
0
0
0
0
0
0
0
0
4
45
2
2
0
0
0
0
0
0
0
0
0
0
4
46
1
0
0
0
0
0
0
0
0
0
0
0
1
47
2
0
0
0
0
0
0
0
0
0
0
0
2
48
1
1
0
0
0
0
0
0
0
0
0
0
2
51
2
0
0
0
0
0
0
0
0
0
0
0
2
SUM
6932
2160
507
127
41
19
7
3
2
1
1
22
9801
* 例えば、消費者が過去に購入したことのないアーティスト、もしくは商品などを推奨することで、今まで
知らなかったアーティストに関心を持つようになり、その結果新たな購買行動につながる可能性は高くな
る。
32
赤門マネジメント・レビュー編集委員会
編集長
編集委員
編集担当
新宅 純二郎
阿部 誠 粕谷 誠
高橋 伸夫
藤本 隆宏
西田 麻希
赤門マネジメント・レビュー 6 巻 1 号 2007 年 1 月 25 日発行
編集
東京大学大学院経済学研究科 ABAS/AMR 編集委員会
発行
特定非営利活動法人グローバルビジネスリサーチセンター
理事長 高橋 伸夫
東京都千代田区丸の内
http://www.gbrc.jp
Fly UP