Comments
Transcript
構造化プロファイルを用いた個人化 Web 検索システム Personalized
DEWS2008 B2-6 構造化プロファイルを用いた個人化 Web 検索システム 岩﨑 周造† 太田 学† †岡山大学大学院自然科学研究科 〒700-8530 岡山市津島中 3-1-1 E-mail: †{iwasaki, ohta}@de.it.okayama-u.ac.jp あらまし Web 検索において,ユーザごとに異なる検索意図に対応するため,個別のランキング結果を提示する 手法が個人化 Web 検索である.しかし,同一のユーザでも多様な興味の状態を持ち,その状態によって要求する Web ページも変化する場合がある.そのため,一様な個人化が全ての興味状態に有効に働くとは限らない.そこで 本研究では,それら多様な興味状態を反映するため,ユーザプロファイルを構造化した個人化 Web 検索手法を提案 する. キーワード Web 検索,パーソナライゼーション,構造化 Personalized Web Search Using a Structured Profile Shuzo IWASAKI† and Manabu OHTA† †Graduate School of Natural Science and Technology, Okayama University 3-1-1 Tsushimanaka, Okayama-shi, Okayama, 700-8530 Japan E-mail: †{iwasaki, ohta}@de.it.okayama-u.ac.jp Abstract This paper proposes a personalized Web search technique giving a personalized rank list of search results. We know a user has a variety of interests and requests different results depending on their varying interests. Therefore, the same personalization does not necessarily work effectively even for the same user. Our personalization technique uses a structured profile in order to handle such various interests of one user. Keyword Web Search, Personalization, Structuring 1. は じ め に そのコミュニティー内で優良なサイトを推薦しあう. イ ン タ ー ネ ッ ト の 利 用 に お い て , Google[3] や 個人化検索では,ユーザの興味情報をプロファイルと Yahoo![5]を 始 め と し た Web 検 索 は 非 常 に 重 要 な シ ス してデータ化し,それに沿った検索結果のランキング テ ム で あ る .こ の よ う な Web 検 索 シ ス テ ム で は ,デ ー を ユ ー ザ ご と に 提 示 す る .こ れ ら の β サ ー ビ ス と し て , タ ベ ー ス 化 し た 膨 大 な Web ペ ー ジ 情 報 か ら ,独 自 の 方 My Web[6]や Google Personalized Search[3]が 試 験 的 に 法で検索結果をランキングし提示している.これによ 運営されている.本研究ではランキングを個人化する り,クエリに対して一般的に有用度が高いであろうペ 個人化検索を扱う. ージが上位にランクされ,ユーザが要求するページを 発見しやすくなる. また,同じユーザでも仕事に関心があるときや趣味 に関心があるときなど,複数の興味の状態を持ち,そ しかし,インターネットの普及に伴い,個人ページ の 興 味 状 態 に 応 じ て ,要 求 す る Web ペ ー ジ も 異 な る と や ブ ロ グ な ど Web 上 の 情 報 量 の 増 加 が 著 し い . ま た , 仮定する.この場合,一様な個人化がユーザの全ての クエリによっては複数の意味を持つ語がある.例えば 興味状態に対し有効に働くとは限らない.そこで,本 “ マ ッ ク ”と い う 単 語 は ,OS で あ る“ マ ッ キ ン ト ッ シ 研究では構造化したユーザプロファイルを用い,多様 ュ”とファーストフード店の“マクドナルド”の両方 な 興 味 状 態 に 対 応 で き る 個 人 化 Web 検 索 手 法 を 提 案 を表わし,検索結果にはどちらのページも含まれてし する.構造化したプロファイルは,ユーザの多様な興 まう.以上から,増加する雑多なページや複数の意味 味状態を表わす. を持つクエリによるページはユーザの検索意図と異な るノイズとなり,検索時間や手間の増大に繋がる. そ の 対 策 と し て ,SNS(ソ ー シ ャ ル ネ ッ ト ワ ー キ ン グ 関連研究として,井上らの“興味傾向単語の抽出に よ る パ ー ソ ナ ラ イ ズ ド 検 索 シ ス テ ム の 提 案 と 実 装 [1]” が あ る .こ の 研 究 で 井 上 ら は ,Google の 検 索 結 果 か ら サ ー ビ ス )検 索 や 個 人 化 検 索 が 挙 げ ら れ る .SNS 検 索 で 得られた特徴語をそのユーザの興味を表す興味語とし, は ,似 た 興 味 を 持 つ ユ ー ザ の コ ミ ュ ニ テ ィ ー を 作 成 し , ランキングの個人化に用いている.本研究では,個人 られる. しかし,これら名詞の中には特徴を表す語として不 適切なものもある.そこで,それらを無視語として除 外 す る よ う フ ィ ル タ リ ン グ を 行 っ た .無 視 語 は ,http, www, web と い っ た イ ン タ ー ネ ッ ト 用 語 や , 情 報 , 案 内,一覧などの語である. 特徴語の重みの計算 各ページの特徴語について,それぞれの重みを計算 す る . 重 み に は TF-IDF 法 を 用 い た . し か し , ク エ リ 図 1: 個 人 化 処 理 の 流 れ はどのページにも出現するため,クエリに含まれる特 徴語の出現ページ数 df は総ページ数と等しく突出し 化手法にこの興味語を採用した.また,プロファイル て 大 き い .ま た ,ク エ リ と 関 連 性 が 強 い 特 徴 語 の の 構 造 化 を 行 わ な い 一 様 な 個 人 化 に つ い て ,“ 興 味 単 大きくなる場合があり,これらの tfidf df も 値は極端に小 語 を 用 い た 個 人 化 Web 検 索 [2]”で 検 証 を 行 い ,一 定 の さい値となる.この影響を小さくするため, 効果を得た. 方根を取り補正を行った. df の平 本稿では,つづく 2 節と 3 節で提案手法の理論を説 明し,4 節でその理論に基づき実装したシステムにつ 2.2. ランキングの ランキング の 個 人 化 いて紹介する.5 節では,実装システムを用い実験と 特徴語の重みから各ページの重要度を計算し,再ラ その結果の考察を行った.最後に 6 節で本研究をまと ンキングを行う.再ランキングに用いるページの重要 める. 度は,特徴語と興味語の重みから計算した個人化ペー ジ重要度と元のランクから求めたランクページ重要度 2. 興 味 単 語 を 用 い た 検 索 結 果 の 個 人 化 の和で定義される. 本 手 法 で は Google の 検 索 結 果 を 形 態 素 解 析 し て 得 られた特徴語と,ユーザプロファイルに保存された興 個人化ページ重要度 味語を用いて個人化を行う.興味語とは,特徴語のう p の 個 人 化 ペ ー ジ 重 要 度 PI p の 計 算 式 で あ る .個 人 化 ペ ー ジ 重 要 度 PI p は ペ ー ジ p に 含 ま れ る 特 徴 語 w の 重 み tfidf w と 興 味 語 w の 重 み weight w か ら 求 め る . 各 ペ ー ジ の 特 徴 語 数 に は , ば ら つ き が あ る た め , 特 徴 語 数 NW p で 割 っ た . ちユーザの興味を表す語である.それぞれの語には重 みがあり,その重みから各ページの重要度を求め再ラ ンキングに用いる.本節では,まず興味状態を考慮し ない個人化手法について説明する.図 1 は,個人化処 理の流れ図である.処理 3 が終了した時点でユーザに 式 (1)は ペ ー ジ ∑ tfidf 検索結果を提示し,ユーザがページをクリックすると 処理 4 が行われる. PI p w ⋅weight w w = NW p 2.1. 特 徴 語 の 抽 出 と 重 みの計 みの 計 算 (1) 特 徴 語 を Google の 検 索 結 果 か ら 抽 出 し ,そ の 重 み を 計算する. ランクページ重要度 形態素解析とフィルタリング ページ重要度 p の 元 の ラ ン ク rp を 基 に し た ラ ン ク RI p の 計 算 式 で あ る . 元 の ラ ン ク rp は , の検索結果での順位であり, N は取得ページ 式 (2)は ペ ー ジ Google の 検 索 結 果 の う ち ,タ イ ト ル と ス ニ ペ ッ ト に ついて形態素解析を行い,特徴語を抽出する.形態素 Google 数である. 解 析 に は MeCab[7]を 用 い た . MeCab で は , 文 を 名 詞 , 動詞,助詞,接続詞などの品詞に分解し,さらに一般 名詞,自立名詞,係助詞などに細分類する.本手法で は,これらのうち一般名詞,サ変接続名詞,固有名詞 を各ページの内容を表すのに相応しい語と考え特徴語 RI p = N − rp + 1 (2) ページ重要度 式 (3)は ペ ー ジ p のページ重要度 I p の計算式であり, とした.例として,一般名詞は海や川,サ変接続名詞 個人化ページ重要度とランクページ重要度の和で表さ は運転や発表,固有名詞は日本やアメリカなどが挙げ れる.個人化ページ重要度 PI p は そ の 最 大 値 PI max で 3.1. プロファイルの プロファイル の 構 造 化 本手法で提案するプロファイルはツリー構造をも つ.ツリー構造の各ノードは,ユーザの興味状態を表 しており,それぞれ別々に興味語が保存される.個人 化では,ユーザの現在の興味状態に対応するノードを 推定し,そのノードと親ノードの興味語を用いてペー ジ重要度を求める. また,ツリー構造において親ノードはその全子ノー ドの興味語を全てもつ.ただし,親ノードの興味語の 重 み は 子 ノ ー ド に 比 べ 小 さ く な る よ う に し た .よ っ て , 下位のノードほど専門性が増すこととなる. 図 2: 構 造 化 プ ロ フ ァ イ ル と 個 人 化 処 理 の 流 れ 3.2. 興 味 ノードの ノード の 決 定 RI p は 取 得 ペ ー ジ 数 N で 割 っ て 正 規 化 す る .個 人 化 率 rate は , PI p と RI p の 比 率 含まれていると考えられる.そこで,検索結果からユ を表している.この比率を調節することで,個人化の ーザの興味状態を推定し,興味ノードを決定する.興 度合いを変更することが可能である. 味ノードとは,プロファイルのツリー構造において, 割 り ,ラ ン ク ペ ー ジ 重 要 度 検索結果には,現在のユーザの興味に関する情報が ユーザの現在の興味状態に最も近いと考えられるノー Ip = PI p PI max rate + RI p N (1 − rate) ド で あ る . 2.2 節 に お け る ペ ー ジ 重 要 度 は , 興 味 ノ ー (3) ドとその親ノードの興味語を用いて計算する.これに より各興味状態に応じたページ重要度を求めることが できる. こうして得られたページ重要度順にページをソー トし,検索結果の再ランキングを行う. 興味ノードスコアの計算 興 味 ノ ー ド の 決 定 に は ,式 (4)で 定 義 す る 興 味 ノ ー ド 2.3. プロファイルの プロファイル の 更 新 さ れ て い る Web ペ ー ジ に 移 動 す る と ,そ の ペ ー ジ に 含 まれる特徴語が興味語としてプロファイルに保存され w と そ の 重 み tfidf w で あ り , w がプロファイルに存在しない場合は新規作 る .保 存 さ れ る の は 特 徴 語 興味語 n の 興 味 ノ ー ド ス コ ア INS n w の出現ページ数 n に保存されている興味語 w の重み スコアを用いる.ノード ユーザが検索結果のタイトルをクリックし,リンク 成され,存在する場合は既存の重みに加算される. は,検索結果から抽出した特徴語 df w と ノ ー ド weight w か ら 求 め た 値 で あ る . こ れ は , ユ ー ザ の 興 味 状態と各ノードとのスコアとみなすことができる. NWw は ノ ー ド n の 興 味 語 数 で あ り , ス コ ア の 補 正 を 行っている. また,追加保存の前にユーザの興味情報の鮮度を保 つ た め の 忘 却 処 理 を 行 う .忘 却 処 理 で は ,忘 却 係 数 f を定め,プロファイルの更新時に全興味語の重みに乗 算する. ∑ df INS n = w ⋅ weight w w NWn (4) 3. 多 様 な 興 味 状 態 へ の 対 応 ユーザの多様な興味状態に対応するため,本手法で ツリーの走査 はプロファイルの構造化を行った.興味状態とは,検 ツリーの走査は,ルートノードを最初の暫定興味ノ 索時のユーザの興味や嗜好の状態である.本節では, ードとし幅優先探索で行う.暫定興味ノードとその全 構造化の詳細と,2 節で述べた個人化にどのように使 子ノードについて興味ノードスコアの比較を行い,最 用するかを詳述する.図 2 は,構造化プロファイルを も大きいスコアをもつノードを求める.それが暫定興 用いた個人化処理の流れ図である.プロファイルを構 味ノードの場合,そのノードを興味ノードとし,子ノ 造化するにともない,処理 3 と処理 4 において内部の ードの場合は,その子ノードを暫定興味ノードとして 処 理 が 増 え て い る .こ れ は ,構 造 化 し た プ ロ フ ァ イ ル を 同じ処理を繰り返す.また,興味ノードスコアには閾 走査する必要があるためである. 値 TINS を 設 け ,最 大 興 味 ノ ー ド ス コ ア が 閾 値 以 下 の 場 合,暫定興味ノードを興味ノードとする. 親ノードの興味語の補正 3.4. ツリー構 ツリー 構 造 の 修 正 ページ重要度の計算には,興味ノードの興味語が少 使用回数が増えるほど,構造は複雑化し,忘却処理 なく興味情報が不足する場合に備え,興味ノードと親 によって興味語の重みが極端に小さくなったノードや ノードがもつ興味語を用いる.ただし,親ノードの興 似たような興味語をもつノードが生じると考えられる. 味語の重みについては影響を小さくするために補正を そこでツリー構造の修正を行う. 行う.補正値 M IN (0 ≤ M IN ≤ 1) を 定 め , 親 ノ ー ド の 興味語の重みに乗算する. 不要ノードの削除 3.3. 保 存 ノードの ノード の 決 定 総和を,そのノードの重みとする.この重みが閾値 各ノードについて保存されている興味語の重みの プロファイルの更新は,ユーザが検索結果のいずれ TDNS 以 下 の 場 合 ,興 味 状 態 を 表 す の に 相 応 し く な い ノ かのページをクリックした時に行われる.このとき, ードとみなし削除する.削除する際,削除されるノー クリックされたページの特徴語は保存ノードとその全 ドの子ノードは親ノードの子として引継がれる. 親ノードに保存される.保存ノードは,クリックされ たページと最も関連性が高いと考えられるノードであ 類似度が高いノード同士の統合 ノード間の類似度を測定し統合判定を行う.類似度 る. は,興味語の重みをノードの特徴ベクトルとしたベク トル空間法に基づき計算した. 保存ノードスコアの計算 保存ノードを決定する指標には,保存ノードスコア n の 保 存 ノ ー ド ス コ ア SNS n は , ク リ ッ ク し た ペ ー ジ に 含 ま れ る 特 徴 語 w の 重 み tfidef w とノード n に保存されている興味語 w の重み weight w か ら 得 ら れ , 式 (5)で 定 義 す る . NWw は ノ ー ド n の興味語数である. を用いる.ノード ∑ tfidf SNS n = w まず,ノード w は ノ ー ド に 保 存 さ れ た 興 味 語 で あ り , weight max は そのノードにおける興味語の重みの最大値である. r weight w1 weight w2 , ,.... Vn = weight max weight max ⋅ weight w w NWn (5) 走査は,興味ノードとその全子ノードについて行う. それらの中で最も保存ノードスコアが大きいノードを 保 存 ノ ー ド と す る .た だ し ,閾 値 TSNS を 設 け ,最 大 保 (6) r次に r , 式 (7)か ら 2 つ の ノ ー ド n1 ,n2 の 特 徴 ベ ク ト ル Vn ,Vn の な す 角 を 求 め , 類 似 度 sim(n1 , n2 ) と す る . 1 ツリーの走査 n に つ いrて 保 存 さ れ て い る 全 興 味 語 の 重 み か ら 特 徴 ベ ク ト ル Vn を 式 (6)に も と づ き 求 め る . 2 r r Vn1 ⋅ Vn2 sim(n1 , n2 ) = r r Vn1 ⋅ Vn2 (7) 存ノードスコアが閾値より小さい場合は,興味ノード の子として新規に保存ノードを作成する.このように 統合判定はまず親子間で行い,その後で兄弟間で行 う . 統 合 判 定 で は , 閾 値 Tsim を 設 け , 類 似 度 が 閾 値 以 して,ツリー構造が成長していく. 上のノードを統合する.吸収するノードは,吸収され 特徴語の保存 るノードの興味語と子ノードを引継ぐ. 忘却処理を行った後,決定した保存ノードに,クリ ックしたページの特徴語とその重みを興味語として追 4. PSTree の 実 装 加保存する.その後,保存ノードの全親ノードにも同 2 節と 3 節で説明した本手法の実装について,イン M SN ターフェイスとその使用法を述べる.実装には,実際 じ特徴語を保存していく.同時に,補正値 (0 ≤ M SN ≤ 1) を 用 い て 特 徴 語 の 重 み を 補 正 し て い く . の 検 索 エ ン ジ ン と 同 等 の 使 用 感 を 出 す た め , Perl 言 語 これは,上位ノードほど興味語の重みを小さくするた を 用 い て サ ー バ 上 で 動 く CGI プ ロ グ ラ ム と し た .ま た , めである.これにより,上位ノードほど,興味語を多 プロファイルにツリー構造を使うことから,実装した く持つが各興味語の重みが小さいという親子関係が構 本 シ ス テ ム を “ PSTree” と 名 付 け た . 築される. ユ ー ザ は , ま ず ID と パ ス ワ ー ド を 入 力 し 本 シ ス テ ムにログインする必要がある.そして,検索やプロフ 図 3: イ ン タ ー フ ェ イ ス 5. 評 価 実 験 と 考 察 実装したシステムについて,再ランキングの精度評 価を行った.まず,実装システムの閾値設定のための 実験を行った.この実験では,パラメタを特徴的ない くつかの値に設定して複数のプロファイルを作成した. そ し て ,そ れ ぞ れ の プ ロ フ ァ イ ル で 検 索 し 再 ラ ン キ ン グした際の平均適合率を求めた.その後,平均適合率 の高い閾値について,別のクエリを用いて同様に平均 適 合 率 を 求 め た .な お ,検 索 結 果 の 取 得 件 数 を 100 件 , 式 (3)の 個 人 化 率 rate を 0.5 と し ,こ の 100 件 に つ い て 再ランキングを行う. また,プロファイルの構造が更新を重ねることで, どのように変化するかについても調べた. 図 4: プ ロ フ ァ イ ル の 部 分 木 ァイルの閲覧などを行う.検索では個人化の比率や取 得件数を指定することが可能である.図 3 に検索結果 を表示したときのインターフェイスを示す.ランクの 右に括弧で囲まれた数字は,元のランクである.この 例では,映画に関するプロファイルを用いている.よ って,同じ監督でも映画監督のページのランクが上が り,スポーツなどの監督は下がっているのがわかる. また,作成されるプロファイルの部分木の例を図 4 に示す.表示されている語は,各ノードに保存され て い る 興 味 語 の 上 位 6 件 で あ る . ノ ー ド No.13 に は プ ログラミングなどコンピュータ関連の語が含まれてい る . そ の 子 で あ る No.30 に は , そ の う ち ス パ ム 関 連 の 語 が ,No.37 に は SOA 関 連 の 語 が 保 存 さ れ て い る .ま た , 兄 弟 関 係 に あ る No.47 に は 異 な る 分 野 の 興 味 語 が 保存されている. 5.1. プロファイルの プロファイル の 作 成 プロファイルを作成するためは,実際に検索しペー ジをクリックする必要がある.プロファイルの作成に 用 い た ク エ リ 50 個 を 表 1 に 示 す . こ れ は Google デ ィ レ ク ト リ [4] の デ ィ レ ク ト リ 名 か ら 抽 出 し た も の で あ る .す な わ ち ,Google デ ィ レ ク ト リ に お い て 5 つ の デ ィ レ ク ト リ “ ア ー ト ”,“ 健 康 ”,“ コ ン ピ ュ ー タ ”,“ 家 庭 ”,“ 社 会 ” を 選 び , ク エ リ の カ テ ゴ リ 名 と し た . そ し て ,そ れ ぞ れ の サ ブ デ ィ レ ク ト リ 名 を 10 個 ず つ 選 択 し,そのカテゴリのクエリとした.検索では,タイト ルとスニペットから,そのクエリのカテゴリに属する と 判 断 で き る ペ ー ジ を 10 件 ク リ ッ ク し ,合 計 500 回 の プロファイルの更新を行った.このようにして,各パ ラ メ タ に つ い て プ ロ フ ァ イ ル を 作 成 し て い く .よ っ て , 作成したプロファイルは表 1 に示すクエリに興味をも つユーザのプロファイルと考えることができる. カテゴリ クエリ 表 1: プ ロ フ ァ イ ル の 作 成 に 使 用 し た ク エ リ と そ の カ テ ゴ リ アート 健康 コンピュータ 家庭 映画 フィットネス インターネット レシピ集 撮影所 ヨーガ ドメイン シェフ 演劇 歯科 プログラミング リフォーム C++ 歌舞伎 口腔外科 欠陥住宅 配給 ダイエット スパム パン XML 狂言 歯周病 一人暮らし フィルムコミッション エアロビクス プロバイダ 弁当 映画祭 ウォーキング サーバー 保存食 Perl 寄席 公衆衛生 引越し業者 演芸 骨粗鬆症 自然言語処理 一戸建て 社会 ゴミ問題 埋め立て 平和 紛争 原子力発電所 自衛隊 公害 環境保護 生物兵器 核兵器 表 2: パ ラ メ タ 設 定 の た め の ク エ リ と 正 解 ペ ー ジ の カ テ ゴ リ 健康 コンピュータ 家庭 正解ページのカテゴリ アート 監督 減量 接続 研究家 クエリ 能 矯正 言語 住居 能 27 監督 37 クエリ 個人化なし 一様な個人化 監督 0.416 0.428 減量 61 能 0.540 0.489 矯正 91 表 3: 正 解 ペ ー ジ 数 接続 言語 研究家 住居 82 37 57 54 エネルギー 58 表 4: 個 人 化 な し と 一 様 な 個 人 化 の 平 均 適 合 率 減量 矯正 接続 言語 研究家 住居 0.746 0.947 0.835 0.470 0.618 0.677 0.726 0.964 0.841 0.437 0.672 0.638 戦争 45 社会 エネルギー 戦争 平均 54.9 エネルギー 0.620 0.622 戦争 0.592 0.589 平均 0.646 0.641 した検索結果から求める.また,取得した検索結果の M IN と 補 正 値 M SN は 0.5 と し , 3.4 節 の プ ロ フ ァ イ ル の 修 正 に 用 い る 閾 値 TDNS は 1.0,閾 値 Tsim は 0.5 と し た .ま た ,忘 却 係 数 f は 0.99 と し た . 中に全正解文書があると仮定する.パラメタ設定のた ま ず ,各 ク エ リ の 正 解 ペ ー ジ 数 を 表 3 に 示 す .次 に , 5.2. 平 均 適 合 率 で あ る . 3.2 節 と 3.3 節 で 述 べ た 補 正 値 評 価 指 標 で あ る 平 均 適 合 率 は , 5.1 節 で 作 成 し た そ れぞれのプロファイルを用いて検索し,再ランキング め の 検 索 に 用 い る ク エ リ は ,同 様 に Google デ ィ レ ク ト 個人化を行わない場合とツリー構造を持たないプロフ リから選んだ.表 1 のカテゴリ名のディレクトリのサ ァイルによる一様な個人化について,平均適合率をそ ブ デ ィ レ ク ト リ か ら ,作 成 に 用 い た ク エ リ と は 別 に 10 れ ぞ れ 表 4 に 示 す . こ の 結 果 ,一 様 な 個 人 化 と Google 個用意し,それぞれの正解ページのカテゴリとともに の結果を比較すると優劣はクエリごとにまちまちで, 表 2 に示す. 平均では一様な個人化の方が低かった.これは,プロ また,本手法の比較対象として,個人化を行わない ファイルの作成に用いた表 1 のカテゴリ間の関連性が 場 合( Google の 検 索 結 果 そ の も の )と 一 様 な 個 人 化 を 薄いため,クエリによっては興味語がノイズとして働 行う場合についても同様に平均適合率を求めた.一様 いたためと考えられる. な個人化とは,2 節で述べた手法であり,プロファイ 次 に , 構 造 化 プ ロ フ ァ イ ル を 用 い 閾 値 TINS , TSNS を ルの構造化を行わない.また,一様な個人化に使用す 変 化 さ せ た と き の 平 均 適 合 率 に つ い て 述 べ る .図 5 は , る プ ロ フ ァ イ ル も , 5.1 節 と 同 様 に 作 成 し た . TINS - TSNS 平 面 に お い て 平 均 適 合 率 を 高 さ と し た グ ラ フである.グラフの青の点線は個人化なしの平均適合 率 を ,赤 の 点 線 は 一 様 な 個 人 化 の 平 均 適 合 率 を 表 わ す . 5.3. パラメタの パラメタ の 設 定 変 更 す る パ ラ メ タ は 3.2 節 と 3.3 節 で 述 べ た 興 味 ノ ードスコアの閾値 TINS と保存ノードスコアの閾値 ま た , グ ラ フ で の 各 TINS , TSNS に お け る 平 均 適 合 率 は , 5 つのクエリの平均適合率の平均である.このグラフ TSNS で ,そ の 他 の パ ラ メ タ は 固 定 し た .こ れ は ,こ の か ら , TINS が 3.0 以 上 の と き , 一 様 な 個 人 化 よ り も 平 2 つの閾値が,ページ重要度の計算やプロファイルの 均適合率が大きくなることがわかる.そして,一部で ツリー構造の更新に大きく影響すると考えられるから は 個 人 化 を 行 わ な い 場 合 よ り も 大 き く な っ た .し か し , 正解ページのカテゴリ クエリ 表 5: 検 証 実 験 用 の ク エ リ と 正 解 ペ ー ジ の カ テ ゴ リ 健康 コンピュータ 家庭 アート 評論 トレーニング アクセス 肉類 社会 グリーン 表 6: 平 均 適 合 率 の 比 較 クエリ 平均適合率の平均 個人化なし 0.408 一様な個人化 0.404 TINS = 3.0, TSNS = 0.2 0.409 TINS = 6.0, TSNS = 0.2 0.405 TINS = 5.0, TSNS = 0.5 0.412 表 7: 別 の プ ロ フ ァ イ ル で の 平 均 適 合 率 の 比 較 クエリ 図 5: TI - TS 平 面 に お け る 平 均 適 合 率 TINS が 3.0 未 満 で TSNS が 0.2 以 上 の と き は , 一 様 な 個 人化よりも平均適合率が小さくなった.よって,構造 平均適合率の平均 個人化なし 0.493 一様な個人化 0.565 TINS = 3.0, TSNS = 0.2 0.571 TINS = 6.0, TSNS = 0.2 0.569 TINS = 5.0, TSNS = 0.5 0.567 くなった.よって,異なるプロファイルでも閾値が有 効であることがわかる. 化プロファイルを用いた本システムでは,適切な閾値 設定が重要であることがわかる.よって,興味語をノ ードごとに分類し保存することで,より正確な個人化 を行える見通しを得た. 5.5. プロファイルの プロファイル の ツリー構 ツリー 構 造 ユ ー ザ の プ ロ フ ァ イ ル を 500 回 更 新 す る と き , ど の ようにプロファイルのツリー構造が変化していくかを 調 べ た . こ こ で , 興 味 ノ ー ド ス コ ア の 閾 値 TINS は 5.0 5.4. 平 均 適 合 率 による評 による 評 価 と し ,保 存 ノ ー ド ス コ ア の 閾 値 TSNS を 変 化 さ せ な が ら , 5.3 節 で 得 た 実 験 結 果 に つ い て ,平 均 適 合 率 の 上 位 3 更 新 50 回 ご と の ノ ー ド 数 と 興 味 語 の 総 数 を 調 べ た .プ 点の閾値を選び,別のクエリを用いて平均適合率を求 ロファイルの生成には,表 1 のクエリを用いた.その め 評 価 を 行 っ た . 用 い た プ ロ フ ァ イ ル は 5.1 節 と 同 じ 他 の 条 件 は 5.3 節 と 同 じ で あ る .ま た ,閾 値 TINS を 固 定 である.クエリは,表 1 のカテゴリについてそれぞれ したのは,増減させてもノード数に大きな変化がみら 新しく用意した.用いたクエリを表 5 に示す.これら れなかったためである. は , 表 2 と 同 様 に Google デ ィ レ ク ト リ か ら 抽 出 し た . プロファイルのノード数の変化を表 8 に,興味語数 この実験の結果を表 6 に示す.評価に使用した閾値で の変化を表 9 に示す.興味語数は,全ノードの興味語 は ,一 様 な 個 人 化 に 比 べ 平 均 適 合 率 が 向 上 し た .ま た , 数の和である.そのため,重みや保存されているノー TINS = 6.0, TSNS = 0.2 の と き を 除 き ,個 人 化 を 行 わ な い 場 ドが異なる同じ興味語も重複して数えている.この結 合よりも大きくなった.このことから,同じカテゴリ 果 か ら ,閾 値 TSNS が 大 き い ほ ど 新 し い 保 存 ノ ー ド が 生 の他のクエリでも概ね閾値が有効であることがわかる. ま た , カ テ ゴ リ を 変 更 し た 表 1 と は 別 の ク エ リ 50 成されやすくなり,ノード数が増えることがわかる. ま た ,閾 値 TSNS が 大 き い ほ ど 興 味 語 数 も 増 加 し て い る . 個を同様に用意し,作成したプロファイルについて, し か し , ど ち ら も 350 回 前 後 で 増 加 率 が 小 さ く な っ て 上 記 3 点 の 閾 値 で 平 均 適 合 率 を 求 め た .カ テ ゴ リ は“ レ いる.これは忘却係数によって興味語の重みが小さく ク リ エ ー シ ョ ン ”,“ 科 学 ”,“ ス ポ ー ツ ”,“ ゲ ー ム ”, なり,ノードの削除処理が行われているためと考えら “ビジネス”である.結果を表 7 に示す.この実験で れ る .ま た ,5.3 節 の 実 験 に お い て ,閾 値 TINS が 5.0 の は,平均適合率は個人化なしよりも一様な個人化のほ と き ,閾 値 TSNS が 大 き い ほ ど 平 均 適 合 率 は 高 く な っ た . うが大きい.また本システムでは,どの閾値について 表 8 と 表 9 か ら , 閾 値 TSNS が 小 さ い ほ ど ノ ー ド 数 が 少 も,個人化なしと一様な個人化よりも平均適合率が高 なく,1 つのノードに保存される興味語が多くなるこ 更新回数 0.1 0.2 TSNS 0.3 0.4 0.5 更新回数 0.1 0.2 TSNS 0.3 0.4 0.5 50 1094 1094 1094 1094 915 50 2 2 2 2 5 表 8:プ ロ フ ァ イ ル の ノ ー ド 数 100 150 200 250 300 350 3 3 5 4 5 6 4 4 6 4 6 6 4 4 7 5 7 7 5 5 7 7 9 10 8 8 10 12 16 17 表 100 1380 1394 1394 1394 1478 9: プ ロ フ ァ イ ル の 興 味 語 の 総 数 150 200 250 300 350 1888 2688 3157 3344 4140 1922 2907 2714 3588 4108 1922 2917 2743 3614 4134 1922 2923 3494 4339 4919 2468 3166 3740 4705 5286 とがわかる.よって,個人化に使用される興味語が多 い場合,ノイズとして働く興味語も多くなり平均適合 率が低下すると考えられる. 6. お わ り に 本研究では,検索結果の再ランキングを行う個人化 Web 検 索 に お い て , ユ ー ザ の 多 様 な 興 味 状 態 に 対 応 す るためプロファイルを構造化する手法を提案した.そ して,その手法を実装したシステムで評価実験を行っ た.その結果,個人化を行わない場合,構造化を行わ ない一様な個人化に比べ,個人化の精度の向上を確認 した.一方,本手法では変更可能なパラメタが多く, そ の 調 整 が 難 し い .ま た ,プ ロ フ ァ イ ル の 構 造 に つ い て は,ノード間の親子関係が不明瞭な場合もあった.よ って,興味ノードスコアや保存ノードスコアの計算方 法に改善の余地があると考えている. 文 400 4 7 8 10 16 献 [1] 井 上 俊 , “興味傾向単語の抽出によるパーソナラ イ ズ ド 検 索 シ ス テ ム の 提 案 と 実 装 ,” 早 稲 田 大 学 理 工 学 部 数 理 科 学 科 卒 業 論 文 , February 2007. [2] 岩 﨑 周 造 ,太 田 学 , “ 興 味 単 語 を 用 い た 個 人 化 Web 検 索 ,”情 報 ・シ ス テ ム ソ サ イ エ テ ィ 誌 ,2007 年 総 合 大 会 特 別 号 , p.76, March 2007. [3] Google,“ Google,” http://www.google.com/ [4] Google,“ Google デ ィ レ ク ト リ ,” http://www.google.co.jp/dirhp?hl=ja [5] Yahoo!,“ Yhaoo!,” http://www.yahoo.com/ [6] Yhaoo!,“ My Web BETA,” http://myweb2.search.yahoo.com/ [7] 工 藤 拓 ,“ MeCab,” http://mecab.sourceforge.net/ 450 3 7 9 11 16 400 4096 4352 4386 5137 5527 500 3 8 10 13 18 450 4160 4741 4783 5548 5916 500 4645 5249 5275 6349 6691