...

ライフエンジンを える 検索エンジンの作り

by user

on
Category: Documents
10

views

Report

Comments

Transcript

ライフエンジンを える 検索エンジンの作り
JAPAN INNOVATION LEADERS SUMMIT
ライフエンジンを⽀える
検索エンジンの作り⽅
Yahoo! JAPAN
R&D統括本部 プラットフォーム開発本部 要素技術開発部
テクニカルリーダー 小林竜己
2011年8月6日
ヤフーが⽬指すライフエンジン
人が人の生活をもっと豊かで、便利で、価値あるもの
にしていくための人と社会のエンジンになること
日本最大のインターネットサービスを
運営する企業としての社会に対する責任
2
130以上のサービス
Y!トップページ
3
検索エンジンが果たす役割
• バーティカル検索
– サービス単位で用意された分野別情報検索
– ショッピング、オークション、知恵袋、グルメ、地図、路線情報、画像、
動画、トラベル、求人、ブログ・・・
•
検索エンジンは、お客様にとっての『情報の窓』
– ストアされた膨大な情報を引き出すためのもの
• 検索の品質=サービスの品質
– 多くのサービスで、検索エンジンの果たす役割は極めて大きい
4
ライフエンジンとしての検索エン
ジン
に求められるもの
• お客様が、必要な時に、必要な 『情報』 を、最短距離で
得られること
• しかし、これがとても難しい
多様なニーズ
様々な場面
幅広い世代
5
品質のよい検索を作るための⼯夫
1. サービス要件に適した検索エンジン構成
2. ユーザアシスト
3. 検索結果ランキングの工夫
4. リッチな検索結果
5. コンテンツの充実
6
⼯夫その1
サービス要件に適した検索エンジン
構成
• 検索エンジン設計の基本を押さえる
要件
・ドメイン
・検索対象
・ユーザ
・利用形態
・性能要求
・・・
7
×
評価指標
⇒
・検索レスポンス
・ピークQPS
・文書数
・文書フレッシュネス
・文書処理時間
・可用性(連続稼働時間)
・レリバンス(適合度)
・・・
理論・技術
・キャパシティプランニング
(対故障性・冗長性含む)
・情報検索モデル
・Nグラム vs 形態素
・インデキシング方式
・クエリ処理
・正規化処理
・・・
⼯夫その2
ユーザアシスト
• よりよいクエリを見つけるための支援
– キーワード入力補助
– スペラー
– 関連ワード
8
⼯夫その3
検索結果ランキングの⼯夫
• ランキング計算
– 古典的にはランキング関数の利用(例:BM25)
– ウェブ検索ではPageRankなどのリンク情報の利用
– 近年では、機械学習ランキング(MLR)の利用
• スパム・アダルト処理
– ドキュメント処理でのフィルタリングなど
• ダイバーシティやフレッシュネスの考慮
9
⼯夫その4
リッチな検索結果
•
クイックリンクス
•
ダイレクトディスプレィ
様々な種類あり
10
⼯夫その5
コンテンツの充実
• 検索結果を増やし、より魅力的なものに!
• コンテンツはサービスの基本
• ヤフーでは圧倒的なコンテンツ量で、サービスを充実させる
努力を日々行っている
11
検索の品質をさらに⾼める挑戦
• 検索クエリ処理の高度化とその活用
– クエリ分類別チューニング
– クエリ意図解析による検索結果改善
• ソーシャル情報の利用
– 嗜好選択やミニブログ情報に基づく検索結果改善
12
クエリ分類別チューニング
Broderのクエリ分類 (Broder, 2002)
•
インフォメーショナルクエリ
– 何かを知りたい意図 (~40%)
– 例:低ヘモグロビン
– 検索結果ダイバーシティの必要性
•
ナビゲーショナルクエリ
– ある特定のページに辿りつきたい意図 (~25%)
– 例: 「ヤフー」
– 特定ページのランキング改善
•
トランザクショナルクエリ
– ウェブ環境で何らかの作業をしたい意図 (~35%)
– 例: 「東京 天気」(サービス利用)、「火星 地表 画像」(ダウンロード)、
「Nokia mp3」(ショップ)
13
頻度に基づくクエリ分類
• ある期間のクエリ頻度を集計すると
頻度
ローングテール
メジャークエリ
14
・極端に高頻度の少数クエリ
・レリバンス対応は可能
テールクエリ
・頻度が低く多様なクエリ
・レリバンス操作が難しい
トピック別クエリ分類
•
2005年のDogpileメタサーチエンジンのクエリ2,500個を人手で分類し
たトピック一覧 (Jansen et al., 2007b. SUIより)
トピック
クエリ数
割合(%)
1
商取引、旅行、雇用、または経済
761
30.4
2
人、場所、またはモノ
402
16.0
3
不明またはその他
331
13.2
4
健康または科学
224
8.9
5
エンターテインメントまたは娯楽
177
7.0
6
コンピュータまたはインターネット
144
5.7
7
教育または人文科学
141
5.6
8
社会、文化、民族、または宗教
119
4.7
9
セックスまたはポルノ
97
3.8
10
政府または法律
90
3.6
11
芸術
14
0.5
順位
15
クエリ意図解析による検索結果改
善
• クエリをよりよく理解することの重要性
• 単なる「テキスト照合+汎用ランキングメカニズム」を越えた
意図・意味を考慮した検索結果の創造
•
例: 「六本木 居酒屋」
現在、注力中
– 地域グルメ意図
– 六本木という地域で、お酒が飲めるお店を探している
16
ソーシャル情報の利⽤
• TwitterやGoogle+などのソーシャル情報を利用した検索結果
の改善アイディアが出てきている
• ソーシャル情報の検索への利用
– 本当に多くの人の役に立つのか、検証はこれから
– まずは、メリット、デメリットをよく知ることが大切
17
ライフの多様化に対応して
エンジンの進化が求められている
• まだまだ現在の検索フレームワークは、お客様の負担が
とても大きい
– 適切なクエリを考えるのが大変
– 検索結果から欲しいドキュメントを見つけるのが大変
• 加えて,スマホやアプリの台頭で、時と場所を選ばな
い利用が増えてきた
18
そろそろ検索エンジンの次の
ブレークスルーがやってきてもい
い
• これからの検索技術が取り組むべき領域はコレだ!
1. 分析力の活用(検索精度向上、ユーザ自身が分析できる)
2. ユーザコンテキストの活用(ユーザの状況)
3. ナチュラルなインターフェース(音声検索、対話など)
4. アンビエントな環境への埋め込み
(レコメンドやユーザサポートシステムの基盤として)
19
産学連携によるチャレンジ
例えば、分析⼒を⾼めるために
京都大学とのコラボレーション
きざしカンパニー、京都産業大学との
コラボレーション
20
技術で⼈々の⽣活を豊かに
ライフエンジンの挑戦
21
Fly UP