Comments
Description
Transcript
ライフエンジンを える 検索エンジンの作り
JAPAN INNOVATION LEADERS SUMMIT ライフエンジンを⽀える 検索エンジンの作り⽅ Yahoo! JAPAN R&D統括本部 プラットフォーム開発本部 要素技術開発部 テクニカルリーダー 小林竜己 2011年8月6日 ヤフーが⽬指すライフエンジン 人が人の生活をもっと豊かで、便利で、価値あるもの にしていくための人と社会のエンジンになること 日本最大のインターネットサービスを 運営する企業としての社会に対する責任 2 130以上のサービス Y!トップページ 3 検索エンジンが果たす役割 • バーティカル検索 – サービス単位で用意された分野別情報検索 – ショッピング、オークション、知恵袋、グルメ、地図、路線情報、画像、 動画、トラベル、求人、ブログ・・・ • 検索エンジンは、お客様にとっての『情報の窓』 – ストアされた膨大な情報を引き出すためのもの • 検索の品質=サービスの品質 – 多くのサービスで、検索エンジンの果たす役割は極めて大きい 4 ライフエンジンとしての検索エン ジン に求められるもの • お客様が、必要な時に、必要な 『情報』 を、最短距離で 得られること • しかし、これがとても難しい 多様なニーズ 様々な場面 幅広い世代 5 品質のよい検索を作るための⼯夫 1. サービス要件に適した検索エンジン構成 2. ユーザアシスト 3. 検索結果ランキングの工夫 4. リッチな検索結果 5. コンテンツの充実 6 ⼯夫その1 サービス要件に適した検索エンジン 構成 • 検索エンジン設計の基本を押さえる 要件 ・ドメイン ・検索対象 ・ユーザ ・利用形態 ・性能要求 ・・・ 7 × 評価指標 ⇒ ・検索レスポンス ・ピークQPS ・文書数 ・文書フレッシュネス ・文書処理時間 ・可用性(連続稼働時間) ・レリバンス(適合度) ・・・ 理論・技術 ・キャパシティプランニング (対故障性・冗長性含む) ・情報検索モデル ・Nグラム vs 形態素 ・インデキシング方式 ・クエリ処理 ・正規化処理 ・・・ ⼯夫その2 ユーザアシスト • よりよいクエリを見つけるための支援 – キーワード入力補助 – スペラー – 関連ワード 8 ⼯夫その3 検索結果ランキングの⼯夫 • ランキング計算 – 古典的にはランキング関数の利用(例:BM25) – ウェブ検索ではPageRankなどのリンク情報の利用 – 近年では、機械学習ランキング(MLR)の利用 • スパム・アダルト処理 – ドキュメント処理でのフィルタリングなど • ダイバーシティやフレッシュネスの考慮 9 ⼯夫その4 リッチな検索結果 • クイックリンクス • ダイレクトディスプレィ 様々な種類あり 10 ⼯夫その5 コンテンツの充実 • 検索結果を増やし、より魅力的なものに! • コンテンツはサービスの基本 • ヤフーでは圧倒的なコンテンツ量で、サービスを充実させる 努力を日々行っている 11 検索の品質をさらに⾼める挑戦 • 検索クエリ処理の高度化とその活用 – クエリ分類別チューニング – クエリ意図解析による検索結果改善 • ソーシャル情報の利用 – 嗜好選択やミニブログ情報に基づく検索結果改善 12 クエリ分類別チューニング Broderのクエリ分類 (Broder, 2002) • インフォメーショナルクエリ – 何かを知りたい意図 (~40%) – 例:低ヘモグロビン – 検索結果ダイバーシティの必要性 • ナビゲーショナルクエリ – ある特定のページに辿りつきたい意図 (~25%) – 例: 「ヤフー」 – 特定ページのランキング改善 • トランザクショナルクエリ – ウェブ環境で何らかの作業をしたい意図 (~35%) – 例: 「東京 天気」(サービス利用)、「火星 地表 画像」(ダウンロード)、 「Nokia mp3」(ショップ) 13 頻度に基づくクエリ分類 • ある期間のクエリ頻度を集計すると 頻度 ローングテール メジャークエリ 14 ・極端に高頻度の少数クエリ ・レリバンス対応は可能 テールクエリ ・頻度が低く多様なクエリ ・レリバンス操作が難しい トピック別クエリ分類 • 2005年のDogpileメタサーチエンジンのクエリ2,500個を人手で分類し たトピック一覧 (Jansen et al., 2007b. SUIより) トピック クエリ数 割合(%) 1 商取引、旅行、雇用、または経済 761 30.4 2 人、場所、またはモノ 402 16.0 3 不明またはその他 331 13.2 4 健康または科学 224 8.9 5 エンターテインメントまたは娯楽 177 7.0 6 コンピュータまたはインターネット 144 5.7 7 教育または人文科学 141 5.6 8 社会、文化、民族、または宗教 119 4.7 9 セックスまたはポルノ 97 3.8 10 政府または法律 90 3.6 11 芸術 14 0.5 順位 15 クエリ意図解析による検索結果改 善 • クエリをよりよく理解することの重要性 • 単なる「テキスト照合+汎用ランキングメカニズム」を越えた 意図・意味を考慮した検索結果の創造 • 例: 「六本木 居酒屋」 現在、注力中 – 地域グルメ意図 – 六本木という地域で、お酒が飲めるお店を探している 16 ソーシャル情報の利⽤ • TwitterやGoogle+などのソーシャル情報を利用した検索結果 の改善アイディアが出てきている • ソーシャル情報の検索への利用 – 本当に多くの人の役に立つのか、検証はこれから – まずは、メリット、デメリットをよく知ることが大切 17 ライフの多様化に対応して エンジンの進化が求められている • まだまだ現在の検索フレームワークは、お客様の負担が とても大きい – 適切なクエリを考えるのが大変 – 検索結果から欲しいドキュメントを見つけるのが大変 • 加えて,スマホやアプリの台頭で、時と場所を選ばな い利用が増えてきた 18 そろそろ検索エンジンの次の ブレークスルーがやってきてもい い • これからの検索技術が取り組むべき領域はコレだ! 1. 分析力の活用(検索精度向上、ユーザ自身が分析できる) 2. ユーザコンテキストの活用(ユーザの状況) 3. ナチュラルなインターフェース(音声検索、対話など) 4. アンビエントな環境への埋め込み (レコメンドやユーザサポートシステムの基盤として) 19 産学連携によるチャレンジ 例えば、分析⼒を⾼めるために 京都大学とのコラボレーション きざしカンパニー、京都産業大学との コラボレーション 20 技術で⼈々の⽣活を豊かに ライフエンジンの挑戦 21