...

Oracle Secure Enterprise Search バージョン10.1.8.2 Oracle

by user

on
Category: Documents
7

views

Report

Comments

Transcript

Oracle Secure Enterprise Search バージョン10.1.8.2 Oracle
Oracle Secure Enterprise Search
バージョン 10.1.8.2
Oracle テクニカル・ホワイト・ペーパー
2007 年 10 月
Oracle Secure Enterprise Search
概要 ...................................................................................................................... 3
はじめに .............................................................................................................. 3
セキュアな Oracle Secure Enterprise Search...................................................... 4
Oracle SES のアーキテクチャ ........................................................................... 6
クローラ......................................................................................................... 8
クローラ・プラグイン API.................................................................... 9
Web サービス API ................................................................................. 10
管理............................................................................................................... 12
検索品質....................................................................................................... 13
セキュアな検索........................................................................................... 14
管理者ベースの認証 ............................................................................. 15
セルフ・サービス認証 ......................................................................... 15
カスタム・エージェント(カスタム・クローラ).......................... 15
Oracle SES の使用方法..................................................................................... 15
収集ステップ............................................................................................... 16
解析ステップ............................................................................................... 16
クロール結果を検索可能にする. ........................................................ 16
メンテナンス・ステップ........................................................................... 17
堅牢なコネクタ・フレームワーク................................................................. 17
セキュリティ・プラグインのアーキテクチャ ....................................... 18
概念検索およびクラスタリング(10.1.8.2 の新機能)............................... 19
クラスタリング/トピック・インタフェース .................................... 21
制限 ......................................................................................................... 21
問合せ構文の拡張(10.1.8.2 の新機能)....................................................... 22
シソーラスと代わりの問合せ用語 ........................................................... 22
属性ショートカット................................................................................... 23
ドキュメント・サービス・インタフェース(10.1.8.2 の新機能) ........... 23
リリース 10.1.8.2 の新しいコネクタ.............................................................. 24
他のコネクタおよびコネクタの改善点 ................................................... 25
検索サービスとしての Oracle SES の埋込み ................................................ 25
サイレント・インストール....................................................................... 26
Oracle SES 索引への追加メタデータの送信............................................ 26
Oracle SES および Oracle Application Server Portal........................................ 27
他の機能 ............................................................................................................ 28
結論 .................................................................................................................... 28
参考資料 ............................................................................................................ 29
Oracle Secure Enterprise Search
2
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
テクニカル・ホワイト・ペーパー
概要
Oracle Secure Enterprise Search(Oracle SES)は、Web 感覚のオラクルのスタンド
アロン検索ソリューションで、すべてのエンタープライズ・ソースをセキュアに
扱い、使用および配置が容易です。Oracle SES には、次のような特徴があります。
キーワード・マッチング以外の優れた検索品質
応答時間 1 秒未満の問合せパフォーマンス
高度でセキュアなクロール処理、索引付け、検索
すぐに利用できる簡易性
はじめに
企業内にある多くのデータは、構造化
データではなくテキスト・データです。
現状、これらのテキスト・データは、十
分に活用されているとは言えません。
検索テクノロジは、情報の価値を高めます。これはインターネット検索によって
証明されています。検索エンジンがなければ、インターネットに数十億の Web ペー
ジがあっても、目的のページを検出するには、事前に URL を知っているか、また
はディレクトリ構造をたどる必要があります。Google を有名にしたのは検索機能
であり、情報量が急速に増大してもインターネットを使いやすいものにしてい
ます。
企業内でも情報量は増大していますが、これまでのところ優秀な検索エンジンに
よる情報価値の恩恵を受けているとは言えません。これは、イントラネットとイ
ンターネットの違いがおもな原因です。ここには次のような背景があります。
•
インターネット上のほとんどの情報は、Web ページで構成されています。
イントラネットでは、情報(データやコンテンツ)は、Web ページ、デー
タベース、メール・サーバー、コラボレーション・ソフトウェア、ドキュ
メント・リポジトリ、ファイル・サーバー、デスクトップなどに散在し
ています。イントラネット検索エンジンは、企業の Web コンテンツ、ア
プリケーション、データベース、メールを同じインタフェースから検索
できることが要求されます。構造化データと非構造化データを横断的に
検索し、企業内のデータをくまなく検索する包括性が、イントラネット
検索では重要です。
•
情報が公開されているインターネットとは異なり、イントラネットの情
報はセキュアであることが要求されます。情報へのアクセス権はユー
ザーによって異なり、通常、情報リソースはパスワードで保護されてい
ます。イントラネットの検索エンジンは、セキュアな検索を実行できる
ことが必要です。ドキュメント、電子メール・メッセージ、レコードを
参照する権限を持たないユーザーには、データの存在さえも見えないよ
Oracle Secure Enterprise Search
3
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
うにする必要があります。アクセス権は変更される可能性があり、基盤
となる情報ストアに対して行われたアクセス権の変更は、ただちに検索
エンジンに伝える必要があります。
•
Google などのインターネット検索エンジンでは、Web ページ間のリンク
情報を解析して、検索におけるドキュメントの重要性や関連性を推測し
ます。イントラネット・リソースでは URL リンクが常に相互参照してい
るとは限りません。PDF ドキュメントは、ドキュメントに示される顧客
のデータベース・レコードにリンクしていない場合があります。このた
め、イントラネット検索で関連性を高めるには、別のテクノロジが必要
となってきます。
•
キーワード検索により情報の価値は高まりますが、企業は、独自のビジ
ネス・モデルに基づいたより複雑な問合せを必要とします。イントラネッ
ト用の検索エンジンは、多数の検索結果をただ羅列するのではなく、欲
しい情報にできるだけ早くたどり着けるものでなければいけません。解
析機能によって、ユーザーは単純なキーワード検索の範囲を超え、高度
な問合せを検索エンジンに投げかけることができるようになります。こ
のような仕組みによって、イントラネット内の奥深くに潜む重要な情報
にたどり着けるようになります。
•
イントラネット検索では、検索ユーザーが異なれば、アクセスできる情
報が異なり、また、それぞれの職務に応じてアクセスしたい情報も異な
ります。検索結果は、これらのニーズを満たすようにパーソナライズさ
れる必要があります。
•
イントラネット検索は多言語対応している必要があります。世界各国に
拠点を持つ企業が、各国の言語で作成されたコンテンツを検索する必要
があるためです。
•
イントラネットでは、高いサービス・レベルが要求されます。イントラ
ネット検索製品の堅牢性は、ミッション・クリティカルなエンタープラ
イズ・ソフトウェアの堅牢性に匹敵していなければいけません。
•
イントラネット検索ソフトウェアは、使用方法と管理方法が簡単である
必要があります。
Oracle SES は、企業内のさまざまな情報リポジトリに散在する関連情報を検索す
る上での問題を解決し、検索や管理のための非常に直感的なユーザー・インタ
フェースを提供します。
セキュアな Oracle Secure Enterprise Search
Oracle Secure Enterprise Search:オラク
ルのイントラネット検索ソリューション
オラクルは、15 年以上にわたり、テキストと情報の検索テクノロジを開発してき
ました。包括的な API である Oracle Text の基盤となる機能は、Oracle Database で
長く使用されてきたものです。複数のリポジトリをまたぐポータル検索のために、
Oracle9i Database で導入された Oracle Ultra Search は、Oracle Database、Oracle
Application Server、Oracle Collaboration Suite で使用できます。これらの製品に基づ
いて構築されたオラクルの最新の企業内検索テクノロジである Oracle SES では、
重要ないくつかの機能が追加されています。
Oracle Secure Enterprise Search
4
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
•
簡潔さ。検索と管理のためのシンプルな Web ユーザー・インタフェース
は、インストール後すぐに使用できます。このユーザー・インタフェー
スは、インターネット検索と同じ明快なルック・アンド・フィールと使
いやすさを兼ね備えています。
•
包括性。すべてのソース(Web ページ、ファイル・サーバーまたはデス
クトップ・ドライブのファイル、データベース、アプリケーション、メー
ル・サーバー、グループウェアなど)を検索する機能。
•
既存のリポジトリとの接続性。Oracle SES を使用することによって、自社
固有の業務、プロセス、製品、顧客、ドキュメントといった情報(企業
のもっとも重要な資産)にアクセスできます。これらの情報は、これま
で企業固有のリポジトリに存在していました。コネクタには、EMC
Documentum、FileNet、OpenText LiveLink、Microsoft SharePoint、IBM Lotus
Notes、Oracle E-Business Suite などのインタフェースがあります。
•
セキュリティ。パスワードで保護されたソースをセキュアに検索する機
能。オラクルの検索テクノロジは、シングル・サインオン(SSO)が使用
できる環境で SSO ベースのセキュリティを提供しており、SSO が使用で
きない環境ではアプリケーション固有のセキュリティを利用することも
できます。
•
高品質の検索結果。ユーザーがインターネット検索で体験する高いレベ
ルの関連性をイントラネットにもたらします。
•
キーワード検索の範囲を超えた機能。情報量が増加するにつれ、繰り返
しナビゲーション用に検索結果を分類しクラスタリングする機能など、
高度な検索手法が必要とされます。
Oracle SES は、完全にグローバル対応しています。西ヨーロッパ系言語、中国語、
日本語、韓国語、アラビア語、ヘブライ語をはじめ、主要言語で検索できます。
Oracle SESは堅牢なうえ、企業向けに強化された実装がなされています。一般的な
Linuxマシンでは、通常 1 秒あたり数百件の問合せを処理できます。標準的な企業
のイントラネットで処理する情報量は、通常テラバイトのボリュームに達します。
オラクルの検索インフラストラクチャは、数テラバイトをロードするために繰り
返し配置されます 1 。
1
IronMountainのケース・スタディ(英語)
(http://www.oracle.com/technology/products/text/pdf/oracle_ironmountain.pdf)
Oracle Secure Enterprise Search
5
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
図 1:Oracle SES10.1.8.2 による検索例
Oracle SES のアーキテクチャ
オラクルの Secure Enterprise Search は、検索に必要なすべての機能を備えたスタン
ドアロン・サーバーです。クローラが収集した情報に索引付けし、検索結果を提
供する"ブラック・ボックス"として機能します。独自のユーザー・インタフェー
スと管理機能が組み込まれているため、SQL を使用したプログラム開発やデータ
ベースの管理タスクは必要ありません。
アーキテクチャとしては、図 2 に示すように、5 つの独立したコンポーネントで
構成されています。
•
クローラ。SES クローラは、設定されたスケジュールに基づき Oracle サー
バーによって起動される Java プロセスです。起動されたクローラは、さ
まざまなデータソースからドキュメントをフェッチするプロセッサ・ス
レッドを構成可能な数だけ作成します。クローラは、リンクの関係を対
応付けて解析することで、リンクをたどる動作が無限循環に陥るのを避
け、検索対象外のサイトを誤ってクロールしてしまわないようにします。
クロール中に HTML 以外のドキュメントを検出した場合、クローラは
フィルタを使用して自動的にドキュメント・タイプを調べ、ドキュメン
トをフィルタリングして索引付けします。
•
データベース。Oracle Database 10g には、SES リポジトリが格納されてい
ます。ここには Oracle SES が索引付けしたリポジトリと検索エンジンの'
索引'に関する情報(クローラによって収集され、Oracle Text によってフィ
ルタ処理および索引付けされた情報)が保存されます。
•
検索 UI および API。Oracle SES は、サーバーに対するカスタマイズ可能
な標準のユーザー・インタフェースを提供します。基本検索フォーム、
拡張検索フォーム、問合せ結果表示、ヘルプ・ページ、フィードバック・
ページ、URL 登録などのユーザー・インタフェースが提供されます。
Oracle Secure Enterprise Search
6
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
Oracle SES は、索引付けデータの問合せ用のカスタム・アプリケーション
を構築するための Web サービス API も提供しています。
•
管理ツールおよびインタフェース。SES 管理ツールは、クローラの構成
およびスケジュール、サーバーの構成、複数のレポート作成機能の実行
などに使用する、ブラウザ・ベースのアプリケーションです。
•
フェデレータ。Oracle SES は、メール・サーバー、インターネット検索エ
ンジン、特定のアプリケーションなど、それぞれ固有の機能を持つ他の
検索エンジンと連携する機能も提供します。これらの検索結果は、SES
サーバーの内部索引で処理された結果と組み合わせて表示することもで
きます。
Oracle SES は、Oracle Database 10g および HTTP を利用する Web サーバーの実装
に使用される Oracle J2EE コンテナ"OC4J"の"スタンドアロン"バージョンから構成
されます。インストール時、この J2EE ランタイム環境に、検索および管理で使用
される Oracle SES OC4J'アプリケーション'がデプロイされます。Oracle Database
は、検索エンジン固有の要求に応じてカスタマイズ(構成および調整)できます。
SES データベースと Web サーバーは、同一マシン上にインストールされます。SES
データベースと検索/管理アプリケーションを別々のマシンに構成することは、技
術的には可能ですが、オラクルでは正式にサポートしていません。
Oracle SES は、Oracle Internet Directory(OID)の接続パラメータを指定するだけ
で、カスタマイズしなくてもオラクルの SSO インフラストラクチャに接続されま
す。検索の保護に必要なユーザーやグループの情報は、OID に保存され管理され
ます。
Oracle SES "OC4J" アプリケーションは、JDBC を通じてデータベースに接続され
ます。接続は次のファイルによって定義されます。
•
listener.ora、tnsnames.ora、sqlnet.ora(Oracle Net 構成ファイル)パス:
OES_HOME¥network¥admin
•
data-sources.xml(管理アプリケーションのデータベース接続を定義しま
す)パス:OES_HOME¥oc4j¥j2ee¥OC4J_SEARCH¥config
•
search.properties(検索アプリケーションのデータベース接続を定義しま
す)パス:OES_HOME¥search¥webapp¥config
上記のファイルは、インストール中に自動的に構成されるので、変更しないでく
ださい。インストール時に他の Oracle ソフトウェアが検出された場合、SES イン
ストーラは新規にリスナーを構成し、独自のネットワーク構成およびポート番号
が使用されます。
Oracle Secure Enterprise Search
7
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
図 2:Oracle SES のアーキテクチャ
以降の項では、Oracle SES のコンポーネントについて詳しく説明します。
クローラ
SES クローラは、構成中に指定するデータソースからドキュメントを収集するた
めに利用されるマルチスレッド Java アプリケーションです。異なるリポジトリを
クロールする場合、SES クローラではリポジトリごとにそれぞれ別々の'データ
ソース'が定義されます。データソースとは、リポジトリを識別する論理的な単位
です。データベースなど、1 つの物理的リポジトリには、複数のデータソースを
マッピングできます(データソースは、メタデータを定義する場合の最小単位で
もあります)。
Oracle SES の標準的なデータソースのタイプは次のとおりです(使用可能なデー
タソースは、プラグインを登録することで適宜追加できます)。
•
Webサイト - HTTPプロトコルを使用してWebサイト(http://www.oracle.
comなど)をデータソースとして定義できます。
•
データベース表 - Oracle SES では、ODBC/JDBC 標準をサポートする
Oracle データベースなどのリレーショナル・データベースをクロールでき
ます。クロールするデータベース表は、SES 固有のデータベース・イン
スタンスに格納できます。また、ネットワークでアクセスされるリモー
ト・データベースの一部にもできます。Oracle SES では、テキスト列全体
と"フィールドで分けられたテキスト"列をクロールできます。フィールド
で分けられたテキスト列を使用すると、データベース列を SES 属性(作
成者、タイトルなど)にマッピングし、データベースのコンテンツに合っ
た索引セットを作成できます。
•
ファイル - 検索対象となるファイルは、クロール処理を実行するマシン
から直接アクセスできる場所にある必要があります。リモート・サーバー
上にあるファイルは、file://プロトコルでアクセス可能な場合に限り、ク
ロール対象とすることができます。ファイルは、各クローラ・マシンか
らネットワーク上をローカルまたはリモートでアクセスできる必要があ
ります。
Oracle Secure Enterprise Search
8
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
•
電子メール - Oracle SES は、IMAP 電子メール・サーバーに接続し、ユー
ザーの電子メールを索引付けできます。メーリング・リストを索引付け
する場合、対象メーリング・リストに登録された特定の IMAP アカウン
トを指定します。
•
Oracle Application Server Portal インスタンス
Oracle SES では、サード・パーティ製フィルタを使用して、ドキュメントからテ
キストとメタデータを抽出します。このとき、ドキュメント・タイプは自動的に
識別されます。このフィルタは、Adobe PDF や Microsoft Office など、一般的なド
キュメント形式をサポートします。また、ZIP ユーティリティで圧縮されたドキュ
メントのフィルタ処理もサポートされます。
検索結果を常に最新の状態に保つために、Oracle SES では同期スケジュールが利
用されます。たとえば、電子メールの検索結果は頻繁に更新し、公開されている
コンテンツはそれほど頻繁に更新しない、といった設定が可能です。各同期スケ
ジュールは、1 つ以上のデータソースに関連付けることができます。
クロール対象を企業ネットワークの特定のセクションのみに制限する場合、ある
いはクローラがイントラネット内のリンクのみをたどるようにする場合、Oracle
SES では'包含’ドメインと'除外’ドメインを指定します。問合せ処理またはバッ
クアップ処理のために、マスターSES インスタンスの読取り専用スナップショッ
トを作成する場合、Oracle SES は'インスタンス・スナップショット'をサポートし
ます。マスター・インスタンスが破損して新しいマスター・インスタンスとして
スナップショットを使用する場合に、この機能が便利です。
SES クローラは、URL を索引付けせずに収集できます。このデータ収集方式によっ
て、ドキュメントの URL とそのステータスを調べ、不要なドキュメントを除外し
てから索引付けを開始できます。
クローラ・プラグイン API
クローラは、'プラグイン'(検索アプリケーションとして同じ OC4J コンテナで実
行されるオラクルが提供する Java クラスまたはユーザーが独自に開発した Java ク
ラス)により拡張可能です。インストール直後の状態で、Oracle SES には、EMC
Documentum、Lotus Notes、Microsoft Sharepoint などのさまざまなエンタープライ
ズ・コンテンツ・ソースを対象とした一連のプラグイン(コネクタとも呼ばれま
す)が付属しています。
プラグインは、Oracle SES の管理 GUI によりデプロイします。デプロイが完了す
ると、プラグインは新しいデータソースとして使用できるようになります。構成
後、プラグインがデータをクローラに提供するので、他のデータソースと同様に
索引付けできます。
厳密には、プラグインは索引付けの対象となるドキュメントを指し示す URL を収
集し、これらの URL を索引付けのためにクローラに渡します。独自のプラグイン
を実装する場合に顧客が提供するメソッドの簡単なサンプルは、以下のとおり
です。
•
open:初期化
•
startCrawling:ドキュメントのフェッチに必要な設定を実行
Oracle Secure Enterprise Search
9
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
•
stopCrawling:ドキュメントの送信を停止
•
isDeltaCrawlingCapable:エージェントが特定の日付以降に作成されたド
キュメントのみを返すかどうかを指定
•
fetch:次のドキュメント URL を返す
•
received:URL のフェッチに対する確認応答
•
getCredential:この URL にアクセスするために必要なユーザー名とパス
ワードを返す
•
getCookies:URL にアクセスするために必要な Cookie ストリームを返す
•
getAttributeLOV:すべてのソース属性の値リストを返す
•
close:停止およびクリーンアップ
Web サービス API
Oracle SES などの検索エンジンは、通常既存の顧客の Web サイトやポータル・サ
イトに組み込まれて利用されます。エンド・ユーザーは、検索マスクで検索を実
行するので、Oracle SES がバックグラウンドで検索リクエストを処理しているこ
とに気づきません。結果リストの"ルック・アンド・フィール"は、検索元のポー
タル・サイトと一致している必要があります。この実現のために、Oracle SES で
は、SOAP や WSDL などの標準に基づいた Web サービス・インタフェースが提供
されています。
図 3 の例のように、エンド・ユーザーは、入力フィールド("検索ボックス")に
検索語を入力します。検索リクエストは、CMS アプリケーション・サーバーから
直接 SES Web サービスへ送信されます。Oracle SES は検索を実行し、SOAP を介
して XML 形式でコール元のアプリケーションに結果を戻します。結果が埋込み
形式でアプリケーション内に表示されます。
Oracle SES では、UDDI リポジトリは利用されません。WSDL はサーバーから直
接取得されます。
Oracle Secure Enterprise Search
10
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
図 3:Oracle SES Web サービスのアーキテクチャ
以下のコードを参照すると、API を簡単に使用できることがわかります。
import oracle.soap.transport.http.OracleSOAPHTTPConnection;
import oracle.soap.encoding.soapenc.EncUtils;
import oracle.search.query.webservice.client.*;
public class TestWS
{
public static void main (String[] argv)
{
try
{
OracleSearchService search = new OracleSearchService();
// Add your own code here, for example to populate
// the query string.
// Set SOAP URL.The URL is
http://<host>:<port>/search/query/OracleSearch
stub.setSoapURL("http://oes-servexample:7777/search/query/
OracleSearch");
String queryString = “oracle”;
//
// Do a simple search for the queryString we set up above
//
OracleSearchResult result = stub.doOracleSimpleSearch(
queryString, // query
Oracle Secure Enterprise Search
11
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
new Integer(1), // startIindex
new Integer(3), // docsRequested
Boolean.FALSE, // dupRemoved
Boolean.FALSE, // dupMarked
Boolean.TRUE); // returnCount
// Get the result set
ResultElement[] resElemArray = result.getResultElements();
// Loop through the results displaying the document title
for (int i=0; i<resElemArray.length; i++)
{
System.out.println("Document Title:
"+resElemArray[i].getTitle());
}
}
catch(Exception ex)
{
ex.printStackTrace();
}
}
}
管理
Oracle SES の管理ツールは Web アプリケーションとして実装されており、管理者
は次の操作が可能です。
•
データソースの作成およびクロール
•
URL 境界ルール、クロールの深さ、言語、プロキシ設定などのクローラ・
パラメータの設定
•
クローラ・スケジュールの作成および変更
•
問合せオプションの設定 - 問合せオプションを設定することで、検索
ユーザーは検索対象を簡単に絞り込むことができるようになります。検
索対象は、ドキュメント属性(タイトル、作成者など)、またはデータ・
グループに制限できます。データソース・グループとは、検索エンジン・
ユーザーに公開される論理的なエンティティです。問合せを入力する場
合、検索エンジン・ユーザーは対象となるデータ・グループを 1 つ以上
選択するよう要求されます。各データ・グループは、1 つ以上のデータソー
スで構成されています。
•
検索ヒット・リストの関連性ランキングの調整 - Oracle SES では、管理
者がドキュメントをランク付けして、検索ヒット・リストに表示する順
序を調整できます。この機能は、重要なドキュメントのスコアを上げる
など、ユーザーの検索を容易にするために使用されます。
•
特定の検索語に対する推奨リンクの設定
•
特定の検索語に対する代替語の設定
•
特定のデータソースに対する認証メカニズムの設定
•
検索メタデータのバックアップおよびリカバリの管理
Oracle Secure Enterprise Search
12
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
図 4:Oracle SES の管理インタフェース
検索品質
検索品質または関連情報を検索する機能は、検索エンジンのもっとも重要な機能
の 1 つです。Oracle SES では、高い検索品質を提供するために、さまざまな手法
が利用されています。
次のような手法をクロール処理および索引付けのさまざまな段階で使用して、全
体の検索品質を高めます。
•
メタデータ処理 - タイトル、作成者、説明、見出し、電子メール、アン
カー・テキストなど、ページやドキュメントのメタデータを識別するこ
とは非常に重要です。
•
重複排除 - 企業のイントラネットには、重複しているコンテンツが多数
存在します。社内のいたる所に、同一のプレゼンテーション、Web ペー
ジ、テキスト・ドキュメントが存在しています。個人がファイルを複数
作成する場合や、ミラー化のためにサーバーがコンテンツを複製する場
合もあります。また、バージョン、フォーマット、HTML のスタイル、
サイト固有のリンク、連絡先情報などが異なるだけで内容が同じという
場合もあります。いずれも、ユーザーの検索時には 1 つのドキュメント
または Web ページだけを参照できるようにします。
•
完全な重複排除によって、ドキュメントを索引付けする前のクロール段
階で、重複するデータが識別され削除されます。
•
リンク解析 - 関連性の精度を上げるもっとも一般的な手法は、リンク解
析です。これは、Web サイトのリンク構造を解析することによって、信
頼できるページを検出します。多数のページでリンクされるページは関
連性が高くなります。高いスコアのページからリンクされるページも関
連性が高くなります。今日では、HITS や PageRank など、多数のアルゴ
リズムが存在します。Oracle SES には、独自のアルゴリズムが実装されて
Oracle Secure Enterprise Search
13
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
います。
管理者は、推奨リンク、代替語などの機能を利用して、関連性を制御することも
できます。推奨リンクは、キーワードに対して既知の信頼できるページを登録す
る上で便利な機能です。キーワード検索時、推奨リンクで登録されたページは、
検索結果ページの最上部に表示されます。また、代替語を利用すると、検索語を
同義語に対応付けることができます。たとえば、cellular phones に cell phones や
wireless phones を関連付けるといった使い方が可能です。
検索語のスペルが間違っている場合、スペル・チェッカー機能によって、ディク
ショナリおよびクロール済みデータに基づき、スペルの修正候補が表示されます。
また、Oracle SES の検索機能とは別に、同時に参照および検索を実行できます。
参照リンクをクリックすると、クロール後に Oracle SES が自動的に作成したすべ
てのディレクトリをナビゲートできます。これは、検索の対象となるあらゆるコ
ンテンツを検索する場合に最適です。もちろん、必要に応じて検索ボックスに検
索語を入力して、ディレクトリ内を検索することもできます。
セキュアな検索
Oracle SES の特長は、ログインしたユーザーが、一般には公開されていないドキュ
メントをセキュアに検索できることです。これを実現するために、Oracle SES は、
セキュアなクロール機能に加え、データソースとともにアクセス制御リスト
(ACL)情報を格納する機能を備えています。
Oracle SES は、Oracle Internet Directory または Microsoft Active Directory などの多く
の Lightweight Directory Access Protocol(LDAP)サーバーと統合します。これらの
ディレクトリは、Oracle SES の認証("ユーザーの名前")および認可("ユーザー
の権限")に対応しています。また、Oracle SES では、LDAP ディレクトリを使用
しないで固有のユーザー・データベースを処理する各種ソース(コンテンツ管理
システムなど)のネイティブ認証サービスを使用できます。
認可は、2 つのモデルのいずれかによって行われます。ID ベースの認可では、ド
キュメントにアクセスするユーザーおよびグループのリストによってドキュメン
トがタグ付けされます。問合せ時、認証(ID)マネージャは、現在ログオンして
いるユーザーがメンバーであるグループのリストを返します。このため、ユーザー
またはユーザーがメンバーであるグループに(明示的に)返すドキュメントを制
限する問合せを作成できます。
属性ベースの認証では、提供されるドキュメントの一連(単一または複数)のセ
キュリティ属性をソースで定義します。個別の認証プラグインを使用して、特定
のユーザーに適用される属性のリストを提供します。たとえば、2 つのセキュリ
ティ属性として ROLE および RESPONSIBILITY がソースで定義されるとします。
特定のドキュメントに"MANAGER"および"SALES"の ROLE 属性値が存在します。
認可プラグインは、SALES の ROLE 値が設定されている"John Smith"がドキュメ
ントを参照できるという情報を返します。これによって、John Smith は、このド
キュメントをフェッチできます。
クローラは、さまざまな方法でセキュアなソースを処理できます。同じ(または
異なる)Identity Server によってソースは保護されますが、これは必須ではありま
せん。
Oracle Secure Enterprise Search
14
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
以下のいずれかで保護されている限り、セキュアな方法でソースをクロールでき
ます。
1.
Oracle Single Sign-On 認証
2.
HTTP 基本認証
3.
フォームベース認証
4.
Service-to-Service 認証(ソースと SES 間の信頼関係)
セキュアなクローラにアクセス資格証明を与えるには、いくつかの異なる方法が
あります。
管理者ベースの認証
データソースを定義するとき、管理者は認可パスワード(ユーザー・パスワード
または"スーパーユーザー"パスワード)を入力できます。このパスワードは、デー
タソースから情報を収集するときに使用されます。情報を検索できるユーザーを
定義しているソースに対して、ACL が定義される場合があります。
セルフ・サービス認証
データソースを定義するとき、管理者は、ユーザー名とパスワードを指定せずに
ソースを設定できます。ユーザーは、ログインして固有のアクセス資格証明を設
定できます。次に、そのユーザー固有のデータソースが作成されます。セルフ・
サービス認証で作成されたソースは、その認証情報を入力したユーザーのみが検
索できます。
カスタム・エージェント(カスタム・クローラ)
カスタム・エージェントは、任意のユーザー指定データのクロール処理に使用で
きる Java モジュールです。エージェントは、索引付けの対象となる個々の情報に
対して、ポインタ(URL)を返します。また、オプションで各ドキュメントに対
し ACL を指定できます。これによって、アクセス制御がより柔軟に設定できます。
上記とは別に、Oracle SES は、問合せ時にユーザーが検索結果を微調整できる QTA
(Query Time Authorization、問合せ時認可)API を提供しています。Oracle SES は、
メイン・インタフェースとしてこの手法を使用し、認証アクセスに基づいてドキュ
メントをフィルタリングします。
Oracle SES の使用方法
ここでは、Oracle SES を使用する上で必要な手順を説明します。Oracle SES の検
索エンジンには、収集、解析、検索可能、メンテナンスという汎用的な検索の 4
つの論理手順があります。これらの手順は別段新しいものではなく、ほとんどの
企業のビジネス・プロセスですでに利用されています。
Oracle Secure Enterprise Search
15
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
収集ステップ
収集の対象となるのは、構造化リレーショナル・データベースや非構造化ファイ
ル内の情報、ワープロ文書、スプレッドシート、プレゼンテーション、電子メー
ル、ニュース・フィード、Adobe Acrobat ファイル、Web ページなどです。Oracle SES
は、企業イントラネットを"クロール"し、企業のさまざまなリポジトリ(データ
ベース、Web ページ、IMAP メール・サーバーなど)に存在するあらゆる情報を
調べ、収集します。収集処理時、リンク情報が解析されてリンクをたどる動作が
無限循環に陥るのを避け、検索対象外のサイトを誤ってクロールしてしまわない
ようにします。このため、SES 管理者の作業は軽減され、包括的かつ最新の検索
結果を簡単に表示できます。
解析ステップ
解析フェーズでは、Oracle SES は収集された情報の意味や構造を調べます。情報
を検索するには、索引付けが必要です。解析フェーズでは、Oracle SES は統合索
引を作成し、Oracle Text エンジンを使用して収集された情報から意味と構造を抽
出し、構造化データと非構造化データを効率的に"正規化"します。Oracle Text の
索引には、完全なワードリストおよびその他の情報が含まれます。
索引付け時、サード・パーティ製のフィルタ処理ソフトウェアによって、ドキュ
メントからテキストとメタデータが抽出されます。このフィルタ処理テクノロジ
によって、自動的にドキュメント・タイプが識別され、正しいフィルタが呼び出
されて、索引付け可能なテキストとデータが生成されます。作成者、日付、タイ
トルなど、事前定義されたメタデータ・フィールドの使用がサポートされます。
フィルタには、Microsoft Office や PDF などの一般的なファイル形式が含まれます。
他の文書管理システムとは異なり、Oracle SES での収集と解析では、既存アプリ
ケーションの変更は必要ありません。物理的にドキュメントを移動することなく、
固有の名称のまま元の場所で情報とドキュメントが解析されます。
一般的な Web 検索テクノロジでは、膨大な数の検索結果が返されます。リポジト
リ数の増加に伴い、ドキュメントの関連性をランク付けする機能の精度は低下し
ます。Oracle SES では、受賞歴のある Oracle Text の関連性ランキング機能を使用
して、ユーザーが膨大な情報から必要な情報を常に検出できるようにしています。
クロール結果を検索可能にする.
この"検索可能にする"とは、プログラムで索引付けされた情報へのアクセス手段
を提供することです。Oracle Secure Enterprise Search には、この目的を実現するた
めの Web サービス API が存在します。この問合せ API に検索語を渡すと、ドキュ
メントの格納場所(Web サーバー、データベース、アプリケーションなど)に関
係なく、関連するすべてのドキュメントを検出します。Oracle SES の API を使用
すると、汎用的な検索機能をユーザー独自の Web ページまたはアプリケーション
に統合できます。
Oracle Secure Enterprise Search
16
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
メンテナンス・ステップ
検索結果を常に最新の状態にするのが、メンテナンス・ステップです。Oracle SES
では、複数の Web サイトやリポジトリから、それぞれ異なるスケジュールで情報
を収集できます。たとえば、IMAP メッセージ・サーバーは頻繁に更新し、公開
されているコンテンツはそれほど頻繁に更新しない、といった設定が可能です。
Oracle SES が提供する簡単で直感的なユーティリティを使うことで、コンテンツ
をメンテナンスできます。管理者にとって、これらのユーティリティは、日々追
加される新しいコンテンツに対応するための強力な手段となります。
堅牢なコネクタ・フレームワーク
Google や Yahoo などの検索エンジンは、おもに Web サーバー上の HTML ページ
を索引付けし検索しています。企業内検索エンジンは、ポータル、文書管理シス
テム、カスタム・アプリケーション、その他のソフトウェア・アプリケーション
やシステムを索引付けできる必要があります。Oracle Secure Enterprise Search には、
今日もっとも一般的に使用されているシステムに格納されたコンテンツを取得で
きる、一連の組込み'コネクタ'(SES プラグイン API に基づく Java クラス)が付
属されています。
この一連の新しいコネクタによって、次に示すシステムやアプリケーションに存
在するドキュメントへアクセスできます。
•
Windows NT Filesystems(NTFS) - NT ファイル共有は、ネットワーク接
続で索引付けできます。SES ホスト・マシン上に存在する必要はありま
せん。Oracle SES は、ユーザーやグループのアクセス情報を読み取り、そ
れを検索エンジンの索引に格納して、強力なアクセス制御を実現します。
Unix オペレーティング・システムにインストールされた Oracle SES を使
用する場合、索引付けの対象となる NT ファイルシステムが存在する AD
ドメインに、小規模のエージェント・プロセスをインストールします。
このエージェントは、コンテンツ、メタデータ、アクセス制御情報を SES
マシンのコネクタに送信します(エージェント・プロトコルは HTTP に
基づき、HTTPS で暗号化できます)。ただし、エージェントを機能させ
るには、Microsoft IIS サービスが必要です。
•
EMC Documentum Content Server - ContentServer DocBases のキャビネット
およびフォルダ内のファイルを索引付けします。システム固有の Identity
プラグインによって、Oracle SES は、Documentum 内の権限に基づき、ユー
ザーがアクセス権を持つドキュメントのみを表示します。効率的な再ク
ロール処理がサポートされています。Documentum 内で変更または移動さ
れたドキュメントのみ、再度索引付けされます。
•
FileNet Content Engine - Content Engine のインスタンスにあるオブジェク
ト・ストアおよびドキュメントを索引付けします。オブジェクト・スト
アを自動的にナビゲートし、すべてのドキュメントを検索します。
Oracle Secure Enterprise Search
17
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
•
FileNet Image Services - Image Services ライブラリ内のテキスト(スタンプ、
透過テキスト、付箋)を含むフォルダ、ドキュメントおよび画像のアノ
テーション。システム固有の Identity プラグイン。
•
Open Text Livelink - LiveLink Enterprise Server のワークスペースにある
フォルダ、ファイル、プロジェクト、タスク・リスト。Livelink 専用の Identity
プラグインが提供されます。
•
Microsoft Exchange - Exchange 2000 および 2003 のストアにある電子メー
ル、添付ファイル、カレンダー項目、関連するメタデータ属性を索引付
けします。効率的な増分再クロール処理がサポートされます。Microsoft IIS
およびオラクルの'Agent'ソフトウェア(Microsoft Exchange のホスト・マ
シンと Oracle SES のホスト・マシン間におけるコンテンツとメタデータ
を送信する Agent で、リリース 10.1.8 に含まれる)は、Exchange サーバー
と同じ Windows ドメインにインストールする必要があります。
•
Microsoft Sharepoint
•
BusinessObjects、Cognos、および Microstrategy ソース
すべてのコネクタは、事前構成されており(前述のコネクタには一部、追加ライ
センスを必要とするものがあります)、Oracle SES およびコネクタが処理する既
存のリポジトリ間のアクセス制御を統合する機能を備えています。
Oracle Secure Enterprise Search は、次に示す Oracle 製品を検索対象として指定でき
ます。
•
Oracle Application Server Portal のページ・グループ、ページ、項目
•
Oracle Content Server(旧称 Stellent、詳細は以下の項を参照)
•
Oracle Collaboration Suite の ContentServices、Calendar
•
Oracle Content Database - フォルダ、ドキュメント、カテゴリ。増分クロー
ル処理時は、変更されたコンテンツ、変更されたメタデータおよびカテ
ゴリ・メタデータを含むドキュメントと移動されたドキュメントのみの
再索引付けが行われる、効率的な再クロール処理がサポートされます。
•
Oracle E-Business Suite 11i - 11i を基盤とした Oracle Database で、ビューま
たは問合せをクロール処理できます。ビューまたは問合せの各レコード
は、個別のドキュメントと見なされます。
•
Oracle Siebel 8.0 - RSS フィード
セキュリティ・プラグインのアーキテクチャ
Oracle Secure Enterprise Search は、Microsoft の Active Directory など、サード・パー
ティのアクセス制御ソリューションや ID 管理ソリューションと直接統合できま
す。ユーザーまたはグループを Oracle Internet Directory と同期させる必要はありま
せん。Oracle SES は、新しい認可用 API および Identity'プラグイン'アーキテクチャ
によって Active Directory に直接アクセスできます(特別なコーディングは不要)。
Oracle SES には、オラクルの Oracle Internet Directory や Microsoft の Active Directory
などを対象としたプラグインが付属しています。新しいアーキテクチャによって、
独自のセキュリティ・スキーム(LDAP 以外)を使用してソースをクロールする
Oracle Secure Enterprise Search
18
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
ためのユーザー独自の'Identity プラグイン'(ユーザーおよびグループ情報を提供)
も作成できます。
概念検索およびクラスタリング(10.1.8.2 の新機能)
キーワード・ベース・マッチング以外の
検索および個別の検索結果リストの表示。
情報量が増加するにつれ、関連性の高いキーワード検索のパラダイムでも、検索
結果が減少します。ユーザーは、ドキュメント内の概念を検索して繰り返しナビ
ゲーション用に検索結果をクラスタリングする機能などの高度な検索手法を必要
としています。
Oracle SES には、オラクルが企業内検索を専門とする TripleHop Technologies を買
収して取得した分類および情報クラスタリング(クラスタリングは、類似性に基
づいてオブジェクトをグループ化する手法です)テクノロジが含まれます。この
新しいテクノロジが一意であることは、検索結果でわかります。数千の検索結果
を長いリストで提供する代わりに、Oracle SES はクラスタごとに類似した結果を
グループ化します。クラスタを使用すると、トピックまたはタクソノミー・カテ
ゴリごとに検索結果を参照できます。これによって、検索対象を絞り込むことが
できます。また、検索結果ページをスクロールすることなく、見逃す可能性のあ
る結果またはランク付けされた結果ヒット・リスト内の奥深くに埋もれた結果を
検出できます。
オラクルの新しい情報クラスタリング機能は、以下のとおりです。
•
検索結果リスト最上部の'N'ドキュメント(N は設定可能)の統計分析に
基づく、クロールされたソースとフェデレーテッド・ソースからの迅速
なリアルタイムのトピックおよび概念の抽出。オラクルのアルゴリズム
は、トピック・クラスタリングの品質とクラスタリングに必要な時間の
バランスを考慮して設計されています。すべての結果をクラスタリング
すると、特定の検索リクエストに影響します。つまり、数百万のドキュ
メントが返され、エンド・ユーザーが求める待機時間よりも時間のかか
る可能性があります。
•
クラスタリングは、自動抽出したトピックだけではなく、ドキュメント
の作成者や作成日などのメタデータ項目でも実行できます。メタデー
タ・クラスタを階層(たとえば、Oracle→Products→Secure Enterprise Search)
にできるので、検索管理者は、同意された企業タクソノミーに基づいて
固有のクラスタ・ツリーを定義できます。
•
Oracle SES は、特定の検索結果の論理的な概要を迅速に示すトピック階層
を作成します(たとえば、以下の図 6 を参照)。各ドキュメントは、複
数のクラスタに割り当てることができます。クラスタは、異なるトピッ
クにできます。サイズの大きいドキュメント・セットのクラスタ・ノー
ドは、さらに子クラスタ・ノードに分類されます。階層が作成され、エ
ンド・ユーザーに検索結果ヒットの論理的な概要を迅速に示します。
Oracle Secure Enterprise Search
19
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
•
検索ユーザーが、検索リクエスト(一般的にファジー検索)によって返
されるすべてのコンテンツの全体的なビューから、実際の検索対象に関
連する特定の情報までをナビゲートする場合、Oracle SES のサンプル検索
アプリケーションには、トピック・クラスタを動的に展開する繰り返し
ナビゲーション機能があります。
•
全体のドキュメントを使用して、タイトルや説明のメタデータではなく
クラスタを形成します。
•
トピック・クラスタは、自然言語処理で拡張されます。ドキュメントお
よび問合せの用語には、一般的に多くの形態変化があります。'computing'
や'computation'などの関連する用語は、特殊な処理を実行しないと同一の
概念として認識されません。Oracle SES のトピック抽出には、用語を語幹
または語根として識別する(たとえば、'compute'と'computation'は、単一
の表記の'comput'として識別されます)ステミング・アルゴリズムを利用
します。これによって、用語の異なる変化形を単一の表記に統合できる
ので、ヒットした一連の結果ドキュメントを表すために必要な個別のト
ピックの数が削減されます。言語によって異なるアルゴリズムが使用さ
れます。たとえば、英語とフランス語には、一般的な Porter アルゴリズ
ムが使用されます。
図 5:トピック・クラスタ'ツリー'の例
オラクルのトピック抽出アルゴリズムは、柔軟なパラメータによってカスタマイ
ズできます。
•
'ブラックリスト'/'ホワイトリスト':クラスタリングするドキュメントに
存在する場合、トピック・クラスタの形成に使用する/使用しないフレー
ズ と 用 語 の リ ス ト 。 た と え ば 、 "site maps" 、 "term of use" 、 "Oracle
Corporation"(Oracle 内のわかりやすいクラスタ名を除く)などのエント
リがブラックリストに含まれる可能性があります。
Oracle Secure Enterprise Search
20
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
•
単一語のフレーズ、連続語のフレーズ、および抽出する文の最小出現頻
度および最大数
•
各レベルのクラスタ・ノードの最大数、単一のノード内のクラスタ階層
およびドキュメントのレベル
クラスタリング/トピック・インタフェース
問合せ Web サービス API からエンド・ユーザー・アプリケーションに新しいクラ
スタリング機能を埋め込むことができます。クラスタリングのメイン・インタ
フェースは、以下のとおりです。
ResultContainer = doOracleOrganizedSearch (topN, duplicateControl,…)
いくつかのパラメータとオプションとともにクラスタリング・リクエストを受け
入れます。出力には、検索リクエストのクラスタ・ツリーが含まれます。クラス
タ・ツリーは、XML および JSON の形式にできます。クラスタ・ツリーの例は、
以下のとおりです。
<nodeset>
<node id="1" name="all" level="1" size="100" leaf="0" keywords="all"/>
<node id="1.4" name="java" level="2” size="99" leaf="0"
keywords="java"/>
<node id="1.4.1" name="data warehousing" level="3" size="38" leaf="0"
keywords="technologies bi,data warehousing,linux .net office php
security service"/>
<node id="1.4.1.1" name="tutorials blogs" level="4" size="12" leaf="1"
keywords="tutorials blogs">
2773.,8031.,109.,8033.,806.,26940.,817.,8024.,8030.,2862.,8032.,802
8.
</node>
<node id="1.4.1.2" name="stored procedure" level="4" size="4" leaf="1"
keywords="stored procedure">
4239.,4243.,2784.,4335.
</node>
<node id="1.4.1.3" name="miscellaneous" level="4" size="22" leaf="1">
4017.,2836.,8029.,2767.,1502.,113814.,11731.,1138.,392.,2819.,2763.
,14
21.,221.,705.,7739.,2838.,2749.,2351.,2802.,1158.,15751.,15747.
</node>
:
</nodeset>
</cluster>
クラスタリング・インタフェースは、'リッチ・クライアント'と'シン・クライアン
ト'の対話モードをサポートします。リッチ・クライアントは、Oracle SES サーバー
への単一のコールを発行します(すべてのヒット・リストを取得して、関連する
データのソート、グループ化、およびクラスタリングを実行します)。また、SES
サーバーへの追加のラウンド・トリップが発生することなく、ソート、グループ
化、およびクラスタ・ナビゲーションを実行できます。シン・クライアントは、
Oracle SES を使用して、ページ区切り、ソート、グループ化、およびクラスタ・
ナビゲーションを管理します。このモードの場合、クラスタリング・インタフェー
スは、特定の順番で少量の結果ヒット・リストのみを返します。
制限
概念検索およびヒット・クラスタリングは、ヨーロッパ諸国に由来するもっとも
一般的な言語をサポートします。オラクルは、今後のリリースで日本語、中国語、
および韓国語をサポートする予定です。
Oracle Secure Enterprise Search
21
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
問合せ構文の拡張(10.1.8.2 の新機能)
豊富な新しい構文によって、シソーラス
の拡張、ファジー・マッチング、近接検
索を含む Oracle Text プラットフォーム
のすべての機能が公開されます。
以前の Oracle Secure Enterprise Search では、少数の演算子("+oracle")とショート
カット("filetype:doc")を使用していましたが、全体的な問合せ言語構文は、Google
や Yahoo などの Web 検索エンジンで使用される非常に簡単な構文に基づいていま
した。オラクルは、新しいリリースで問合せの拡張、ファジー検索、ブール演算、
およびグループ演算を実行する豊富な構文を提供しています。
•
検索は、バイナリ論理演算子の'&'(AND)および'|'(OR)やグループ化
に使用する括弧'(' ')'をサポートするプログラミング言語に似ています。こ
のため、次のような検索が可能です。
'(Oracle & database) | (Enterprise & search)'
•
近接検索:"Oracle Database"~10 は、10 語以内の範囲でこの用語の一致を
検索します。
シソーラスと代わりの問合せ用語
誤ったヒット(フルテキスト検索の大量の一致)は困りますが、スペリングの変
化形やフレーズの変化形の場合に一致が少ない(検索もれ)のも困ります。特定
の手法を使用すると、用語の変化形を検出できます。
•
ワイルドカード・マッチングを使用できます。'Ora*le Dat*base'、'Ora?le
Dat?base'
•
ファジーは、用語のスペルミスを選別できます。'hallo~'を検索すると、
'hello'がヒットします。
さらに、固有のシソーラス・ファイルを定義して検索用に使用できます。シソー
ラスは、タクソノミーを使用します。対象を階層で配置し、他の関係も定義して、
タクソノミーを効率的に活用します。
•
上位語(BT)および下位語(NT)
:'<California'を検索すると、'San Francisco'
や'Los Angeles'がヒットします。また、'>Ice cream'を検索すると、'desserts'、
'unhealthy foods'、その他の関連結果がヒットします。
•
先頭に'~'を追加して利用する同義語(SN)たとえば、'~car'を検索すると、
cars、vehicles、automobiles などがヒットします。
これらの機能は XML ファイルとして定義され、Oracle Text にインポートできる
シソーラスに基づいています(Oracle SES は、SES サーバーの Oracle Text エンジ
ンにシソーラスをロードするコマンドライン・ツールを提供します)。
関連した多少異なる機能に代替キーワード拡張があります。Oracle SES には、検
索管理者が代わりの検索語を推奨できる代替キーワード機能があります。たとえ
ば、オラクルでは、'SES'と'Secure Enterprise Search'を区別なく使用します。代替キー
ワードを指定する場合、SES 管理者は両方の用語を入力します。新しいリリース
では、'auto expand'という管理オプションを追加しています。このオプションが選
択されている場合、ユーザーが'SES'と入力すると、'SES'と'Secure Enterprise Search'
の両方がヒットして表示されます。完全に一致する'SES'の関連性がより高くなっ
ています。
これは、シソーラス・ベースの同義語とは異なります。代替キーワードが同義語
Oracle Secure Enterprise Search
22
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
とは限らず、検索ユーザーではなく検索管理者が問合せの拡張を実行するためです。
ただし、ある時点で用語の変化形を対象とするために取得したドキュメントのリ
ストを拡張すると、誤ったヒットの結果になります。ブール論理検索語の代替語
は、自然言語の"clustering"です(上記の項を参照)。
属性ショートカット
以前の拡張検索ページでは、作成者や作成日などの属性によって検索を絞り込む
のが唯一の手段でした。現在では、1 つの属性の制約を検索に追加するだけです。
たとえば、同僚の Tom が記述したミーティング・メモを検索するとします。属性
ショートカットを使用すると、基本検索ボックスに'meeting notes author:Tom'と入
力するだけで済みます。
他のすべての新しい演算子が属性ショートカットに適用されます。
•
同義語の場合:'safety rating title:~cars'を検索すると、cars、vehicles、
automobiles などの安全度の格付けがヒットします。
•
下位語/上位語の場合:'weather report region:<California'
•
数 値 の 属 性 シ ョ ー ト カ ッ ト は 、 非 常 に 直 感 的 で す : 'digital cameras
price:<500'
ドキュメント・サービス・インタフェース(10.1.8.2 の新機能)
新しいドキュメント・サービス・インタ
フェースによって、Oracle SES はカスタ
マイズされた検索エンジンを作成する強
力なプラットフォームになります。
新しいタイプの Java クローラ・プラグインのドキュメント・サービス API を使用
して、カスタム・コードを Oracle Secure Enterprise Search のクローラ・パイプライ
ンに接続できます。通常、SES クローラからのドキュメントを受け入れて次のカ
スタム操作を実行するために使用されます。
1.
ドキュメント属性の追加/変更
2.
ドキュメント・コンテンツの変更/フィルタリング
3.
各ドキュメントを索引付けするかどうかの制御
新しいインタフェースは、サポートされているデータソース・タイプ(すべての
Oracle SES コネクタ)で動作します。また、クラスタリングおよび分類を含む幅
広い潜在的なアプリケーションがあります。たとえば、メタデータを使用して Web
資産に手動でタグ付けし、定義したタグに基づいてユーザーによる検索を制限で
きます。ドキュメント・サービス API を使用して、ドキュメント・コンテンツか
らカスタム・メタタグをフィルタリングできます。メタデータを Oracle SES に渡
して、検索結果を独自のタクソノミーに分類できます。
Oracle Secure Enterprise Search
23
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
以下の図 6 は、制御フローを示しています。一連のプラグイン・インスタンスを
使用して、パイプラインを形成できます。グローバル・パイプラインがあります
が、データソース固有のパイプライン(ソースごとに 1 つのパイプライン)も追
加できます。
図 6:Oracle SES ドキュメント・サービス・インタフェースの制御フロー
リリース 10.1.8.2 の新しいコネクタ
新しいリリースには、Oracle Content Server(旧称 Stellent)のコネクタがあります。
新しいコネクタは、RSS フィード・アプローチを使用して、Oracle Content Server
のドキュメントを索引付けします。一般的な Oracle SES RSS コネクタの拡張機能
として実装されます。
Oracle Content Server は、同意されたスキーマに準拠した XML ファイルとして RSS
フィードを生成します。これは、コンテンツ項目を Oracle SES にアクセスできる
場所に送信します。各ドキュメントは、項目の操作(挿入、削除、更新など)、
メタデータ(作成者やサマリーなど)、URL リンクなどとともにフィードの項目
にできます。Oracle SES は、これらのフィードを定期的に読み取り、ドキュメン
トのフェッチおよび索引付けを行います。Stellent コネクタは、柔軟なクローラ・
プラグイン・フレームワークを使用して、RSS コネクタの拡張機能として実装さ
れます。
•
コネクタの初期リリースでは、Stellent の顧客の間で一般的な 2 つのセ
キュリティ・モデル(Roles & Groups と Accounts)をサポートします。両
方のモデルで、ドキュメント・レベルのアクセス制御を実現します。Oracle
SES は、Oracle Content Server の資産のセキュリティ属性値を検索エンジ
ンの索引に保存して、検索問合せパフォーマンスを向上させてコンテン
ツ・サーバーの余分なラウンド・トリップを回避します。
Oracle Secure Enterprise Search
24
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
Oracle Content Server 内部('内部ユーザー')および外部(Active Directory など)で
管理されるユーザーの両方がサポートされます。
他のコネクタおよびコネクタの改善点
1.
新しく非常にスケーラブルな Oracle Collaboration Suite メール・クローラが
ある Oracle SES。新しいクローラは、スーパーユーザー・パスワードを使
用して、メール・ストア全体を索引付けします。
2.
Oracle Application Server Portal ソースの効率的な増分クロール処理
3.
Microsoft Exchange コネクタの拡張機能。Exchange サーバー側で電子メール
を索引付けするエージェント・プロセスは必要ありません。拡張されたコ
ネクタは、WebDAV プロトコルを使用して、Exchange を索引付けします。
検索サービスとしての Oracle SES の埋込み
情報アプリケーションやナレッジ管理ソフトウェアを作成する OEM パートナお
よび開発者は、'検索サービス'として Oracle SES を固有のソフトウェア・アプリ
ケーションに埋め込むことができます。
1.
OracleSES Web サービス問合せ API を使用して、アプリケーションの検索
マスクから検索を呼び出します。
2.
リモートの管理 Web サービス API を使用して、クローラ・スケジュールの
開始と停止や索引断片化レベルの取得などの管理アクションを実行します。
3.
ソフトウェアを使用して、Oracle SES をサイレント・インストールします。
4.
検索用にソース固有のメタデータを Oracle SES に送信して、SES メタデー
タを拡張します。
5.
アプリケーション固有の特性に基づく検索結果の関連性を調整します。問
合せ Web サービス API または特殊なパラメータ・ファイルの'ranking.xml'
を使用して、デフォルト属性(タイトルや作成者など)の重みを調整する
か、独自のカスタム属性を追加して属性の重みを設定します。
ナレッジ管理システム(KMS)の中央検索サービス・コンポーネントとなる Oracle
SES を埋め込んだ顧客の例として、シカゴに本社のある専門サービスおよび管理
コンサルティング会社の AT Kearney があります。以下の図 6 は、AT Kearney の世
界中のコンサルタントが使用する検索画面を示しています。この画面を使用して、
複数のコンテンツ・ソースからクライアントの成果物(スプレッドシート、クラ
イアント・プレゼンテーション)を検索します。AT Kearney の KMS には、検索
用の Oracle SES、クライアントの成果物を格納するコンテンツ管理システム、お
よびコンサルタントが新しいクライアント・ドキュメントをシステムに送信でき
る画面が含まれます。
Oracle Secure Enterprise Search
25
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
図 6:埋込み検索サービスとして SES を使用するナレッジ管理システム(KMS)の一例で
ある AT Kearney の@Knowledge Portal
サイレント・インストール
Oracle SES を使用して、サイレント・インストール(事前に選択したオプション
でインタフェースを使用しないインストール)を実行できます。サイレント・イ
ンストールを使用すると、複数のコンピュータへの配置を簡単に実行できます。
また、コマンドラインを使用して、リモートの場所からのインストールにも使用
できます。サイレント・インストールでは、Oracle Universal Installer を応答ファイ
ルに提供し、コマンドラインで'-silent'フラグを指定します。詳細は、Oracle SES
管理ガイドを参照してください[1]。
Oracle SES 索引への追加メタデータの送信
固有のコードを SES クローラ・パイプラインに接続します。新しいドキュメント・
サービス API(詳細は、下記の項を参照)によって、開発者は Oracle SES クロー
ラが検出したコンテンツの独自のドキュメント処理を実装できます。また、固有
のメタデータ・タグを挿入するフックやコンプライアンスおよび監査のために、
コンテンツからエンティティ(住所、電話番号、従業員 ID など)を抽出するフッ
クを提供します。
Oracle Secure Enterprise Search
26
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
Oracle SES および Oracle Application Server Portal
Oracle SES WSRP'ポートレット'(ポートレットは、類似した多くのエンティティ
とともにポータル・ページの内部で実行される小規模な Web アプリケーションで
す)によって、Oracle SES をポータルのシームレスな機能として表示できます(こ
れには、Oracle Application Server Portal 10.1.4 が必要です)。
検索結果は、顧客のポータル・ページに表示されます。他のポータル・ページと
同じルック・アンド・フィールでポータル・セキュリティと統合され、Java また
は Web サービスのコーディングが必要ありません。現在、ポートレットは、Oracle
SES バージョン 10.1.8.1 および Oracle Application Server Portal バージョン 10.1.4 で
使用できます。
図 7:WSRP ポートレットのスクリーンショット
ポートレットは、2 つの方法で使用できます。パブリック・ポータル・ページの
みの検索か、パブリック・ポータル・ページとプライベート・ポータル・ページ
(ログイン後のページ)の両方の検索です。ポートレットでパブリック・ページま
たはプライベート・ページを検索するには、簡単な構成変更が必要になります。
WSRP について確認します。WSRP を理解する最適な方法は、HTTP などと比較す
ることです。もっとも一般的な HTTP アプリケーションでは、Web ブラウザを通
じてリモート UI(Web アプリケーションなど)の参照およびやり取りを行います。
HTTP を使用すると、ブラウザは、リモート HTTP サーバーと通信して、マーク
アップ(HTML など)の取得やデータのポスト(フォーム送信など)を行うこと
ができます。WSRP は、クライアントとして動作するアプリケーション(コン
シューマ)と UI マークアップを取得してユーザー・アクションを送信するアプリ
ケーション(プロデューサ - Oracle Portal)の 2 つに類似したプロトコルです。プ
ロデューサは UI をホストします。コンシューマは、WSRP プロトコルを使用して、
UI を収集してやり取りします。
Oracle Secure Enterprise Search
27
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
Oracle SES を構成して、Verisign からの SSL 証明書を受け入れることができます。
これによって、ポータル側のユーザー名トークンの WS-Security(Verisign から入
手できるテスト用の 14 日間の試用証明書)が使用できます。
ポートレットのインストールと配置ドキュメントを説明したテクニカル・ノート
は、Oracle Technology Network から入手できます。
他の機能
推奨コンテンツ機能によって、検索結果画面のリアルタイムのコンテンツを索引
付けして表示できます。コンテンツを検索結果リストに表示する前に、スタイル
シートをコンテンツに適用できます。
Oracle SES 10.1.8.2 から、XML スタイルシートを使用して、特定のアプリケーショ
ンまたはリポジトリの SES 検索 UI の検索結果の表示を調整できるようになりま
した。以下の図 8 は、各検索結果のカスタム・メタタグ('session time'および'event
venue')を表示した検索画面の例を示しています。
図 8:XML スタイルシートを使用したヒット・リストのカスタマイズ
Oracle SES バージョン 10.1.8.1 からのアップグレードがサポートされます。
結論
企業イントラネットは、インターネットとは異なります。イントラネット内の情
報ソースは多岐にわたります。検索時は、パスワードで保護されたコンテンツへ
のアクセスが必要になります。イントラネットのドキュメントの重要性を判断す
るには、インターネットとは異なるさまざまな手法が必要であり、しかもその有
効な答えは、検索結果リストに収まらないほど多数です。Oracle Secure Enterprise
Search は、ユーザーがインターネットで体験する情報価値の向上をイントラネッ
トにもたらすために構築された製品です。オラクルの検索ソリューションを活用
Oracle Secure Enterprise Search
28
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
することによって、セキュアで効率的な情報の検索と情報の過多状態の緩和が実
現するだけではなく、イントラネットの奥深くに埋もれている情報を活用でき
ます。
参考資料
[1] Oracle Secure Enterprise Searchホーム・ページ:
http://www.oracle.com/technology/products/ses/index.html (英語)
http://otn.oracle.co.jp/products/oses/ (日本語)
[2] 製品に付属している Oracle Secure Enterprise Search 管理ガイド
[3] Oracle Secure Enterprise Search ビジネス・ホワイト・ペーパー
[4] Oracle Secure Enterprise Search データシート
[5] 『New Query Features in SES 10.1.8.2』ホワイト・ペーパー
[6] Oracle Secure Enterprise Search Content Server(旧称 Stellent)コネクタのホワイ
ト・ペーパー
Oracle Secure Enterprise Search
29
Oracle Corporation 発行「Secure Enterprise Search Version 10.1.8.2 An Oracle Technical White Paper」の翻訳版です。
Oracle Secure Enterprise Search ホワイト・ペーパー
2007 年 10 月
著者:Stefan Buchta
共著者:Roger Ford、Viswanathan Krishnamurthy
Oracle Corporation
World Headquarters
500 Oracle Parkway
Redwood Shores, CA 94065
U.S.A.
海外からのお問合せ窓口:
電話:+1.650.506.7000
ファクシミリ:+1.650.506.7200
www.oracle.com
オラクル社はインターネット上での活動を強化するソフトウェアを提供し
ます。
Oracle は、オラクル社の登録商標です。このホワイト・ペーパーで使用され
ているさまざまな製品名およびサービス名には、オラクル社の商標が含まれ
ています。その他のすべての製品名およびサービス名は、それぞれの会社の
商標です。
Copyright © 2005 Oracle Corporation
All rights reserved.
Fly UP