...

企業のためのセマンティック・ データ統合

by user

on
Category: Documents
7

views

Report

Comments

Transcript

企業のためのセマンティック・ データ統合
企業のためのセマンティック・
データ統合
Oracle ホワイト・ペーパー
2007 年 6 月
注:
本書は、オラクルの一般的な製品の方向性を示すことが目的です。また、情報提
供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。
下記の事項は、マテリアルやコード、機能の提供を確約するものではなく、また、
購買を決定する際の判断材料とはなりえません。オラクルの製品に関して記載さ
れている機能の開発、リリース、および時期については、弊社の裁量により決定
いたします。
企業のためのセマンティック・データ統合
2
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
企業のためのセマンティック・データ統合
セマンティック Web では、多様なアプリ
ケーションの間でデータの検出、自動化、
統合、および再利用がより効率的に行え
るように、データが定義され、リンクさ
れます。
はじめに
セマンティックWebは、現在のWebを拡張するためのWorld Wide Web Consortium
(W3C)の構想によって提唱されるプロジェクトです。“情報に明確な意味を付け、
コンピュータと人間がより効果的に協働できるようにします。”1Web上やWebアー
キテクチャを使用して構築されたアプリケーション内において、コンテンツの組
合せが人間指向のコンテンツからコンピュータを利用したコンテンツに移行して
いるので、これは重要です。セマンティックWebでは、多様なアプリケーション
の間でデータの検出、自動化、統合、および再利用がより効率的に行えるように、
データが定義され、リンクされます。このような目的に向かって、W3Cは、RDF
やOWLなどの標準やツールを取り入れ、セマンティック・テクノロジの使用を推
進してきました。
セマンティック Web イニシアティブが定義するデータ表現は、データ管理の発展
における次の段階であると考えられます。データ管理の課題の 1 つは、独立した
アプリケーションにより保存されているデータを共有し、分析する能力について
です。データ交換フォーマットなどのセマンティック・テクノロジの前段階とし
て、データおよびデータに関する情報を記述するデータ(スキーマやメタデータ)
は区別されてきました。データ表現の差異を小さくすることで、セマンティック・
テクノロジは、データ共有および統合に一歩近づくことができます。
Oracle Database 11g では、RDF および OWL データ管理がサポートされているので、
開発者は、スケーラブルでセキュアなアプリケーションのための業界の主要なソ
フトウェア・インフラストラクチャを使用できます。商用アプリケーションでは、
防衛、国家情報、生命科学、および地理空間のアプリケーションの複雑な問題を
解決するために、このテクノロジが使用されています。
ORACLE DATABASE 11g によるセマンティック・データ・モ
デルの管理
Oracle Database 11g には、ネイティブ RDF/RDFS/OWL サポートが組み込まれてい
ます。これによって、アプリケーション開発者は、セマンティック・データ管理
の効率的かつスケーラブルでセキュアな統合プラットフォームを利用できます。
このセマンティック・データベースのサポートは、Oracle Database のオプション
である Oracle Spatial 11g の一部です。アプリケーション開発者は、一連の用語と
それらの関係を定義して、データとメタデータに意味を追加できます。これらの
1
Scientific American誌:The Semantic Web、Tim Berners Lee、James Hendler、Ora Lassila、
2001 年 5 月
企業のためのセマンティック・データ統合
3
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
一連の用語(“オントロジ”)によって、単なるデータ値ではなくセマンティッ
ク・コンテンツに基づく強化された問合せ、分析、アクションを実行できます。
オントロジは、分野固有の知識を利用するアプリケーションを構築するために、
その使用が増加しています。オントロジ・データセット(多くの場合、数億のデー
タ項目と関係を含む)は、新しい RDF データ・モデルを使用して、3 つ(“トリ
プル”)のグループに保存できます。Oracle Database 11g では、このようなリポジ
トリを何十億ものトリプルにスケールさせることができるので、厳しい要件を持
つアプリケーションのニーズに対応できます。
一部の組織では、セマンティック・アプローチを使用して、特定の企業組織また
は業界から取得したデータ・スキーマに基づく情報モデル(オントロジ)を作成
しています。個々のアプリケーションのデータベース・スキーマは、さまざまな
アプリケーション固有のデータ・スキーマの概念の意味を明白にし、それらを相
互に関連付けるために、標準的な情報モデルにマッピングされます。その結果と
して生じる情報アーキテクチャは、組織内のデータソースの統合ビューを提供し
ます。図 1 に示すように、アプリケーション・ユーザーは、RDF データまたはオ
ントロジを構成するこのような企業のセマンティック(メタデータ)モデルに対
して問合せを実行できます。標準的なオントロジは、異機種間データソースにア
クセスする必要のある問合せとアプリケーション固有のスキーマを一致させます。
この結果として、企業と以下の Web ベースのシステムが直面している特異な問題
に対処する能力を持ったソリューションが得られます。
•
異機種間で拡大している一連の企業とパブリックなデータソースを介し
たデータ統合
•
来歴情報の追跡
•
確率的データとスキーマのモデル化
図 1 – エンタープライズ統合のワークフロー
企業のためのセマンティック・データ統合
4
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
Oracle Database 11g によるセマンティック・データ・モデルの管理は、ファイル・
ベースまたは特殊データベースによるアプローチにはない大きな利点があります。
•
総所有コストの削減:セマンティック・アプリケーションは、他のアプリ
ケーションと組み合わせることができ、データを中央に保存して企業レベ
ルで配置できるので、所有コストが削減されます。中央のデータ・ストレー
ジおよび問合せの利点の他に、企業データベース以外では、サービス指向
型アーキテクチャ(SOA)によって、クライアント側のソフトウェアをデス
クトップにインストールして維持したり、データを個別に管理する必要が
なくなります。
•
低リスク:RDF および OWL モデルは、既存の組織のデータ、XML、空
間的情報、およびテキスト文書とともに、企業の DBMS に直接統合でき
るようになりました。その結果が、統合されたスケーラブルでセキュアな
高性能アプリケーションです。顧客は、既存の IT リソースを使用する任
意のサーバー・プラットフォーム(UNIX、Linux、または Windows)にこれ
らのアプリケーションを配置し、管理できます。
•
高い価値:インターネットを使用して、より多数のユーザーが、実質的な
追加コストなしに、組織のアプリケーションにアクセスできます。そのた
め、ミッション・クリティカルな情報にアクセスする必要のあるすべての
ユーザーは、年間 365 日、1 日 24 時間いつでも情報にアクセスできます。
•
パフォーマンスとセキュリティ:マルチテラバイトの RDF データベース
を管理し、数十人から数万人のコミュニティにサービスを提供するために、
オラクルは、ミッション・クリティカルなセマンティック・データ・モデ
ルに対して、業界有数のデータベースのセキュリティ、スケーラビリティ、
およびパフォーマンスを提供します。
•
オープン・アーキテクチャ:主要なセマンティック・ソフトウェア・ツー
ルのベンダーが、Oracle Database 11g RDF/OWL データ・モデルをサポー
トすると発表しています。さらに、主要なオープンソース・ツールからの
プラグイン・サポートが提供されています。
異機種間データソースの統合
ビジネス情報、科学的データ、政府文書、電子メール・メッセージ、および Web
コンテンツの増加が止まらない現状では、データを統合し、ビジネス情報のエン
タープライズ・リポジトリから新しい意味や価値、情報を得る多くの機会が存在
します。企業、科学者、政府アナリストは、構造化および非構造化データの異機
種間ソースへのアクセスを試みるシステムの構築を始めています。当初、これら
のシステムには、そのようなドメイン間の統合を可能にするように構造化された
ものはほとんどありませんでした。
データ統合は、異なるドメインおよびアプリケーションの領域に、具体的なメリッ
トと課題を提供します。次の領域のケ-ス・スタディを確認します。
•
エンタープライズ・データ統合
•
ドメイン・データ・アグリゲーション(ライフサイエンスにおいて)
•
コンテキスト・アグリゲーション/ナレッジ管理
•
企業向け検索
企業のためのセマンティック・データ統合
5
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
オラクルのセマンティック WEB テクノロジ
このホワイト・ペーパーの前半部分で紹介した新しいデータ管理における多くの
課題に対処するために、Oracle Database 11g では、RDF および OWL ベースのアプ
リケーションに対して、オープンでスケーラブルかつセキュアで信頼性の高い業
界初のデータ管理ソフトウェアを提供します。このセマンティック・データベー
スのサポートは、Oracle Database のオプションである Oracle Spatial 11g の一部で
す。大きな改善としては、OWL オントロジに対するサポート、パフォーマンス、
およびスケーラビリティの向上があげられます。これらの新しい改善により、ア
プリケーション開発者は、Oracle Database のスケーラビリティを活用して、スケー
ラブルなセマンティックベースのアプリケーションを配置できるようになります。
Oracle Database 11g RDF/OWL Semantic Data Store
“今後の情報ナビゲーションにより、企業
は構造化および非構造化データにシーム
レスにアクセスし、必要な情報を正確に
検索できるようになります。オラクルの
新しい 11g ソフトウェアでの RDF デー
タ・モデルのサポートは、この構想にとっ
て大きな前進となります。Siderean 社の
Seamark Navigation Server と組み合わ
せると、顧客は新世代のアプリケーショ
ンを提供でき、ユーザーはすべてのデジ
タル情報を一様にナビゲートして、コン
テンツの相互関係を利用して結果を正確
に突き止めます。”
—Siderean Software 社、設立者、CTO、
Bradley Allen 氏
図 2 – Oracle Database 11g Semantic Data Store
Oracle Database 11g セマンティック・データベース機能により、次の処理が可能に
なります。
•
RDF/OWL データおよびオントロジへのストレージ、ロード、DML アク
セス
•
OWL および RDFS セマンティクス、ならびにユーザー定義のルールを使
用した推論
•
SQL に埋め込まれた SPARQL に類似するグラフパターンを使用した、
RDF/OWL データおよびオントロジに対する問合せ
•
オントロジを利用したエンタープライズ(リレーショナル)データの問
合せ
セマンティック・データへのストレージ、ロード、DML アクセス
Oracle の Semantic Data Store により、RDF/OWL モデルへのストレージ、ロード、
DML アクセスが可能になります。各モデルは、ラベルの付いた矢印で構成される
企業のためのセマンティック・データ統合
6
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
RDF/OWL グラフです。矢印は、条件によってラベルが付けられ、サブジェクト・
ノードはオブジェクト・ノードに接続されます。サブジェクト・ノードは URI ま
たは空白のノード、条件は URI、オブジェクト・ノードは URI、空白のノード、
またはリテラルであることが必要です。
図 3 – Oracle Database Semantic Data Store のストレージ構造
セマンティック Web の利点としては、共
通の明示的なセマンティクスによって異
機種間データを統合する機能、豊富で明
確に定義されたシステムのモデルの表現、
結果および解釈の形式通りの注釈付け、
オンライン出版物にモデルとセマンティ
クスを直接埋め込む機能、新たな知見を
推論するためのロジックの適用、用語の
意味に基づいて検索する機能、コン
ピュータ処理によるデータの有効化と
いったものがあげられます。
この Semantic Data Store では、正規化されたストレージ・アーキテクチャを使用
することにより、トリプル全体で一般的に長い URI およびリテラル値を繰り返し
使用することが原因で生じる複雑さを管理します。これにより、RDF/OWL デー
タを高い容量効率で保存し、スケーラブルかつ高機能なロードを行うことができ
ます。同じ値を持つ複数の語彙表示間の等価(たとえば、“0010”^^xsd:integer
と“10”^^xsd:positiveInteger)もサポートされます。RDF/OWL モデルへの便利な
DML アクセスは、よく知られているデータベース・ビュー・オブジェクトの概念
により提供されます。
OWL、RDFS、およびユーザー定義のルールを使用したネイティブ推論
数学的論理(記述論理など)の精度と厳密さを使用して、既存のデータから推論
を引き出すことが、セマンティック・データと他のデータを区別するもっとも重
要な特性です。新しい Oracle Database 11g の拡張機能には、ネイティブな推論エ
ンジンが含まれ、OWL の主要なサブセットを使用して、効率の高いスケーラブル
な推論を行います。この OWL 推論エンジンにより、RDF、RDFS、およびユーザー
定義のルール(追加された特殊な推論機能のために使用)に対する既存のネイティ
ブ推論は、より効率的でスケーラブルになります。推論は、これらのさまざまな
論理的帰結の形式を組み合わせて行われることもあります。
セマンティック・データの問合せ
RDF/OWL データは、SQL を使用して問い合わせることができます。SQL 問合せ
に埋込みが可能な SEM_MATCH テーブル・ファンクションには、RDF/OWL モデ
ルに対する任意のパターンと、オプションとして、RDFS、OWL、およびユーザー
定義のルールを使用して推論されたデータを検索する機能があります(以下を参
企業のためのセマンティック・データ統合
7
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
照)。SEM_MATCH ファンクションは、グラフの問合せと RDFS 推論を行う
SPARQL の中で W3C が定めた要件の大半を満たすよう設計されてきました。
SQL 問合せにグラフパターン照合の問合せを埋め込む機能には、次の利点があり
ます。1)ユーザーが、グラフパターン照合の問合せとして、RDF/OWL グラフに対
する問合せを指定できます。このため、グラフの問合せをリレーショナル問合せ
に手動で変換する必要がなくなります。2)SQL 問合せに埋め込まれた1つ以上の
グラフパターン照合の問合せから返ってきた結果は、強力な SQL 構成(集計機能
など)を使用して、さらに処理すること(他のリレーショナル表に結合するなど)
が可能です。3)グラフパターン照会の問合せを、外部の SQL 問合せに移植するた
めに自動的に SQL 副問合せに書き換える機能は、途中結果の段階を省き、Oracle
SQL オプティマイザの能力を活用できるので、問合せの処理が効率的になります。
図 4 – 上に示すスクリーンショットでは、RDF モデルの構造、SQL 問合せのスクリプト、
および RDF データ・モデルの問合せの結果を示しています。使用しているオントロジは、
Gene Ontology です。右上のパネルでは、簡単な RDF グラフパターン照合の問合せを示し
ています。右下のパネルでは、問合せ結果のトリプル(サブジェクト、プロパティ、オブジェ
クト)を示しています。
企業のためのセマンティック・データ統合
8
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
オントロジを利用したエンタープライズ(リレーショナル)データの問合せ
“オラクルのセマンティック Web 領域へ
の参入はすでに大成功を収めていますが、
これは当然のことです。古い製品を新し
いものに見せかけて売ろうとしているの
ではなく、これは正真正銘の新しい機能
だからです。”
—TopQuadrant 社、Chief Semantic
Technology Consultant、Dean Allemang
氏
リレーショナル・データが、リレーショナル・データのドメイン内のオントロジ
と関連付けられている場合は、問合せによってリレーショナル・データからより
多くの情報を抽出できます。たとえば、リレーショナル表の列に病名が含まれて
いる場合、‘AIDS’が‘免疫不全症候群’の一種であると述べる NCI Cancer Ontology
[NCI]に照らして私たちがその列の値を解釈すると、‘免疫不全症候群’に適合する
ものを求める問合せで、‘AIDS’という値を含む行を検索できます。新しい Oracle
Database 11g の拡張機能には、新たなセマンティック演算子([Das et al., VLDB
2004]中の説明と類似)に対するサポートが含まれています。これにより、オント
ロジを利用して、Oracle の拡張フレームワークによる効率的な方法で、リレーショ
ナル・データの問合せが可能になります。
結論
既存のデータベース・リポジトリおよびアプリケーションから、より多くのビジ
ネス・ナレッジを検索して引き出すという必要性は、多くの産業での最優先事項
です。セマンティック・テクノロジは、異なるデータベース、ビジネス・アプリ
ケーション、および Web サービスにわたって関連を検出する新しい技術を受け入
れるために、エンタープライズ・ソリューションに追加されています。
オラクルのセマンティック Web テクノロジは、RDF および OWL ベースのアプリ
ケーションに対して、オープンでスケーラブルかつセキュアで信頼性の高い業界
初のデータ管理プラットフォームを構成します。新しいオブジェクト・タイプが、
Oracle Database 10g でセマンティック・データを管理するために定義されています。
他のオブジェクト・リレーショナル・データ型と同様に、グラフ・データ・モデ
ルに基づいて、RDF トリプルは永続し、索引付けされ、問合せされます。RDF お
よび OWL で表現されたセマンティクスを管理する Oracle データベース機能に
よって、アプリケーション開発者は、Oracle データベースのスケーラビリティを
活用し、高性能の企業アプリケーションを確実に配置できます。
詳細情報
追加情報、ホワイト・ペーパー、サンプル・コードについては、Oracle Technology
Network
(OTN)の次のアドレスで Semantic Technologies の項を参照してください。
http://www.oracle.com/technology/tech/semantic_technologies (英語)
次の 2 つのドキュメントには、このホワイト・ペーパーで触れたユースケースの
一部に関する情報が含まれています。
“University of Texas Health Science Center at Houston Deploys Public Health Preparedness
Framework with Oracle and TopQuadrant --- Integrated Semantic Web Solution Allows Intuitive
Health Data Navigation for Public Health Information Exchange and Improved Decision Making, ”
Oracle プレス・リリース 2007 年 2 月 19 日(注:米国でのプレス・リリースです。)
http://www.oracle.com/corporate/press/2007_feb/UT%20Houston-TopQ.html
“Pharma Stuck on Semantic Web”、Wendy Wolfson、Bio-IT World、2006 年 11 月 15 日、Oracle
OpenWorld 2006 San Francisco のレポート(英語)
http://www.bio-itworld.com/issues/2006/nov/oracle-openworld/
企業のためのセマンティック・データ統合
9
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
企業のためのセマンティック・データ統合
10
Oracle Corporation 発行「Semantic Data Integration For the Enterprise」の翻訳版です。
企業のためのセマンティック・データ統合
2007 年 6 月
著者:Xavier Lopez、Souripriya Das
共著者:Melliyal Annamala、i Jay Banerjee、Jean Ihm、Jayant Sharma、Jim Steiner
Oracle Corporation
World Headquarters
500 Oracle Parkway
Redwood Shores, CA 94065
U.S.A.
海外からのお問合せ窓口:
電話:+1.650.506.7000
Fax:+1.650.506.7200
www.oracle.com
Copyright © 2007, Oracle.All rights reserved.
本文書は情報提供のみを目的として提供されており、ここに記載される内容は予告なく
変更されることがあります。
本文書は一切間違いがないことを保証するものではなく、さらに、口述による明示また
は法律による黙示を問わず、特定の目的に対する商品性もしくは適合性についての黙示
的な保証を含み、いかなる他の保証や条件も提供するものではありません。オラクル社
は本文書に関するいかなる法的責任も明確に否認し、本文書によって直接的または間接
的に確立される契約義務はないものとします。本文書はオラクル社の書面による許可を
前もって得ることなく、いかなる目的のためにも、電子または印刷を含むいかなる形式
や手段によっても再作成または送信することはできません。Oracle、JD Edwards、
PeopleSoft、および Retek は、米国 Oracle Corporation およびその子会社、関連会社の
登録商標です。その他の名称はそれぞれの会社の商標です。
Fly UP