...

XMLデータベース

by user

on
Category: Documents
16

views

Report

Comments

Transcript

XMLデータベース
製品カタログ
XMLデータベース
テラバイト級のデータ容量でも高速・高精度検索
テラバイト級のデータ容量でも高速・高精度検索
XMLデータの活用ニーズに確かな技術で応えます。
XML(eXtensible Markup Language)は、インター ネット上で交換・蓄積される
■ 管理されないまま増え続ける非定型データ
データの 形式として、さまざまな領域で活用が進んでいます。
企業内には、売上げや在庫などの基幹系情報、メールや掲示板などのコミュニケーション
TX1は、XMLデータの 構造をそのまま格納しながら、
情報、設計書や議事録、商品情報、品質情報などのドキュメント情報というように、実にさま
高速検索を実現したXMLデータベ ースです。
ざまな情報があります。
そして、これら企業内情報の約8割が、コミュニケーション情報やドキュメント情報に代表
T X 1 の 技 術が、X M Lデータの 活 用 の 可 能 性を 広 げます。
される、項目の長さや数が確定できない非定型データだと言われています。
これまで、売上げなどの基幹系情報の中心を占める定型データは、RDBなどを用いて管理
されてきましたが、非定型データは、ほとんど管理されてきませんでした。
しかし、企業価値向上のための情報活用、そして、コンプライアンス対応のためには、定型
データだけでなく、非定型データも的確に管理していく必要があります。つまり、非定型
データを的確に管理していかなければ、企業活動が成り立たなくなってきているのです。
特長 1
テラバイト級の
大容量データでも
高速検索
■ 非定型データの管理に有効なXML
この非定型データの管理に効果を発揮するのがXMLです。XMLは柔軟なデータ構造が
採れるため、項目の長さや数が確定できない非定型データを容易に表現できます。しか
・ 独自に開発した技術で、
高速検索を実現
・ 分散並列検索技術(DPS)
により大規模システムに対応
もデータ表現形式の国際標準規格であり、すでにデータ交換や蓄積のための基盤技術と
して定着してきています。また、XMLであれば、項目の変更やシステムの拡張があっても
柔軟に対応できる、情報管理しやすいシステムをつくることができます。
■ テラバイト級のXMLデータでも管理できるXMLデータベース。それが「TX1」
企業内に存在する多種多様な非定型データを管理するには、大量のXMLデータを管理
特長 2
柔軟なデータ構造
特長 3
多彩な検索手段
できるデータベースが必要です。
XMLデータベースTX1は、東芝ソリューションが開発した「テラバイト級のXMLデータ
でも高速に検索できるXMLデータベース」です。エンタープライズクラスのシステムに
適する特長を持つTX1を利用すれば、大量の非定型データでも的確に管理することができます。
・ 格納するときにデータベース
の構造定義が不要
・ ファイルシステムに似た
データモデル
・ 高度な日本語処理技術で、
多彩な検索手段を提供
近年の企業統合やビジネスの拡大により、散在する多種多様な情報資産を横断的に活用
するためのデータ統合のニーズが高まっています。それぞれの事業所や部門で統合管理
されていた情報を、さらに統合しようとしたとき、1台のサーバでは管理できる限界を超え
てしまうことがあります。このような場合でも分散並列検索技術(DPS)によりスケーラ
ビリティを確保できます。
特長 4
信頼性の確保
特長 5
効率的なアプリ
ケーション開発
■ 非定型データやテキストデータの管理に適したTX1
TX1は、非定型データだけでなく、テキストデータの管理にも適したデータベースです。
RDBでは格納しづらいデータも的確に管理できます。
・ データベースに求められる
信頼性を確保
・ XQueryと独自APIでDBを自在に操作
・ Webアプリケーション開発を支援するXWeb
・ さまざまな形式のデータをXMLに変換して
登録するデータ連携機能
・ 他社製データ連携ミドルウェアの利用により、
より高度なデータ変換も可能に
非定型データ
数値/文字列
データ中心
非定型データやテキスト
データは、TX1向き
TX1
適用領域
RDB適用領域
定型データや数値/文字列
データは、RDB向き
定型データ
全文検索
エンジン
適用領域
テキスト
データ中心
feature
feature 1
テラバイト級の大容量データでも高速検索
独自に開発した技術で、高速検索を実現
TX1では、格納するときにデータベース構造の定義を必要としません。構造の異なる非定型のデータもそのまま格納できます。
また、
データ構造に変更があっても、
データベースの構造を変更することなく、
更新データをそのまま格納できます。つまり、TX1は、
特許公報8年分300万件(100GB)から、1万件の大量ヒットでも、検索時間は約1秒(*1)
®
柔軟なデータ構造
格納するときにデータベースの構造定義が不要
■大容量データでも高速検索
: 1台のサーバ(Intel
(*1)
feature 2
Xeon ® 3GHz×2,
メモリ 2GB)にディスクアレイ装置「ArrayFort®」を接続した場合の当社調べ
データ構造に変更があっても、柔軟に対応できるデータベースです。
■独自開発の高速化技術
XMLデータから構造を自動的に抽出して索引化(構造索引)する構造自動抽出技術(*2)と、
抽出した構造と語彙を統計的に分析して
ファイルシステムに似たデータモデル
最適な問い合わせプランを生成する問い合わせ最適化技術(*2)を実装。
また、
全文検索のための索引(語彙索引)
を作成する機能
1つのXML文書を指すシート、
そのシートを保管する
も搭載。これらの技術で、
検索対象への参照を最小限に抑え、
検索速度の高速化を実現しています。
場所のコレクション、
そして、
データ管理の単位となる
: 特許第3754253号、
その他の登録済み特許および出願中の特許を使用
(*2)
XMLスペース、
というように、TX1は、Windowsの
■コレクション
ファイルシステムに似たデータモデルを採用してい
シートを分類・整理するための保管場所
(フォルダに相当)
■スケーラビリティの確保
データのように見えるので、
データを処理する上で、
文書1
<book>
<title>XML入門</title>
<author>
<last>太郎</last>
<fast>山田</fast>
</author>
</book>
階層構造を自動的
に抽出し、索引化
book
文書1
構
造
抽
出
圧縮
first
文書2
<book>
<title>XML技術</title>
<author>
<last>次郎</last>
<fast>鈴木</fast>
</author>
</book>
/book/title[
contains(.//first,”次郎”)
and
contains(.//last,”鈴木”)
]
データベース
last
語
彙
抽
出
太郎
太郎
太郎
山田
太郎
太郎
デ
ー
タ
XQuery
処理
語彙索引
圧縮
太郎
太郎
太郎
XMLスペースが1つの大きな
■シート
XMLデータとして見える
XML文書(ファイルに相当)
非常に扱いやすいモデルになっています。
XMLデータ検索処理
構造索引
title author
データ管理の単位(ボリュームに相当)
ます。また、XMLスペースが1つの大きなXML
多人数で同時に検索しても、安定した検索性能を提供します。
XMLデータ格納処理
■XMLスペース
最適な問合せ
プランを生成
feature 3
多彩な検索手段
高度な日本語処理技術で、多彩な検索手段を提供
山田
山田
山田
■Nグラム方式と形態素解析方式の使い分け
データ
Nグラム方式と形態素解析方式をXMLの要素単位で使い分けできます。
<title>XML技術</title>
圧縮
N グ ラ ム 方 式: 隣接する文字列で索引となる文字列を切り出す方式。漏れのない厳密な検索が可能。
形態素解析方式:言語の規則や辞書に従い、意味のある単語で索引となる文字列を切り出す方式。
データ集合への参照が
最小限に抑えられている
単語の意味を考慮した検索が可能。Nグラム方式と比較した場合、索引サイズも縮小。
型番などの英数字列の検索はNグラム方式、本文など文章の検索は形態
■分散並列検索技術(DPS)により大規模システムに対応
分散並列検索技術「Distributed Parallel Search(DPS)」では、複数のTX1サーバを管理する「TX1コーディネータ」が、
素解析方式と使い分けることで、探したいデータを素早く検索できます。
■自然言語検索
それぞれのTX1サーバに対して並列に検索の要求を行います。
この分散並列検索技術(DPS)により、数十テラバイトの大容量なXMLデータでも、高速に検索を行うことができます。
頭に思い浮かべた質問をそのまま検索の条件にします。
■スコアリング
アプリケーション・サーバ
アプリケーション・サーバ
アプリケーション・サーバ
検索キーワードの出現頻度をもとに、検索結果をスコアリングします。
■同一視検索
<営業情報>
<会社名>○○会社</会社名>
<型番>M3750N1L</型番>
Nグラム方式を適用
英数字列
固有名詞など
<商品名>XMLデータベース</商品名>
<本文>
この会社は・・・・・・・・・・・・・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
形態素解析方式を適用
文章など
</本文>
</営業情報>
英数字の大小文字、全半角を同一視して検索します。
検索要求
ひらがなとカタカナ、
ひらがなとカタカナの大小文字を同一視して検索します。
TX1コーディネータ
異体字辞書を用いて、検索キーワードの異体字を同一視して検索します。
TX1コーディネータ
例:
「渡辺さん」、
「渡邉さん」を同一視して検索可能
■同義語検索
検索要求
検索要求
検索要求
同義語辞書を用いて、指定した検索キーワードの同義語も同時に検索します。
検索要求
例:
「電子計算機」に対する同義語として「コンピュータ」が定義してあると、
「電子計算機」というキーワードで検索した場合、
TX1サーバ
TX1サーバ
TX1サーバ
TX1サーバ
「コンピュータ」を含む文字も同時に検索します。
■近傍検索
・
・
・
複数の検索キーワード間の距離を指定して検索します。
例:
「東芝」と「ソリューション」を検索キーワードとし、
この2つのキーワードの距離を20文字以内と指定すると、
データベース
データベース
データベース
データベース
「東芝」と「ソリューション」間の文字数が20文字以内のものを検索します。
■語順指定検索
複数の検索キーワードの出現順序を指定して検索します。
■XQueryをベースに拡張
自然言語検索や同義語検索など全文検索の問い合わせ言語は、XQuery Full Text( XQueryの全文検索拡張言語)
を
ベースに独自拡張しています。
feature
cases
feature 4
cases
信頼性の確保
TX1の活用シーン
データベースに求められる信頼性を確保
1.標準化が進んでいる大容量のXMLデータの管理
■管理機能
特許文書、新聞、カルテなど、大容量のXMLデータでも、効率的に管理・検索可能
データベースに求められる信頼性を確保するため、同時実行制御、
トランザクション管理、
リカバリ機能、
アクセス権制限などの
機能を実装し、大規模な企業情報システムでも安心して運用できます。
同時実行制御には、MVCC(Multi Version Concurrency Control:多版型同時実行制御)
を採用。参照と更新でロック
■ コンテンツデータベースシステムの例(新聞社の例)
NewsMLで記述された新聞素材を効率的に管理・運用
見出し・
キーワード登録
【課題】
が競合することのないMVCCでは、
マルチユーザ環境でのスループットが向上します。
■NewsMLで記述された新聞素材(記事原稿や写真)を効率的に管理・運用
アクセス権制御は、XML文書を最小単位としてXPath方式で指定するパスごとに権限の設定が可能です。
したい。
受信サーバ
組版システム
転送
コンテンツ
データベースサーバ
受信
登録
システム部門
■完成した記事の保管、検索や配信などを効率的に実現したい。
■運用機能
DVD
【解決】
オンラインバックアップをはじめ、データベースのインポート/エクスポートなどの運用機能も装備しています。
■XML形式の記事・見出しデータをそのままTX1に登録。
■可用性システムの構築
■高速な全文検索機能で、
ブラウザから容易に記事の検索が可能。
当社のクラスタ製品「ClusterPerfect®」をはじめとするクラスタソフトウェアと組み合わせることにより、可用性の高いシステムを
■TX1であれば、ジャンルや掲載日などの属性検索と記事本体の全文検索と
構築することができます。
の併用でも高速に検索可能。
feature 5
コンテンツデータベースシステム
XML形式
記事見出し
エトキ*1
検索
表示
DjVu形式
閲覧用紙面
イメージ
過去イメージ
退避
JPEG形式
社内利用
(編集部門、広告部門など)
紙面イメージ
サムネイル
*1 エトキ:写真や図に付く説明文
2.RDBでは格納しづらい非定型データの管理
効率的なアプリケーション開発
品質情報、規程集、申請書など、項目の長さや数が確定できない非定型データでも効率的に管理・検索可能
■ 品質情報管理システムの例(製造会社の例)
XQueryと独自APIでDBを自在に操作
XMLの高い記述能力を最大限に引き出すべくTX1では、問い合わせ言語としてXQuery(*1)をサポートしています。 検索用APIは、RDBでの開発経験が有効に活かせるように
XWeb
Model)
をベースに定義されています。
Webアプリケーション開発を支援する XWeb
■RDBでは、データベースの作り直しが頻発。
TX1サーバ
結 果
■検索要求
XQuery生成
■更新要求
結果画面で
検索
更新
実行結果
出力XML
結果表示
出力HTML
データ
ベース
■出力変換
Webアプリケーションを構築する手間を軽減するために、URLパラメータ
変換用XSL
ユーザ
オブジェクト
■品質情報をTX1でデータベース化。
■項目の追加があっても、
タグの追加で対応でき、データベース構造の変更は不要。
Notes
RDB
収集
XML変換
収集
XML変換
XML
CSV
■全文検索も高速に実行。類似した現象も効率的に検索。
収集
XML変換
既存複数システムに分散した異なる構造のデータをXML形式で一元管理することで、横断的な検索や分析が可能
RDBやNotesなどの複数のデータベースを横断した高度な情報活用を実現
【課題】
データ連携機能
的な検索や分析をしたい。
・あるユーザに関する情報を全部集めて時系列に表示したい。
管理するデータ統合システムを短期間で構築できます。
■全文検索エンジンでは、文書全体が検索対象となり、ユーザ名や日付など属
収集
XML変換
収集
XML変換
データ連携機能
登 録
性データを指定した検索ができない。
ファイルシステム
Excel
CSV
XML
HTMLなど
データ連携を行う際、
データ連携に特化した他社製ミドルウェアを利用
グループウェア
Lotus Domino
Lotus Notes
【解決】
データベース
Oracle
SQL Server
DB2など
ア
ダ
プ
タ
することも可能です。TX1のデータ連携機能ではサポートしていない
インフォテリア社製 ASTERIA WARP
問合せ情報 Notes DB
RDB
・あるキーワードが含まれる情報を全部集めて期間ごとに集計したい。
他社製データ連携ミドルウェアの利用により、
より高度なデータ変換も可能に
アプレッソ社製 DataSpider Servista
障害情報
■別々のデータベースで運用されている障害情報と問合せ情報に対して、横断 登 録
システムはそのまま運用しながら、複数システムに分散したデータを一元
繋ぐアダプタを提供しています。
項目の追加が発生しても、 データベース構造の変更は不要
<確認>
<確認者> </確認者>
<コメント> </コメント>
</確認>
</品質情報>
■ データ統合システムの構築の例
収集
XML変換
RDB、Notesなどからデータを収集し、XML変換して、TX1へ登録する
出しも可能になります。TX1では下記データ連携ミドルウェアとTX1を
項目の追加
<品質情報>
<番号>00100</番号>
<日付>20060320</日付>
<バージョン> </バージョン>
<問題内容> </問題内容>
<回答>
<回答者> </回答者>
<回答内容> </回答内容>
</回答>
3.データ統合システムの構築
な設定だけで、Webアプリケーションが開発できます。
種類のデータを変換したり、TX1への収集だけでなくTX1からの取り
<品質情報>
<番号>00001</番号>
<日付>20050301</日付>
<バージョン> </バージョン>
<問題内容> </問題内容>
<回答>
<回答者> </回答者>
<回答内容> </回答内容>
</回答>
</品質情報>
設定
ファイル
XWebを利用することで、HTMLページやスタイルシートの作成と簡単
データ連携機能を提供しています。データ連携機能を活用すれば、既存
【解決】
■発生した日付やバージョンごとでの分析も可能。
入出力
plug-in
を用いてTX1にアクセスできるサーブレット
「XWeb」を提供しています。
さまざまな形式のデータをXMLに変換して
TX1に登録するデータ連携機能
類似した現象の検索
発生日付や
バージョンごとで分析
ケーションの変更作業を少なくしたい。
実 行
解 析
URLパラメータ
検索要求
共有化
■品質強化のため、項目の追加・変更が発生しても、データベースやアプリ
JXAPI
XWeb
コントロールサーブレット
検索画面で
品質情報
■ファイルで管理している品質情報を情報共有のためにデータベース化したい。
Web
アプリケーション
サーバ
JDBC/ODBCをベースに定義されています。また、更新用APIは、
XMLデータ更新の標準APIであるDOM(Document Object
ファイルで管理していた品質情報をデータベース化し、情報共有を実現
【課題】
(*1)
: XQuery:W3C(World Wide Web Consortium)で現在策定中の問い合わせ言語
品質情報管理システム
■各データベースから文書ごとに属性、本文等を取り出して、TX1で一元管理。
■ユーザ名や日付などの属性データの一致検索と本文などのテキストデータの ア
ダ
プ
タ
TX1サーバ
データ連携ミドルウェア
アダプタ
■DataSpider Servista
■ASTERIA WARP
ア
ダ
プ
タ
アプリケーション
XML形式で統合
ード
ーワ 析
やキ
分
ザ名 検索・
ー
ユ
的に
横断
で
など
TX1
MW連携
オプション
ア
ダ
プ
タ
プロトコル
Mail
FTP
Webサービスなど
全文検索を組合せて検索可能。
検索
分析
■TX1であれば、文書数が増大してもストレスのない応答時間で検索可能。
データ
ベース
散在する多種多様な情報資産を横断的に活用するためのデータ統合のニーズにも、
「TX1コーディネータ」を
設置し、複数のTX1サーバを効率よく検索することで対応可能
サービス
■ 企画・設計
◎コンサルティングサービス
TX1のご導入にあたり、お客様の業務を分析し、システム構築のためのデータ
ベースの設計やデータベースの構築、サイジング、お客様のシステムにおける
APIの使用方法の提案やサンプルプログラムの提示、
クエリのチューニング等の
コンサルテーションを実施します。
■ 構築・展開
◎アプリケーション開発支援サービス
◎アプリケーション開発支援サービス
◎環境設定サービス
◎コンサルティングサービス
T X1をご購入されたお客様を対象にT X1を用いたアプリケーション開発を
企画・設計
行う際のAPIなどの使用方法について、基本的な教育とサンプルソースの提示
構築・展開
を行います。また、教育実施後、技術的な問い合わせやご相談について、Q&Aを
実施します。
サポートサービス
◎環境設定サービス
TX1のご導入にあたり、お客様のHW環境においてTX1のインストール及び
◎基本サポートサービス(必須)
◎運用・診断支援サービス
ヒアリングシートに基づいたDBパラメータの初期設定を実施します。
運用・保守
■ 運用・保守
◎基本サポートサービス(必須)
ソフトウェア障害対応、
ソフトウェア修正版提供、バージョンアップ版提供、Q&A
などの各種サービスを提供します。
◎運用・診断支援サービス
システム負荷の状況を診断し、性能要件を満たす最適なシステム構成の検証・
評価を実施します。
動作環境
■ OS
■ 開発環境
Windows Server 2003 Service Pack 2
Windows Server 2003 x64 Edition Service Pack 2
Windows Server 2008 x64 Edition
JAVA
Windows、Solaris、Linux
C++
Windows
Solaris
Solaris10(64bit)
Visual Basic
Windows
Linux
Red Hat Enterprise Linux 5.1/5.2
Advanced Platform(AMD64/EM64T)
Windows
■ 詳細についてはホームページをご覧ください。
商 品 情 報 ホー ム ペ ージ : h t t p : / / x m l . t o s h i b a - s o l . c o . j p
● TX1、ArrayFort、ClusterPerfectは東芝ソリューション株式会社の登録商標または商標です。● ASTERIAは、
インフォテリア株式会社の登録商標です。● DataSpiderは、株式会社アプレッソの登録商標です。
● Linuxは、Linus Torvalds氏の日本およびその他の国における登録商標または商標です。● Microsoft、Windows、Windows Serverは、米国Microsoft Corporationの米国およびその他の国における登録商標
または商標です。● Notesは、IBM Corporationの商標です。● Solaris、JAXPは、米国Sun Microsystems, Inc.の米国およびその他の国における商標または登録商標です。● 本カタログに掲載の商品の名称は、
それぞれ各社が商標として使用している場合があります。
安全に関するご注意
●正しく安全にお使いいただくために、
ご使用前に必ず「取扱・操作に関する
説明書」
をよくお読みください。
プラットフォームソリューション事業部
〒105-6691 東京都港区芝浦1-1-1 TEL(03)
3457-2725
●商品情報ホームページ : http://xml.toshiba-sol.co.jp
お問い合わせの際にご提供いただくお客様の個人情報は、
お問い合せへのご回答および内容の確認のみに利用させていただきます。
当社個人情報保護方針 : http://www.toshiba-sol.co.jp/privacy/index_ j.htm
●資料の内容はお断りなしに変更することがありますのでご了承ください。 ● 本カタログに記載しております全商品及び役務等をご購入の際消費税が付加されますのでご承知おき願います。
DE289©090901( 9 )Q
Fly UP