...

講演資料pdf 981KB

by user

on
Category: Documents
18

views

Report

Comments

Transcript

講演資料pdf 981KB
1
OGFを中心とした、
e-Science 向け
データグリッド関連活動の概要
小島 功
産業技術総合研究所 グリッド研究センター
[email protected]
2
概要
• OGFにおけるデータ&eScienceの概要
–関連グループの活動紹介など
• DAIS(Database Access and Integration Service)-WGにおける活動
–WS-DAI紹介
• OGSA-DAIミドルウェアの紹介
–基本モデルと特徴
• データベースを基礎としたe-Science応用の紹介
–地球科学関係を中心に紹介
•どういう課題があるのか? どういう解法が指向されているか?
•必要な機能・フィードバックなど
OGFにおけるデータ & eScience
• Data Area Working Groups
–グリッドにおける、「データ」に関わる「標準」規格群の策定
• データ転送はどうするか?
• データベースはどうアクセスするか?
• フォーマットは?
• ファイルは?
–などなど、
• Application Area
Working Groups
–データ・データベースに近い「応用」の「標準」を策定するグループがある。
• Grid Information Retrieval
– 分散情報検索
• eScience Functions Research Groups
–データベースやデータ統合が重要な「応用」の「研究」グループがある。
• 天文(Astronomy)
• ライフサイエンス(Life Science)
• デジタルアーカイブ(Preservation Environment)
• など、
一部は後ほど発表
3
4
データエリアの俯瞰
応用
Info-D
データベース
アクセス
(DAIS)
データ表現&
フォーマット
(DFDL)
OGSA Data Architecture
全体アーキテクチャ
データ移動
(OGSA-DMI)
GridFTP
ファイル内
データIO
(OGSA-ByteIO)
ファイルシステム
GFS
ストレージ
5
各グループの簡単な紹介と現状
•全体アーキテクチャ
–OGSA-Data Architecture Working Group
•それぞれの規格が全体としてどういう関連・位置づけになっているか
•アーキテクチャドキュメントをまとめた状況。
•上位・応用層
–Information Dissemination Working Group
–イベントベースの情報処理(Pub/Sub)のモデル化と規格
•コアの部分の規格をまとめて参照実装を進めている。
•モデルの拡張を議論中(ブローカリングなど)
•データベース
–Database Access and Integration Service WG
•関係データベース、XMLデータベースにたいするアクセス規格を定めた。
•参照実装とそれによるテストを待っている状況。
6
(続)
• ファイル
–Grid File System WG
• 広域でグローバルなファイルシステムの構築。
• データ転送
–OGSA-Data Movement Interface WG
–複数のデータ転送ミドルウェアを相互接続できるための規格
• RFT・EGEEなどミドル開発グループが合同で仕様を議論中。
• GSMとあわせてSNIAとの連携を模索。今回のOGF22でワークショップを開催
–GridFTP
• GridFTPの規格化。活動としては終了に近い?
–OGSA-ByteIO
• ファイル内のデータIOの操作仕様の規定
• 互換性テストも終了して活動は一段落。
• データフォーマット
–Data Format Decription Language
• データフォーマットの形式をXMLで記述して相互交換を可能にする。
• 仕様の議論中
• ストレージ
–Grid Storage Management
• ストレージ管理・SNIAとの連携を模索。ワークショップを開催
DAIS-WG:データベースアクセスと統合
7
• グリッドにおけるデータベースアクセス
–分散したDBをサービスベースで統合する。
–WS-DAI
(Web Services Database Access and Integration Service)
データベース実装に依
存しないアクセス機能
WS-DAI
仕様の特徴:
データベースシステムに依存しない
抽象モデルと仕様を定める
• WS-DAI Core Model
この詳細化仕様として、
各データベースのアクセス仕様が存在する。
WS-DAIR
• 関係データベース
– WS-DAIR(Relational)
• XMLデータベース
関係DB
WS-DAIX
XMLDB
WS-DAI
RDFS
Files
RDF-DB
– WS-DAIX(XML)
検討中
実際には、これら各DB向けの
アクセス法を使ってアクセスする。
規格策定済
8
WS-DAI:規格の特徴と現状
•(単純には)クライアント・サーバ型のSQLやXQueryの検
索を、Webサービスに基づいて行う規格
結果の間接配送(IndirectAccess)がある
検索結果データが多いときなど、
結果セットを別の
データサービスとして提供する
Consumer
SQLExecuteFactory (
SQLExecuteFactoryRequest (
SQLProperties (……, etc)
SQLRequest (
SQLExpression,
SQLExecuteRequestParameters)
ResponseFormat))
Database
Data Service
RelationalDescription
……, etc
Relational
Database
SQLFactory
SQLExecuteFactoryResponse (
EndPointReference (
SQLResponseAccess))
SQLResponse
Data Service
GetSQLRowSet (
GetSQLRowSetRequest (
RowSetNumber))
SQLResponseDescription
NumberOfRowSets, etc
SQLRowSet
SQLResponseAccess
GetSQLRowSetResponse (
RowSet))
規格の現状
•仕様ドキュメントとしては完了
•相互接続テスト用のドキュメントも完成済
•参照実装の完成待ち
9
WS-DAI 最近(OGF22)の動向
• RDFデータベースについての規格の作成
産総研&EU
–WS-DAI RDF(S) Querying
• SPARQLでRDFデータベースを検索
–WS-DAI RDF(S) Ontology Access
Semantic
Grid
• RDF(S)に基づくオントロジAPIをWS-DAIに基づいて提供
• 参照実装の進行
–WS-DAIR:OGSA-DAI(やっと着手!), AMGA(新)、GReIC (新)
–WS-DAIX:OGSA-DAI(同上) & Ohio U(やや厳しい)
• DAIRのIBM実装とDAIXのマンチェスタ実装は完成後に規格が動いたのでボツ
• SAGA (Simple API for Grid Applications)
(XMLメッセージではなく)Javaなどプログラミング言語からのグリッド機能の利用
のためのAPI (後述)
–データベースアクセスのためのSAGA APIについて
• 今回初めてセッションを持つ
• まだ見えてこない=ユースケースを集めることに
10
OGSA-DAIとは
リモートのDBをWebサービス経由でアクセスするミドルウェア
(もちろんそれだけではないが)
英国 OMIIプロジェクトの開発。WS-DAIの参照実装を目標
–ファイアーウォールの内側のDBMSにSQLなどで直接アクセスできる
Java プログラム
Activity
Framework
AIST
with OGSA-DAI
アプリケーションサーバ
SQL on HTTP/SOAP
Globus
OGSA-DAI ライブラリ
Internet
グリッドのセキュリティ基
盤に基づいた、安全なア
クセス
•
•
グリッドのセキュリティ基盤に
基づいた、DBアカウント管理。
OGSA-DAI
SQL
wJDBC
データベース・サーバ
関係
データベース
関係データベースの場合
OGSA-DAIのプログラミング
zリモート・遠隔地のデータベースシステムが、
Webサービス(データ要求実行サービス)として提供され、グ
リッドのミドルウェア(Globus Toolkit)上のプログラム(client)
から使える。
¾一般的なデータベースプログラミング
(プログラム内からSQLなどを投げる)
zアクティビティという処理モデル(後述)
¾一連の処理をまとめて投げ、
処理結果をまとめてもらう。
単なるSQLのリモートアクセスとどう違うか?
サービスベース:HTTPポートの開いているところでは、どこでもOK
GSIをサポート:GSIとDB(例えばOracle)のアカウントのマッピング
結果のデータ変換をサポート:XSLTを支援、検索結果の加工など。
第3者転送・大量データ処理をサポート:FTP・GFTPなどにより、結果を
第3者サイトに転送できる
11
OGSA-DAIのWorkflowとは
12
•Workflow: 複数のActivityがつながって、一連のデータ処
理を記述するもの
SQL
Query
Statement
ResultSet
data
TupleTo
CSV
Deliver
ToFTP
XML
data
1. SQLで検索をして、(SQL問い合わせのアクティビティ)
2. 結果をCSVに変換して、(データ変換のアクティビティ)
3. そのデータをリモートに転送しよう、
Workflow
Workflow
Query
Transform
Deliver
WorkflowがWebサービス
(要求実行サービス)に
対する一つの呼び出しに
なっている。
13
データアクセス
(データベースの検索)
関係DB
SQLQuery
SQLBag など
XMLDB
XQueryQuery
XPathQuery など
データ入力
(FTP,HTTPなどを使った、
他サイトからのデータ転送の受け入れ)
ObtainFromFTP
ObtainFromGFTP
ObtainFromHTTP
ObtainFromMultipleFTP
など
データ変換
データ出力
(データの加工・変換)
ファイル
ListDirectory
ReadFromFile
など
データ変換
TuplesToWebRowSet
TuplesToCSV など
データ圧縮
GZIPCompression
ZIPDeCompression など
XML変換
XSLTransformation
データ書き込み
(データベースの更新)
データ書き込み
SQLUpdate
関係DB
(データベースの更新)
SQLBulkLoadTuple など
XMLDB
ファイル
XMLUpdateStatement
XMLBulkLoad など
など
(FTP,HTTPなどを使った、
他サイトへのデータ転送)
DeliverToFTP
DeliverToGFTP
DeliverToHTTP
DeliverToMultipleFTP
DeliverToSMTP
など
集合演算
TupleSimpleMerge
TupleSplit など
ブロック処理
ControlledRepeat
Split、Tee など
WriteToFile
FileCopy など
データ管理
(リソースの作成、システムの拡張など)
CreateResourceGroup
など
OGSA-DAI3.0のアクティビティ群の構造
(計画中のものを含む)
14
何でこんな構造なのか?
•
一つのサイトでやるデータ処理は、問い合わせだけではない。
–
•
一般には、加工して、別のサイトに転送して、、、といった一連の処理が必要。
これら小さな処理の連携・接続をWebサービス同士の連携でやるのは非効率的
–
–
–
一つのサイトやコンピュータの中なら、もっと処理同士の連携は簡便かつ効率的にできるはず。
データ処理の単位はActivityとして定め、Activityが組合わさったワークフローをWebサービスの入力と
する。
Activity間の連携は、パイプ・ストリームのような簡便かつ効果的な実装を使う。
1. 一つのデータサービス内でのワークフロー
•
Activityの連携でワークフローを記述、処理
–
ひとつのサービス内でできることを高度化
2. 複数のサービスにおける連携
•
•
データベース処理を含む汎用ワークフロー
•
BPELやTavernaなど、汎用ワークフローエンジンと組み合わせよ。
•
•
該当モジュールの提供
WEEPなど
DAI向き
向きBPEL
BPELエンジンの提供
エンジンの提供
WEEPなどDAI
分散データベース処理に基づくワークフロー
•
分散問い合わせ処理のミドルウェア+αの提供
•
•
OGSA-DQP
問い合わせ処理を最適化する。
15
Activity Workflowの構築
1. Webサービスに投げるXM
Lとして
2. Javaのクライアントプログラ
ムで
<workflow>
アクティビティを順
番に記述
<pipeline>
<activity SQLquery>…….
<outputStream pipe=“pipe1”>
</activity>
<activity TupleToCSV>,,,
<inputStream pipe=“pipe1”>
</activity>
</pipeline>
</workflow>
2つのアクティビ
ティの入出力を、
pipe1でつなぐ
基本: pipeline状に順番にIO
をつなぐ(単純)
Input
Output
Activity
pipe
input
Activity
16
複雑なものもOK
e-Science & データ・グリッド
•グリッド応用における、データ指向計算とは
–大量のデータを扱う分散計算
•CERN のセンサデータの分散配布・共有・レプリカ管理
•衛星データの配信など
後ほど発表
–地理的・組織的に分散した情報の統合計算
•IVO(仮想天文台)に基づくデータベース天文学
後ほど発表
•統合遺伝子データベース上のデータ解析・マイニングなど
これらの応用やインフラを広くデータ・グリッドと呼ぶ。
17
データグリッド応用の種類
分散・大量データ処理(トップダウン的)
18
–CERN-LHC,衛星データ,センサーネットワークなど
•ひとつの情報リソースからのデータが膨大
–単一のストレージに入らない
–同一タイプのデータソース
が膨大にある
–分散した解析など
分散環境でデータを共有したい。
100MB/s -> 360GB/H ->8.64TB/Day->3PB/Year
~PBytes/sec
Online System
~100 MBytes/sec
CERN Computer Center > 20 TIPS
Tier 0 +1
Experiment
~0.6 - 2.5 Gbits/sec
FNAL Center
+ Air Freight
Italy Center
UK Center
FranceCentre
Tier 1
~2.4 Gbits/sec
Tier 2
Tier2 Center
Tier2 Center
Tier2 Center
Tier2 Center
Tier2 Center
~622 Mbits/sec
Tier 3
世界中の数千の科学者
•200サイトにコピー
Institute ~0.25TIPS
Institute
Institute
Institute
100 - 1000 Mbits/sec
•5000万個の論理ファイル
•5億個の物理ファイル
Physics data cache
Tier 4
•単一の管理ポリシーのデータをトップダウン的に分散さ
せる技術。
Workstations
–分散(並列)ファイルシステムなど
情報統合(ボトムアップ的)
→ データベース技術の利用
• 分散した地域、組織などから
データがボトムアップ的に発生する。
–意味が似ているのに表現が違う。
–似たようなデータを持っている。
–組織独自のデータ管理ポリシーを維持したい
19
eDiamond:
分散した医療情報・X線画像
DBの統合
• 異なる組織などで別々に作られたデータを、
仮想的にひとつのデータに統合する(情報統合)
Uk-e-social science:
分散した社会科学データベースの統合環境
異組織のもつ異なるDBプロダクトの統合
LEAD:
全米規模での気象情報の分散DB統合
AstroGrid:
組織、地理的に
分散した望遠鏡画像
DBの統合。
20
データベース統合における課題
•分散データベースの実現
複数のデータベースを仮想的に統合する方法は?
Query
課題とその解決
• 問い合わせ最適化をどうやっているか。
Results
–スケジューリング
–並行実行
–データ転送量の削減など
OGSA-DQP
OGSA-DAI
OGSA-DAI
DBMS
DBMS
data
data
OGSA-DQPの例
言語は?
SQLを基礎
- OGSA-DQP
– IVQL・SkyQueryなど
21
単純な分散問い合わせ
•分散結合はコストが高い:性能と機能のトレードオフ:
–同じ問い合わせをブロードキャストして結果をマージする処理。
–サイト間の結合処理とかが発生しない応用に限定。
OGSA-DAI SqlBag
同一問い合わせの
並列実行
One
Data
Resource
Data Request
Execution
Service
MyDRER
Data Request
Execution
Resource
Two
結果のマージ
Client
Data Resource
Information
Service
Data
Resource
Data
Three
Data
Resource
Data
Session
Session
Session
MySession123
Session
Management
Service
Request
Management
Service
Data
Session
Session
Request
MyRequest123456
並列実行・セッション管理などを束ねる
22
同じデータベースでも異種のプロダクトはどう吸収するか?
GRelC Data Access Service:
Extreme Performance Managing Grid Databases
• 目的:効率・セキュア・透明なデータグリッドサービ
スを開発・デザイン
–リレーショナルかつ非リレーショナルデータベースを
アクセスするための関数を提供
• データソースに標準なアクセスを提供
(OGSA-DAIも同様だが、言語はプロダクト依存)
• 多様なDBMSに動的なバインディング
(PostgreSQL, MySQL, SQLite IBM/DB2,
Oracle9.i, など)
Grid Database
Access Service
(front end)
Other
Applications
Database Access Library (Grid-DAS back end)
PostgreSQL
driver
MySQL
driver
UnixODBC
driver
SQLite
driver
• gLiteグリッドミドルウエアに対応
PostgreSQL
MySQL
UnixODBC
SQLite
異種DB(XML.関係DBなど)の統合はどうするか?:
XML-enhanced OGSA-DQP & WebDB
•産総研の研究
db20.hpcc.jp
select XMLGen('<title>{$c.title}</title>'),
author_author.name from webdbResource_csb as c,
author_author where c.authors like '%paton%' and
author_author.name=c.authors;
OGSA-DAI
data service
23
SQLの
拡張
CLIENT
dqpogsadai-f0039qe1
p08cmp048.asc.hpcc.jp
Plan (logical)
project
XMLGen
Join
Author
Citeseer
Physical optimisation
Parallelisation
Table Scan
Evaluator
service
p08cmp049.asc.hpcc.jp
Evaluator
service
project
project
XMLGen
Hash loop join
XMLGen
Hash loop join
Exchange
Parallelised
Operators
Exchange
OGSA-DAI data
Service (WS-I)
author
(relational)
OGSA-DAI data
Service (WSRF)
citeseer
(WebDB)
24
応用やシステムプラットフォーム固有の問題はないか?
GIR(Grid information Retrieval)における分散問い合わせ=分散IR
地理的に分散した
サーチエンジンの統合
異種の検索エンジンの統合
DBと異なり、検索結果のランキングがある。
•AmberfishとLucene
•異なる検索ランキング手法に
基づく結果の併合手法
25
応用に依存した問題はあるか?OGC/OGF関連
プロジェクトから
• 地球観測データ応用など、OGC(Open Geospatial Consortium)系の標準や
技術との連携が必要なもの
• SEE-GEO: SEcurE access to GEOspatial services
–Geo-spacialツールのための分散・統合リソース管理
–Web Feature Service (WFS)とWeb Map Service (WMS)をOGSA-DAI
に統合
–セキュリティ:安全なアクセスを提供(データ応用はセキュリティが不可欠)
応用:二つのデータリソース
–国勢調査統計
GEOGrid
• あるリージョンに関する属性(例:パンひとかたまりのコスト)
• 地理データアクセスサービス(GDAS)
–領域データ
• 多角形としてエンコードされるユニークなリージョン
• Web feature service (WFS)
–どうやって属性をリージョンにリンクする?
–地理リンクサービス(GLS):結合処理を二つのデータリソースにまたがって実行
26
多分野(OGC)の規定する処理とどう連携するか?
OGC関連規格やインターフェイスをOGSA-DAIでラップ・連携
人口統計学の予測
GLS
Portal
t
ke
tic
ive ts
l
ce
Re resu
for
Send
parameterised
領域特有なデータセットをアクセス query
Census GDAS
DB
Request
attributes
効率的な転送方法
OGSA-DAI
getData
Cache
attributes
Run
algorithm
geoLink
Borders WFS
DB
Retrieve
annotated
image
getFeature Stream
polygons
Request
features
アルゴリズムに
フォーカス
Feature
Portrayal
Stream
relevant
annotated
polygons
Store
image on
server
Map
Server
既存サービスを利用
FPS
Call out
to existing
FP service
27
応用システムからの問題と知見(その2)
Today’s status of Data Management of Earth Science
–M.Petitdider(ISPL)
–degree Project (Dissemination and Exploitation of GRids in Earth sciencE)
Deegreeとは別
•
•
•
•
•
•
•
•
•
IISAS, Slovakia (Coordinator)
CNRS, France
KNMI, The Netherlands
UNINE, Switzerland
CRS4, Italy
SCAI, Germany
GCRAS, Russia
ESA-ESRIN, Italy
CGG, France
• Dutch Space, The
Netherlands
地球科学のいくつかのシナリオによる必要な機能分析
今ある技術のサーベイ
• OGC標準の準拠
• データ・ポリシーの重要性
• メタデータの重要性
28
Today’s status of Data Management of Earth
Science
–
M.Petitdider(ISPL)
• 知見
1. データベースサーバ:データ統合で必要。メタデータ管理にも。
OGSA-DAI: 挿入、認証で非常に遅い。
XMLファイルを直接扱うより速い。
Spitfire:
OGSA-DAIの先行システム。
こちらの方が機能は単純だが速い。
2. セキュリティ:セキュリティポリシーの遵守
データの暗号化:従来余り扱われていなかった(巨大なファイル、膨大なファイル数)
VOMS:VO&個人による認証に有利。
VO内のグループに対する十分なロールが定義できない。
細かいセキュリティコントロールがVOMSでは難しい。
実装のアプローチ・グリッドのアーキテクチャ的な位置づけは?
データサービスとグリッドミドルの関係
Web over Grid (Grid-enabling OWS)
グリッドの能力のあるOWSを構築する。
SE
Java Serialization
Computing Layer
(Java)
R
CE
D
SE
R
EGEE Grid Interface
S
CE
EGEE Grid Interface
CE
R
EGEE Grid Interface
Workload Manager
EGEE GRID
並列・分散処理のできる
WCSエンジン
EGEE Grid Interface
JDL
R
Result
Application Layer
(Java)
HTTP/SOAP
S
R
D
R
WCS Interface
WEB
Async. response
Request
Grid over Web (Gridifying OWS)
OWSをグリッドの1計算要素として提供する
OWSをWSDL化してグリッドサービスとして提供
MPIやDAGなどから利用
29
30
OGC標準とグリッドの分担の実装例
Other WCS
User Tier
Client
V+
V+
+ default WCS/WMS portal IP
OGC層
CSW Portal
ECHO
Catalog
LAITS WCS
Portal
V+
GCSF
LAITS WMS
Portal
V+
V+
V+
GESGCS
LAITS
GridCSW
V+
V+
NetCDF
Data
V
GVWCS/
Instantiator
Real data request
V
iGSM
Other
Data
Real data
request
V
GWES
ROS
GridWICS
V+
GridWCTS
Ames
GridWCS
グリッド基盤
GT4
V+
HDF-EOS
Data
LAITS
GridWCS
CSW,
WCS,
WMSなど
LLNL
GridWCS
RLS
MDS
Globus Toolkit 4.0/4.0.1 with GSI
Ames
DTS
データベース(特にOGSA-DAI)に基づく
グリッドのe-Science系プロジェクトとその知見(1)
•BRIDGE Project(U.of Glasgow)
–バイオ系のデータ統合:
–OGSA-DAIへの知見
•基本的に有益。
– いわゆる分散のフェデレーションができない。
– 7コのリモートDBの統合で45秒ぐらいかかる。
– DQPは利用せず。
•VOTES Project(U. of Glasgow)
–治験などの医学データベース統合
–OGSA-DAIへの知見
•VOが有益
•中央管理がない点は有益。
•異種のRDBが統合できる。
•いわゆる分散問い合わせがほしい(DQPではなく)
31
データベース(特にOGSA-DAI)に基づく
グリッドのe-Science系プロジェクトとその知見(2)
• nano-CMOS Project(U.of Glasgow)
–Sub 90nm のデバイス&回路シミュレーション環境
データ:ほとんどが小さなファイル、しかもASCIIテキスト。標準フィーマットなど使ってない。
–OGSA-DAIへの要求
• バージョニング
• メタデータ作成の支援
• 細かい権限管理
• メタデータ管理によるデータ管理、およびその一貫性の保持。
• 暗号化(転送および記憶の両方で)
• GEODE Project(U. of Stirling)
–産業医学・健康管理
–OGSA-DAIの利用
• DBの周辺処理をアクティビティとして実装
– メタデータ登録、管理やルール処理など。
– 典型的・マクロ的なDB処理を実装することで、アプリケーションの構築を容易にした。
– アクティビティの有効例。
32
Fly UP