Comments
Description
Transcript
講演資料pdf 981KB
1 OGFを中心とした、 e-Science 向け データグリッド関連活動の概要 小島 功 産業技術総合研究所 グリッド研究センター [email protected] 2 概要 • OGFにおけるデータ&eScienceの概要 –関連グループの活動紹介など • DAIS(Database Access and Integration Service)-WGにおける活動 –WS-DAI紹介 • OGSA-DAIミドルウェアの紹介 –基本モデルと特徴 • データベースを基礎としたe-Science応用の紹介 –地球科学関係を中心に紹介 •どういう課題があるのか? どういう解法が指向されているか? •必要な機能・フィードバックなど OGFにおけるデータ & eScience • Data Area Working Groups –グリッドにおける、「データ」に関わる「標準」規格群の策定 • データ転送はどうするか? • データベースはどうアクセスするか? • フォーマットは? • ファイルは? –などなど、 • Application Area Working Groups –データ・データベースに近い「応用」の「標準」を策定するグループがある。 • Grid Information Retrieval – 分散情報検索 • eScience Functions Research Groups –データベースやデータ統合が重要な「応用」の「研究」グループがある。 • 天文(Astronomy) • ライフサイエンス(Life Science) • デジタルアーカイブ(Preservation Environment) • など、 一部は後ほど発表 3 4 データエリアの俯瞰 応用 Info-D データベース アクセス (DAIS) データ表現& フォーマット (DFDL) OGSA Data Architecture 全体アーキテクチャ データ移動 (OGSA-DMI) GridFTP ファイル内 データIO (OGSA-ByteIO) ファイルシステム GFS ストレージ 5 各グループの簡単な紹介と現状 •全体アーキテクチャ –OGSA-Data Architecture Working Group •それぞれの規格が全体としてどういう関連・位置づけになっているか •アーキテクチャドキュメントをまとめた状況。 •上位・応用層 –Information Dissemination Working Group –イベントベースの情報処理(Pub/Sub)のモデル化と規格 •コアの部分の規格をまとめて参照実装を進めている。 •モデルの拡張を議論中(ブローカリングなど) •データベース –Database Access and Integration Service WG •関係データベース、XMLデータベースにたいするアクセス規格を定めた。 •参照実装とそれによるテストを待っている状況。 6 (続) • ファイル –Grid File System WG • 広域でグローバルなファイルシステムの構築。 • データ転送 –OGSA-Data Movement Interface WG –複数のデータ転送ミドルウェアを相互接続できるための規格 • RFT・EGEEなどミドル開発グループが合同で仕様を議論中。 • GSMとあわせてSNIAとの連携を模索。今回のOGF22でワークショップを開催 –GridFTP • GridFTPの規格化。活動としては終了に近い? –OGSA-ByteIO • ファイル内のデータIOの操作仕様の規定 • 互換性テストも終了して活動は一段落。 • データフォーマット –Data Format Decription Language • データフォーマットの形式をXMLで記述して相互交換を可能にする。 • 仕様の議論中 • ストレージ –Grid Storage Management • ストレージ管理・SNIAとの連携を模索。ワークショップを開催 DAIS-WG:データベースアクセスと統合 7 • グリッドにおけるデータベースアクセス –分散したDBをサービスベースで統合する。 –WS-DAI (Web Services Database Access and Integration Service) データベース実装に依 存しないアクセス機能 WS-DAI 仕様の特徴: データベースシステムに依存しない 抽象モデルと仕様を定める • WS-DAI Core Model この詳細化仕様として、 各データベースのアクセス仕様が存在する。 WS-DAIR • 関係データベース – WS-DAIR(Relational) • XMLデータベース 関係DB WS-DAIX XMLDB WS-DAI RDFS Files RDF-DB – WS-DAIX(XML) 検討中 実際には、これら各DB向けの アクセス法を使ってアクセスする。 規格策定済 8 WS-DAI:規格の特徴と現状 •(単純には)クライアント・サーバ型のSQLやXQueryの検 索を、Webサービスに基づいて行う規格 結果の間接配送(IndirectAccess)がある 検索結果データが多いときなど、 結果セットを別の データサービスとして提供する Consumer SQLExecuteFactory ( SQLExecuteFactoryRequest ( SQLProperties (……, etc) SQLRequest ( SQLExpression, SQLExecuteRequestParameters) ResponseFormat)) Database Data Service RelationalDescription ……, etc Relational Database SQLFactory SQLExecuteFactoryResponse ( EndPointReference ( SQLResponseAccess)) SQLResponse Data Service GetSQLRowSet ( GetSQLRowSetRequest ( RowSetNumber)) SQLResponseDescription NumberOfRowSets, etc SQLRowSet SQLResponseAccess GetSQLRowSetResponse ( RowSet)) 規格の現状 •仕様ドキュメントとしては完了 •相互接続テスト用のドキュメントも完成済 •参照実装の完成待ち 9 WS-DAI 最近(OGF22)の動向 • RDFデータベースについての規格の作成 産総研&EU –WS-DAI RDF(S) Querying • SPARQLでRDFデータベースを検索 –WS-DAI RDF(S) Ontology Access Semantic Grid • RDF(S)に基づくオントロジAPIをWS-DAIに基づいて提供 • 参照実装の進行 –WS-DAIR:OGSA-DAI(やっと着手!), AMGA(新)、GReIC (新) –WS-DAIX:OGSA-DAI(同上) & Ohio U(やや厳しい) • DAIRのIBM実装とDAIXのマンチェスタ実装は完成後に規格が動いたのでボツ • SAGA (Simple API for Grid Applications) (XMLメッセージではなく)Javaなどプログラミング言語からのグリッド機能の利用 のためのAPI (後述) –データベースアクセスのためのSAGA APIについて • 今回初めてセッションを持つ • まだ見えてこない=ユースケースを集めることに 10 OGSA-DAIとは リモートのDBをWebサービス経由でアクセスするミドルウェア (もちろんそれだけではないが) 英国 OMIIプロジェクトの開発。WS-DAIの参照実装を目標 –ファイアーウォールの内側のDBMSにSQLなどで直接アクセスできる Java プログラム Activity Framework AIST with OGSA-DAI アプリケーションサーバ SQL on HTTP/SOAP Globus OGSA-DAI ライブラリ Internet グリッドのセキュリティ基 盤に基づいた、安全なア クセス • • グリッドのセキュリティ基盤に 基づいた、DBアカウント管理。 OGSA-DAI SQL wJDBC データベース・サーバ 関係 データベース 関係データベースの場合 OGSA-DAIのプログラミング zリモート・遠隔地のデータベースシステムが、 Webサービス(データ要求実行サービス)として提供され、グ リッドのミドルウェア(Globus Toolkit)上のプログラム(client) から使える。 ¾一般的なデータベースプログラミング (プログラム内からSQLなどを投げる) zアクティビティという処理モデル(後述) ¾一連の処理をまとめて投げ、 処理結果をまとめてもらう。 単なるSQLのリモートアクセスとどう違うか? サービスベース:HTTPポートの開いているところでは、どこでもOK GSIをサポート:GSIとDB(例えばOracle)のアカウントのマッピング 結果のデータ変換をサポート:XSLTを支援、検索結果の加工など。 第3者転送・大量データ処理をサポート:FTP・GFTPなどにより、結果を 第3者サイトに転送できる 11 OGSA-DAIのWorkflowとは 12 •Workflow: 複数のActivityがつながって、一連のデータ処 理を記述するもの SQL Query Statement ResultSet data TupleTo CSV Deliver ToFTP XML data 1. SQLで検索をして、(SQL問い合わせのアクティビティ) 2. 結果をCSVに変換して、(データ変換のアクティビティ) 3. そのデータをリモートに転送しよう、 Workflow Workflow Query Transform Deliver WorkflowがWebサービス (要求実行サービス)に 対する一つの呼び出しに なっている。 13 データアクセス (データベースの検索) 関係DB SQLQuery SQLBag など XMLDB XQueryQuery XPathQuery など データ入力 (FTP,HTTPなどを使った、 他サイトからのデータ転送の受け入れ) ObtainFromFTP ObtainFromGFTP ObtainFromHTTP ObtainFromMultipleFTP など データ変換 データ出力 (データの加工・変換) ファイル ListDirectory ReadFromFile など データ変換 TuplesToWebRowSet TuplesToCSV など データ圧縮 GZIPCompression ZIPDeCompression など XML変換 XSLTransformation データ書き込み (データベースの更新) データ書き込み SQLUpdate 関係DB (データベースの更新) SQLBulkLoadTuple など XMLDB ファイル XMLUpdateStatement XMLBulkLoad など など (FTP,HTTPなどを使った、 他サイトへのデータ転送) DeliverToFTP DeliverToGFTP DeliverToHTTP DeliverToMultipleFTP DeliverToSMTP など 集合演算 TupleSimpleMerge TupleSplit など ブロック処理 ControlledRepeat Split、Tee など WriteToFile FileCopy など データ管理 (リソースの作成、システムの拡張など) CreateResourceGroup など OGSA-DAI3.0のアクティビティ群の構造 (計画中のものを含む) 14 何でこんな構造なのか? • 一つのサイトでやるデータ処理は、問い合わせだけではない。 – • 一般には、加工して、別のサイトに転送して、、、といった一連の処理が必要。 これら小さな処理の連携・接続をWebサービス同士の連携でやるのは非効率的 – – – 一つのサイトやコンピュータの中なら、もっと処理同士の連携は簡便かつ効率的にできるはず。 データ処理の単位はActivityとして定め、Activityが組合わさったワークフローをWebサービスの入力と する。 Activity間の連携は、パイプ・ストリームのような簡便かつ効果的な実装を使う。 1. 一つのデータサービス内でのワークフロー • Activityの連携でワークフローを記述、処理 – ひとつのサービス内でできることを高度化 2. 複数のサービスにおける連携 • • データベース処理を含む汎用ワークフロー • BPELやTavernaなど、汎用ワークフローエンジンと組み合わせよ。 • • 該当モジュールの提供 WEEPなど DAI向き 向きBPEL BPELエンジンの提供 エンジンの提供 WEEPなどDAI 分散データベース処理に基づくワークフロー • 分散問い合わせ処理のミドルウェア+αの提供 • • OGSA-DQP 問い合わせ処理を最適化する。 15 Activity Workflowの構築 1. Webサービスに投げるXM Lとして 2. Javaのクライアントプログラ ムで <workflow> アクティビティを順 番に記述 <pipeline> <activity SQLquery>……. <outputStream pipe=“pipe1”> </activity> <activity TupleToCSV>,,, <inputStream pipe=“pipe1”> </activity> </pipeline> </workflow> 2つのアクティビ ティの入出力を、 pipe1でつなぐ 基本: pipeline状に順番にIO をつなぐ(単純) Input Output Activity pipe input Activity 16 複雑なものもOK e-Science & データ・グリッド •グリッド応用における、データ指向計算とは –大量のデータを扱う分散計算 •CERN のセンサデータの分散配布・共有・レプリカ管理 •衛星データの配信など 後ほど発表 –地理的・組織的に分散した情報の統合計算 •IVO(仮想天文台)に基づくデータベース天文学 後ほど発表 •統合遺伝子データベース上のデータ解析・マイニングなど これらの応用やインフラを広くデータ・グリッドと呼ぶ。 17 データグリッド応用の種類 分散・大量データ処理(トップダウン的) 18 –CERN-LHC,衛星データ,センサーネットワークなど •ひとつの情報リソースからのデータが膨大 –単一のストレージに入らない –同一タイプのデータソース が膨大にある –分散した解析など 分散環境でデータを共有したい。 100MB/s -> 360GB/H ->8.64TB/Day->3PB/Year ~PBytes/sec Online System ~100 MBytes/sec CERN Computer Center > 20 TIPS Tier 0 +1 Experiment ~0.6 - 2.5 Gbits/sec FNAL Center + Air Freight Italy Center UK Center FranceCentre Tier 1 ~2.4 Gbits/sec Tier 2 Tier2 Center Tier2 Center Tier2 Center Tier2 Center Tier2 Center ~622 Mbits/sec Tier 3 世界中の数千の科学者 •200サイトにコピー Institute ~0.25TIPS Institute Institute Institute 100 - 1000 Mbits/sec •5000万個の論理ファイル •5億個の物理ファイル Physics data cache Tier 4 •単一の管理ポリシーのデータをトップダウン的に分散さ せる技術。 Workstations –分散(並列)ファイルシステムなど 情報統合(ボトムアップ的) → データベース技術の利用 • 分散した地域、組織などから データがボトムアップ的に発生する。 –意味が似ているのに表現が違う。 –似たようなデータを持っている。 –組織独自のデータ管理ポリシーを維持したい 19 eDiamond: 分散した医療情報・X線画像 DBの統合 • 異なる組織などで別々に作られたデータを、 仮想的にひとつのデータに統合する(情報統合) Uk-e-social science: 分散した社会科学データベースの統合環境 異組織のもつ異なるDBプロダクトの統合 LEAD: 全米規模での気象情報の分散DB統合 AstroGrid: 組織、地理的に 分散した望遠鏡画像 DBの統合。 20 データベース統合における課題 •分散データベースの実現 複数のデータベースを仮想的に統合する方法は? Query 課題とその解決 • 問い合わせ最適化をどうやっているか。 Results –スケジューリング –並行実行 –データ転送量の削減など OGSA-DQP OGSA-DAI OGSA-DAI DBMS DBMS data data OGSA-DQPの例 言語は? SQLを基礎 - OGSA-DQP – IVQL・SkyQueryなど 21 単純な分散問い合わせ •分散結合はコストが高い:性能と機能のトレードオフ: –同じ問い合わせをブロードキャストして結果をマージする処理。 –サイト間の結合処理とかが発生しない応用に限定。 OGSA-DAI SqlBag 同一問い合わせの 並列実行 One Data Resource Data Request Execution Service MyDRER Data Request Execution Resource Two 結果のマージ Client Data Resource Information Service Data Resource Data Three Data Resource Data Session Session Session MySession123 Session Management Service Request Management Service Data Session Session Request MyRequest123456 並列実行・セッション管理などを束ねる 22 同じデータベースでも異種のプロダクトはどう吸収するか? GRelC Data Access Service: Extreme Performance Managing Grid Databases • 目的:効率・セキュア・透明なデータグリッドサービ スを開発・デザイン –リレーショナルかつ非リレーショナルデータベースを アクセスするための関数を提供 • データソースに標準なアクセスを提供 (OGSA-DAIも同様だが、言語はプロダクト依存) • 多様なDBMSに動的なバインディング (PostgreSQL, MySQL, SQLite IBM/DB2, Oracle9.i, など) Grid Database Access Service (front end) Other Applications Database Access Library (Grid-DAS back end) PostgreSQL driver MySQL driver UnixODBC driver SQLite driver • gLiteグリッドミドルウエアに対応 PostgreSQL MySQL UnixODBC SQLite 異種DB(XML.関係DBなど)の統合はどうするか?: XML-enhanced OGSA-DQP & WebDB •産総研の研究 db20.hpcc.jp select XMLGen('<title>{$c.title}</title>'), author_author.name from webdbResource_csb as c, author_author where c.authors like '%paton%' and author_author.name=c.authors; OGSA-DAI data service 23 SQLの 拡張 CLIENT dqpogsadai-f0039qe1 p08cmp048.asc.hpcc.jp Plan (logical) project XMLGen Join Author Citeseer Physical optimisation Parallelisation Table Scan Evaluator service p08cmp049.asc.hpcc.jp Evaluator service project project XMLGen Hash loop join XMLGen Hash loop join Exchange Parallelised Operators Exchange OGSA-DAI data Service (WS-I) author (relational) OGSA-DAI data Service (WSRF) citeseer (WebDB) 24 応用やシステムプラットフォーム固有の問題はないか? GIR(Grid information Retrieval)における分散問い合わせ=分散IR 地理的に分散した サーチエンジンの統合 異種の検索エンジンの統合 DBと異なり、検索結果のランキングがある。 •AmberfishとLucene •異なる検索ランキング手法に 基づく結果の併合手法 25 応用に依存した問題はあるか?OGC/OGF関連 プロジェクトから • 地球観測データ応用など、OGC(Open Geospatial Consortium)系の標準や 技術との連携が必要なもの • SEE-GEO: SEcurE access to GEOspatial services –Geo-spacialツールのための分散・統合リソース管理 –Web Feature Service (WFS)とWeb Map Service (WMS)をOGSA-DAI に統合 –セキュリティ:安全なアクセスを提供(データ応用はセキュリティが不可欠) 応用:二つのデータリソース –国勢調査統計 GEOGrid • あるリージョンに関する属性(例:パンひとかたまりのコスト) • 地理データアクセスサービス(GDAS) –領域データ • 多角形としてエンコードされるユニークなリージョン • Web feature service (WFS) –どうやって属性をリージョンにリンクする? –地理リンクサービス(GLS):結合処理を二つのデータリソースにまたがって実行 26 多分野(OGC)の規定する処理とどう連携するか? OGC関連規格やインターフェイスをOGSA-DAIでラップ・連携 人口統計学の予測 GLS Portal t ke tic ive ts l ce Re resu for Send parameterised 領域特有なデータセットをアクセス query Census GDAS DB Request attributes 効率的な転送方法 OGSA-DAI getData Cache attributes Run algorithm geoLink Borders WFS DB Retrieve annotated image getFeature Stream polygons Request features アルゴリズムに フォーカス Feature Portrayal Stream relevant annotated polygons Store image on server Map Server 既存サービスを利用 FPS Call out to existing FP service 27 応用システムからの問題と知見(その2) Today’s status of Data Management of Earth Science –M.Petitdider(ISPL) –degree Project (Dissemination and Exploitation of GRids in Earth sciencE) Deegreeとは別 • • • • • • • • • IISAS, Slovakia (Coordinator) CNRS, France KNMI, The Netherlands UNINE, Switzerland CRS4, Italy SCAI, Germany GCRAS, Russia ESA-ESRIN, Italy CGG, France • Dutch Space, The Netherlands 地球科学のいくつかのシナリオによる必要な機能分析 今ある技術のサーベイ • OGC標準の準拠 • データ・ポリシーの重要性 • メタデータの重要性 28 Today’s status of Data Management of Earth Science – M.Petitdider(ISPL) • 知見 1. データベースサーバ:データ統合で必要。メタデータ管理にも。 OGSA-DAI: 挿入、認証で非常に遅い。 XMLファイルを直接扱うより速い。 Spitfire: OGSA-DAIの先行システム。 こちらの方が機能は単純だが速い。 2. セキュリティ:セキュリティポリシーの遵守 データの暗号化:従来余り扱われていなかった(巨大なファイル、膨大なファイル数) VOMS:VO&個人による認証に有利。 VO内のグループに対する十分なロールが定義できない。 細かいセキュリティコントロールがVOMSでは難しい。 実装のアプローチ・グリッドのアーキテクチャ的な位置づけは? データサービスとグリッドミドルの関係 Web over Grid (Grid-enabling OWS) グリッドの能力のあるOWSを構築する。 SE Java Serialization Computing Layer (Java) R CE D SE R EGEE Grid Interface S CE EGEE Grid Interface CE R EGEE Grid Interface Workload Manager EGEE GRID 並列・分散処理のできる WCSエンジン EGEE Grid Interface JDL R Result Application Layer (Java) HTTP/SOAP S R D R WCS Interface WEB Async. response Request Grid over Web (Gridifying OWS) OWSをグリッドの1計算要素として提供する OWSをWSDL化してグリッドサービスとして提供 MPIやDAGなどから利用 29 30 OGC標準とグリッドの分担の実装例 Other WCS User Tier Client V+ V+ + default WCS/WMS portal IP OGC層 CSW Portal ECHO Catalog LAITS WCS Portal V+ GCSF LAITS WMS Portal V+ V+ V+ GESGCS LAITS GridCSW V+ V+ NetCDF Data V GVWCS/ Instantiator Real data request V iGSM Other Data Real data request V GWES ROS GridWICS V+ GridWCTS Ames GridWCS グリッド基盤 GT4 V+ HDF-EOS Data LAITS GridWCS CSW, WCS, WMSなど LLNL GridWCS RLS MDS Globus Toolkit 4.0/4.0.1 with GSI Ames DTS データベース(特にOGSA-DAI)に基づく グリッドのe-Science系プロジェクトとその知見(1) •BRIDGE Project(U.of Glasgow) –バイオ系のデータ統合: –OGSA-DAIへの知見 •基本的に有益。 – いわゆる分散のフェデレーションができない。 – 7コのリモートDBの統合で45秒ぐらいかかる。 – DQPは利用せず。 •VOTES Project(U. of Glasgow) –治験などの医学データベース統合 –OGSA-DAIへの知見 •VOが有益 •中央管理がない点は有益。 •異種のRDBが統合できる。 •いわゆる分散問い合わせがほしい(DQPではなく) 31 データベース(特にOGSA-DAI)に基づく グリッドのe-Science系プロジェクトとその知見(2) • nano-CMOS Project(U.of Glasgow) –Sub 90nm のデバイス&回路シミュレーション環境 データ:ほとんどが小さなファイル、しかもASCIIテキスト。標準フィーマットなど使ってない。 –OGSA-DAIへの要求 • バージョニング • メタデータ作成の支援 • 細かい権限管理 • メタデータ管理によるデータ管理、およびその一貫性の保持。 • 暗号化(転送および記憶の両方で) • GEODE Project(U. of Stirling) –産業医学・健康管理 –OGSA-DAIの利用 • DBの周辺処理をアクティビティとして実装 – メタデータ登録、管理やルール処理など。 – 典型的・マクロ的なDB処理を実装することで、アプリケーションの構築を容易にした。 – アクティビティの有効例。 32