Comments
Description
Transcript
某金融機関向け ITBCP対策におけるデータ同期方式
某金融機関向け ITBCP 対策におけるデータ同期方式 松本 健太郎* 森垣 努* 高篠 智晴* 細川 智洋* 山路 晃徳* IT BCP data synchronous method of a certain finance company 要 旨 東日本大震災以降,各企業にて事業継続/災害対策が急務 社も含めたシステムを対象としている。エンドユーザーへの となっている。三菱電機インフォメーションシステムズ㈱ 影響やアプリケーション改修による工数増をさけるため, (MDIS)の顧客である某金融機関においても,一部業務に対す BCP サイト(以下災対サイト)のサーバは,関東データセン る BCP(Business Continuity Planning)対策を実施しており, ター(以下本番サイト)のホスト名,IP アドレス等の固有値 首都圏直下型地震の災害による電源供給断等のインフラ途 をそのまま引き継ぐ構成とした。また,既存環境への変更を 絶,データセンター倒壊にて,基幹システムの復旧に1ヶ月 加えないように構築を行うこととなったが,多種多様なシス 以上を要する事態となった場合を想定し,基幹システムにつ テムが対象となっているため,各システム,サーバに合わせ いても 2 重化を行うこととなった。全体の推進,構築は,基 た RPO(Recovery Point Objective)の設定やデータ同期設計 幹系,情報系のインフラ全般にかかわっている MDIS が中心 が必要であった。そこで当案件では,IBM 社の SVC(IBM System となって実施する。 Storage(注 3) SAN Volume Controller)と VMWare(注 4)SRM(VMware 対象システムは基幹システムと基幹システムの稼働に必 要となる周辺システム計 10 システム(UNIX(注 1)系サーバ:約 vCenter(注 4) Site Recovery Manager(注 4))を利用した同期方 式を採用することで対応した。 (注 2) 15 台,Windows 系サーバ:約 150 台)で,グループ会 災対サイト 本番サイト ストレージ環境 ストレージ環境 データ同期 FC-IP 変換装置 FC-IP 変換装置 SVC 物理Windows サーバ群 VMWareにて仮想化された Windowsサーバ群 SVC データ同期回線 UNIX系サーバ群 物理Windows サーバ群 BCP発令時に 接続 VMWareにて仮想化された Windowsサーバ群 UNIX系サーバ群 ゲートウェイ環境 広域イーサ網 平常時の メンテナンスに使用 各支店/関連会社(既設回線) 基幹システムデータ同期方式 IBM 社製品の SVC の機能にて非同期でデータ連携を行う。災害発生時にはネットワークの切替えにてセンターの切替えとシステム復旧を行う。 平常時の災対サイトメンテナンスはゲートウェイ環境を経由して行うこととする。 (注 1)UNIX は,X/Open Company Limited の登録商標または商標である。 (注 2)Windows は,米国およびその他の国における Microsoft Corporation および/またはその関連会社の登録商標または商標である。 (注 3)System Storage は,IBM社の,米国およびその他の国における商標である。 (注 4)VMware,vCenter,Site Recovery Manager,vSphere は,VMware, Inc.の米国および各国での登録商標または商標である。 *三菱電機インフォメーションシステムズ(株) 1. ま え が RPO の定義について,システムを構成するサーバによって, き データの更新頻度が異なる点に着目して設計を行った。対象 東日本大震災以降,MDIS の顧客である某金融機関において も,首都圏直下型地震の災害による電源供給断等のインフラ サーバは,更新頻度・周期別に以下の 3 種類に分類した。 ① オンライン,夜間処理中にデータ更新が行われるもの 途絶,データセンター倒壊等を想定し,基幹システムの 2 重 ② 夜間処理中にのみデータ更新が行われるもの 化を行うこととなった。MDIS は,既存の基幹システム構築時, ③ 不定期にデータ更新が行われるもの SIer(System Integrator)としてインフラ全般の設計・構築 ①でオンライン中に被災した場合,1 時間前の状態に復旧 を担当し,また,当基幹システムの構築後から現在に至るま することとするが,①の夜間処理中または,②においては, で,客先のインフラ全般の運用・保守を委託されており,基 夜間処理にて更新されるデータ量が非常に多いため,夜間処 幹システムについての運用ノウハウが多く蓄積されている。 理中のデータ同期は行わず,夜間処理開始前,夜間処理完了 さらに,基幹系・情報系のシステムの運用・保守に加え,端 後に RPO を設定した。③は主に管理系のシステムで不定期に 末管理,ヘルプデスクまで広く顧客の業務に携わっているこ 手動での更新が発生するものであるため,更新時に手動での とから,当案件においては,同じく SIer として,他ベンダ データ反映を行う運用を検討したが,手順漏れによりデータ ーをも取り纏める立場で,全体の推進を行うこととなった。 反映が行えない場合のリスクを考慮し,1 日 1 回データ同期 本システムの利用環境に関しては,既に客先で一部システ を行い,RPO を 1 日前と設定した。 ムの災対サイトとして利用している西日本のデータセンタ ーを使用することとなっており,このような背景の中,当プ ロジェクト推進にあたり,最も苦労したポイントは以下 4 点 である。 2.1.2 被災時間帯別の RPO について オンライン中に被災した場合は 1 時間前の状態へ復旧する こととなっていたが,夜間処理時間帯に切替えが行われた場 ① 多種多様なシステムに合わせた RPO の設定 合は,災対サイトでの復旧後,夜間処理をはじめからやり直 ② 既存環境への変更を抑えた構築方針の策定 す運用としたため,夜間処理前の状態に復旧することとした。 ③ データ更新量と必要回線速度の見極め また,オンライン開始時点で被災した場合は,夜間処理にて ④ 基盤に合わせた統一的なデータ同期方式の設計 更新された状態まで復旧することを要件とした(図1)。 本稿では,これらの課題を踏まえた IT インフラ BCP 対策シ ステムの構築について述べる。 2. 要件定義 2.1 RPO・RTO について ITBCP の構築においては,目標とする復旧地点である RPO の設定と復旧にかかる時間の目標値である RTO(Recovery Time Objective) の設定が最も重要な部分であり,実現性を 評価しながら慎重に設計を進めていく必要がある。RTO につ いては客先の業務要件を考慮したうえで,対象システムすべ てに対して共通で 5 時間と設定した。一方,RPO については, 図1.RPO について 当案件の対象が基幹系システムとその他周辺システムで, BCP の対象が複数システムであることを考慮して設定を行う 必要があったため,業務時間帯によって異なる値を設定する こととした。例えば,オンライン中は1時間前の状態に復旧 させるが,夜間のオンライン時間外は,対象サーバのデータ 更新頻度等によって要件が異なる RPO 値を設定した。なぜな ら,夜間処理におけるデータ更新量が非常に多く,オンライ ンと同じ RPO を設定した場合,必要なデータを時間内に反映 できなくなってしまうおそれがあるためである。 以降,具体的に実施した“多種多様なシステムに合わせた RPO の設定”について述べる。 2.2 既存環境への変更を抑えた災対サイト構築方針 業務アプリケーションについては,BCP 対象となりうる範 疇が広く,また複数他社のベンダーにて構築・管理されてい る。 これにより,本番環境への変更を加えた場合,エンドユー ザーへの影響を極小化する意味でも, 「既存システムへの 変更は行わない」という方針は客先からの重要な要求であっ た。そのため,災対サイトに構築するサーバのホスト名,IP アドレス等の固有値を変更した場合の,アプリケーションへ の影響範囲を見極めることが重要であったが,そもそも IP アドレスを変更してしまうことで,エンドユーザーの利用に 2.1.1 システム単位別の RPO について も影響が出てしまう恐れがあったため,災対サイトに構築す るシステムは,ホスト名,IP アドレス共に変更せず,本番サ イトのサーバと全く同じ構成のサーバを構築することとし り,以下 2 つの要件を満足し,かつ統一的な同期方式を採用 た。その際,同一ネットワーク上で IP アドレスが重複する する必要があった。 ことにより問題が発生しないように,平常運用時は災対サイ ・システム,サーバ毎に異なる RPO を満たす トに設置するルーターのネットワークケーブルを抜線して ・原則,既存環境への変更を加えない おき,BCP 発動時に接続する運用とした。災対サイトでの訓 そこで,各サーバが利用しているストレージの機能によるデ 練,平常時のメンテナンスを考慮し,一部対処済み BCP にて ータ同期方式と IBM 社の SVC(IBM 構築された環境のネットワークを流用し,ゲートウェイ環境 Volume Controller)を利用したデータ同期方式についての検 を構築することとした(図2)。 討を行ったが,使用しているストレージに左右されないとい うメリットを考慮し,SVC を利用したデータ同期方式を採用 NW監視用 回線 データ連携用 LAN L3SW データ連携用 回線 データ連携用 LAN GateWay環境 基幹系システム(災対環境) バックボーンSW バックボーンSW ルータ ルータ ルータ た。 災対環境用 ネットワーク 基幹システム(災対環境) メンテナンスのため バックボーンSW バックボーンSW ルータ ルータ 切替え時の手順によりデータの最新化が行えるよう対応し L3SW GateWay環境用 ネットワーク 基幹系システム した。なお,SVC の管理下にないサーバについては,運用, 災対サイト センター間データ連携用 ネットワーク 本番サイト ルータ System Storage SAN ルータ ルータ L2SW ルータ ルータ ルータ 同一IPのため 同一IPのため 平常時未接続 平常時未接続 メイン系 広域イーサ網 バックアップ系 広域イーサ網 ルータ SVC を利用したデータ同期の実装にあたり,対象サーバを 以下の 3 つに分け,サーバ毎に災対サイトへ反映が必要なデ ータを洗い出し,それらの反映方法について検討を行った。 ① UNIX 系サーバ ② VMWare にて仮想化されている Windows 系サーバ ③ Windows 系サーバ ルータ 拠点 図 2.災対サイト構築方式 以降,上記グループごとに行った同期対象データの洗い出し と同期方式について紹介する。 2.3 データ更新量とデータ同期用回線について 当案件にて構築するシステムはデータ更新量が非常に多 く,データ同期を行うにあたり,回線帯域不足が懸念された。 そこで RPO を満足する仕組みを構築するため,データ同期の 3.2 UNIX 基盤におけるデータ同期方式 災対サイトの UNIX 系システムにおける同期対象データの 洗い出し,データ同期方式の検討内容を述べる。 シミュレーションを行った。対象は,更新量の多い UNIX 系 当案件の対象となっている UNIX 系サーバはローカルディ システムとし,オンライン中に更新されたデータを規定時間 スクと SVC 管理下のストレージにて構成されている。SVC 管 内に送信完了できるかについて,以下によりシミュレーショ 理下のストレージに保存されているデータは,SVC の機能に ンを実施した(表1)。 より災対サイト側への反映が行えるため,それ以外のローカ ① 各サーバのオンライン時間帯の最大更新量の調査 ルディスクに保存されているデータについてのみ,同期要否 ② 1時間あたりに伝送可能なデータ量の算出 と同期方法の検討を行った。 上記の結果から,1 Gbps のデータ同期用回線の 6 割を割 り当てれば効率的に同期を行えることが確認できた。 表1.サーバ毎のデータ更新量の必要回線帯域 ローカルディスクは主にシステム領域とアプリケーショ ンのインストールディレクトリとして利用されており,各デ ータの更新頻度は低いものがほとんどであった。また UNIX 系サーバは切替え作業時間短縮のため,通常時から起動して おく方針としていた。そこで,UNIX 系サーバのローカルディ スクに保存されているデータについては,ゲートウェイ環境 経由で災対サイトの対象サーバにアクセスし,手動にて更新 を反映する運用とした。 UNIX 系システムにおけるデータ同期方式は,データ書き込 みの確実性からリモートコピー方式の中でも MetroMirror が 最有力候補であった。しかし,その仕組みから,遠隔地への 同期を行った場合に性能劣化が懸念され,本番環境の業務へ 影響が出る恐れがあること,また,複数のサーバの同期を同 一タイミングで行うことができないといったデメリットが 3. ITBCP 同期設計 3.1 ストレージ構成とデータ同期方式 前述の通り,災対サイトとのデータ同期方式の検討にあた あった。そこで,本番サイトの対象ボリュームから FlashCopy(注 5)にて取得したボリュームについて MetroMirror を利用して同期を行うことで本番環境業務の性能劣化を回 避し,複数サーバの同期タイミングを揃えたデータ同期が行 象サーバの静止状態のデータを取得できる FCM(IBM Tivoli える仕組みを採用した。また,同期対象データが非常に大き (注 5) いため,MetroMirror 間の同期に FC/IP(Fibre Channel Over へ新規導入した。FCM を用いたバックアップを災対サイト IP)変換装置を採用し,同期データの圧縮と合わせて伝送速 へ送信しておき,万が一,そのバックアップからリストア 度の向上を図った(図3)。 する運用とした。(図4) 本番サイト Storage FlashCopy Manager for VMware)を本番サイト 4. む 災対サイト す び 災対サイトを構築する場合, 「顧客の業務継続性維持」, 「最低限,保持すべきリソースは何か」という視点から顧 SVC SVC 客の業務運用を考慮した上でシステム要件を決定していく Metro Mirror プロセスが必要となる。また,システム的にはできるだけ ストレージ ストレージ 既存環境に変更を加えず,さらに既存システムへの影響を 本番兼 訓練用 DISK 整った断面を取得 本番サーバ FlashCopy 利用領域 転送用 DISK FlashCopy 受信用 DISK Metro Mirror 災対用 DISK 同期を止めずに 訓練の実施が可能 最小限に留めるように設計・構築を行うことが重要となる。 本事例では以下を紹介した。 ・既存システムへの影響を最低限に抑えた災対サイト 構築方針の検討 ・既存システムに適したデータ同期方式の検討 図 3.UNIX 基盤のデータ同期方式 ・データ転送シミュレーション データ同期方式の検討では,原則既存環境を変更できない 3.3 Windows 基盤におけるデータ同期方式 という制約があったが,基幹システムが利用している SVC を 当案件で構築する Windows 系サーバには,VMWare にて仮想 化されている Windows 系サーバ,物理 Windows 系サーバの 2 種類があった。その中で災対サイトへデータの反映が必要な ものは,VMWare にて仮想化されている Windows 系サーバであ り,かつ SVC 管理下のストレージにデータが保存されている もののみであった。統一的な復旧方式を採用し復旧手順を簡 易化するため,VMWareSRM による復旧方式を採用した。SVC の機能によるデータ同期方式を採用し,VMWare SRM を利用す る場合は,Global Mirror with ChangeVolume というデータ 同期方式で同期環境を構成する必要があった。 本番サイト vCenter Server VM VM 災対サイト Site Recovery Manager VM VM VM VM VM VM ストレージ 本番サイト FCMによる イメージの取得 VM FlashCopy (SNAPSHOT) 更新差分 更新差分 リカバリー用データの同期 Metro Mirror 低減も実現することができた。 災対サイトは,今後さらに一般化し,より低コスト,短期 間で構築できるようにするためのノウハウの蓄積,システム 構築プロセスの汎用化が求められるため,今回検討した内容 がおおいに役に立つと考える。また,本プロジェクトのスコ ープは災対サイトの構築であったが,バックアップや準本番 環境としての利用等,リソースの有効利用という活用方法も である。今回運用負荷,運用コストの低減も加味した構築を SVC 行ったが,運用保守を任されているベンダーとして,システ ストレージ ム構築だけにとどまらず,運用改善,コストの低減を行って 訓練用領域 業務用領域 いく。 FlashCopy Global Mirror with Change Volume FlashCopy (SNAPSHOT) 本番サイトと同じものとすることで運用負荷,運用コストの く。BCP 策定時に最も重要視されているコストは運用コスト VM 災対サイト VMWareによる復旧用のデータ同期 本番サーバ 利用領域 VM Site Recovery Manager vSphere SVC させることができた。さらに災対サイトに構築するサーバを 考えられ,今後は,これらも踏まえた提案,構築を行ってい vCenter Server vSphere 利用したデータ同期方式を採用することで,客先要件を満足 今回はデータセンターの被災というリスクに対する対策 問題発生時、 リストア実施 を行ったが,セキュリティリスク等,世の中には他にも多く FlashCopy のリスクが存在する。今後も,運用・保守を通してさらなる 改善を行い,客先システムをより良いものにしていくととも 図 4.VMWare 基盤のデータ同期方式 しかし,Global Mirror with ChangeVolume によるデー に,被災以外のリスクを踏まえた BCP 対策ソリューションの 提供を行っていく所存である。 タ同期方式ではクラッシュ・コンシステンシーレベルの整 合性しか担保されておらず,アプリケーションの稼働を保 障することができなかった。そこで,VMWareSRM にて復旧 できなかった場合の対策として,Global Mirror with ChangeVolume の同期周期と合わせて,オンライン中でも対 (注 5) FlashCopy,Tivoli は, IBM社の,米国およびその他の国 における商標である。