EMC Data Domain Data Invulnerability Architecture: Enhancing
by user
Comments
Transcript
EMC Data Domain Data Invulnerability Architecture: Enhancing
EMC Data Domain Data Invulnerability Architecture:データの整合性と 復元性を向上 詳細レビュー US ホワイトペーパー翻訳版 要約 ストレージ・システムにおけるデータ保護の保証は、単純なメカニズムでは実現できません。 いくつものメカニズムが連携し確実な順序で行うことによりどのような障害においても復旧 を保証することができます。従来の汎用的なストレージ・システムとは異なり、EMC® Data Domain®システムは、データ保護という明確な目的を持って設計されています。このホワイ ト・ペーパーでは、Data Domain Data Invulnerability Architecture(データ非脆弱性アーキテク チャ)の 4 つの主要な要素について説明します。その 4 つの要素を組み合わせることで、業 界最高レベルのデータの整合性と復元性を実現できます。 エンド・ツー・エンドの検証 障害回避および障害時におけるデータの完全な格納 継続的な障害検出と修復 ファイル・システム復旧 2010 年 9 月 Copyright © 2010 EMC Corporation. 不許複製 EMC Corporation は、この資料に記載される情報が、発行日時点で正確であるとみなしていま す。この情報は予告なく変更されることがあります。 この資料に記載される情報は、「現状有姿」の条件で提供されています。EMC Corporation は、 この資料に記載される情報に関する、どのような内容についても表明保証条項を設けず、特 に、商品性や特定の目的に対する適応性に対する黙示の保証はいたしません。 この資料に記載される、いかなる EMC ソフトウェアの使用、複製、頒布も、当該ソフト ウェア・ライセンスが必要です。 最新の EMC 製品名については、http://japan.emc.com/ 上の「EMC Corporation Trademarks」を 参照してください。 記載されている他のすべての商標は、各社の所有物です。 パーツ番号 h7219.1-J 目次 エグゼクティブ・サマリー ................................................................................... 3 ストレージ・システムのデータ整合性 ..................................................................................... 3 概要 ....................................................................................................................... 3 対象読者 .................................................................................................................................. 3 DDOS の完全復元性アーキテクチャ ..................................................................... 3 エンド・ツー・エンドの検証................................................................................................... 4 障害回避及び障害時におけるデータの完全な格納 ................................................................... 4 新規データは既存データを上書きしない .............................................................................. 5 簡素化されたデータ構造 ...................................................................................................... 5 高速で安全な再起動のための NVRAM.................................................................................. 5 部分書き込みを行わない ...................................................................................................... 5 継続的な障害検出と修復.......................................................................................................... 6 RAID 6:2 重のディスク障害への対応とリード・エラーからの復旧 .................................... 6 ジョブ実行中の障害検知と復旧 ............................................................................................ 7 スクラブによる既存データの保証 ........................................................................................ 7 ファイル・システム復旧 ...................................................................................................... 7 メタデータ復旧を保証するデータ・フォーマット ................................................................ 7 高速な FSCK ......................................................................................................................... 8 まとめ ................................................................................................................... 8 EMC Data Domain Data Invulnerability Architecture:データの整合性と復元性を向上 詳細レビュー 2 エグゼクティブ・サマリー ストレージ・システムのデータ整合性 ストレージの機能に特化したシステムは、より高い付加価値を提供してはいますが、障害が 発生しうる汎用的なハードウェアとソフトウェアで構成されています。それらの障害の中に はハード・ディスク障害のように即座に検知できるタイプのものもあります。しかし、その 他の多くは潜在的にシステムに内在するものやソフトウェアのバグのように定常時は見つか らないものが多く、知らぬ間にファイル・システム障害を起こし、読み込みの時に始めて気 づくというケースが尐なくありません。高機能ストレージ・システムでは、これらの障害に 直面した場合でもデータ一貫性を保証するために様々な整合性チェックや性能、可用性の向 上策を盛り込んでいますが、データの完全復元性までを提供するには至っていません。その 結果、バックアップがとられることを想定し、データの復元性よりも性能を重視した設計と なっています。たとえば、データが正しく書き込めたかどうかを検証するために、書き込み 直後に再読み込みするようなプライマリ・ストレージは広く使われてはおらず、もし実際に そのように実装した場合にはパフォーマンス面で妥協しなくてはなりません。また、この最 初の書き込みが確実になされていなければ、データの完全な復元性を保証することはできま せん。ディスクバックアップの世界においては、データの完全復元性は性能や可用性よりも 優先度が高い必要があります。データ保全にフォーカスしなければ、バックアップ・データ にリスクが伴います。つまりそれは、プライマリ・データが失われた時にそのリカバリーに おいてリスクが伴うことを意味します。ディスク・バックアップ・ストレージ・システムの 多くは、安価なディスクを搭載した単純なプライマリ・ストレージ・システムです。それら は、これまでのプライマリ・ストレージでの設計思想を引き継いでいます。しかしながら、 バックアップ用ストレージと命名するからにはデータの完全復元性に注力した設計でなけれ ばなりません。 概要 このホワイト・ペーパーでは、EMC® Data Domain® Data Invulnerability Architecture(データ非 脆弱性アーキテクチャ)の 4 つの主要な要素について説明します。その 4 つの要素を組み合 わせることで、業界最高レベルのデータの整合性と復元性を実現できます。 対象読者 このホワイト・ペーパーは、Data Domain Data Invulnerability Architecture の詳細に興味を持つ EMC のお客様、テクニカル・コンサルタント、パートナー、EMC とパートナーのプロ フェッショナル・サービス・コミュニティのメンバーを対象としています。 DDOS の完全復元性アーキテクチャ Data Domain 重複除外ストレージ・システムは、設計思想が従来のストレージ・システムとは 根本的に異なり、新しい前提を導入しています。「最も重要な目標が、データの整合性と復 旧性であったらどうなるか。テープレスの IT 部門を想像した場合、極めて復旧性が高く、保 護されたディスク・ストレージを思い浮かべるのではないか。」という考え方です。データ ドメインは、万が一の事態における「最終手段としてのストレージ」を提供するために根本 から設計を見直し、データドメイン製品専用 OS を開発しました。Data Domain Operating System(DDOS)はデータの完全復元性を目的として設計されています。以下の 4 つの主要 領域に注力しています。 エンド・ツー・エンドの検証 障害回避及び障害時におけるデータの完全な格納 継続的な障害検出と修復 EMC Data Domain Data Invulnerability Architecture:データの整合性と復元性を向上 詳細レビュー 3 ファイル・システム復旧 このような設計思想において開発された DDOS ですが、「DDOS はデータを受け取った後で しかその完全性を保証できない」という重要な点は見落とさないで下さい。DDOS はシステ ム単位でのエンド・ツー・エンド・テストを行っていますが、ネットワーク上のすべてのや り取りでデータ保護のための処置が完全に行われているかについては関知していません。ま た、バックアップを行っているときのネットワーク障害や、既に知らぬ間に 1 次ストレージ 上で論理データ障害が発生していた場合のバックアップに関しては、 DDOS によっても復旧 は不可能です。アプリケーションレベルのデータ復旧テストは慎重に、また定期的に実行す ることを強く推奨します。 エンド・ツー・エンドの検証 DD製品はすべてのコンポーネントにおいてエラーを通知する設計になっていますので、デー タ保護を保証するエンド・ツー・エンド・テストはとてもシンプルです。エンド・ツー・エ ンド・ベリフィケーションとは、データ書き込み後に読み込みを行い意図したデータと比較 することで確実に書き込みが行われたかどうかを確かめると同時に、ファイル・システムか ら確実に読み取れることも検証します。DDOSはバックアップ・ソフトウェアから書き込み 要求を受け取ると、すべてのデータのチェックサムを作成します。データの冗長性分析を 行った後、新しいデータ・セグメントとすべてのチェックサムを保存します。ストレージに 対するバックアップl/Oがすべて終了し、データの書き込みが完了するとDDOSはデータドメ イン・ファイル・システム(DDFS)を通してすべてのデータがディスクから再度読み込める ことを確認し、書き込まれたデータのチェックサムと再読み込みしたチェックサムを比較し 一致することを検証します。この一連の作業でディスク上のデータが正確に読み込める事、 データを検索する時に使用されるファイル・システムのメタデータ構造が正確にしかも確実 に読み込めることを保証します。これによりデータは正確でしかもどのレベルからでも復旧 可能であると言えます。たとえば、ディスク・ドライブ上でのデータ反転のような問題がど の段階で発生しても検出すること が可能です。次のセクションでも 説明しますが、ほとんどのケース において自力復旧を行います。も し何かの理由で復旧ができない場 合は即座に管理者に通知を行い、 正しいデータである1次ストレー ジを基にバックアップの再実行を 促します。従来の性能重視のスト レージを利用してディスク・バッ クアップを行っているシステムで は、このような厳格な検証を行う ことはできません。ディスクへの バックアップにより要求されます。 Data Domain Global Compression による大幅なデータ量の削減を実 図1:エンド・ツー・エンド・ベリフィケーションはすべ 現 し た こ と で 検 証 対 象 と な る 実 てのユーザー・データとメタデータを検証します。 データ量をも削減し、この様な検 証を可能にしました。 障害回避及び障害時におけるデータの完全な格納 データ保護における次のステップは、検証された正確なデータが正確な場所にあることを確 認する点にあります。中でも最大のリスクは、新しいデータが書き込まれる時のファイル・ システム上のソフトウェア・エラーに起因するファイル・システムの安全性です。これは新 しいデータを書き込む時に何らかの障害により既存のデータに影響を与えるか、もしくは、 ファイル・システムにおけるメタデータの更新の際に発生します。DDFS はデータ保護を最 EMC Data Domain Data Invulnerability Architecture:データの整合性と復元性を向上 詳細レビュー 4 大のゴールとして開発されており、バックアップ時のリスクであるソフトウェアのバグ等に 対してもデータ保護を行う設計になっています。簡素化されたデザインがバグの入り込む余 地を最小限にし、考えられるいくつかの障害の特徴を封じ込めることによりソフトウェアの バグによる既存データへの影響を可能な限り無くしています。DDFS は最適化されたログ形 式のファイル・システムとして実装されており 4 つの利点があります。 新規データは既存データを上書きしない これまでのファイル・システムでは古いデータ・ブロックを使用する時にしばしばブロック を上書きしますが、DDFS は新規ブロック以外には書き込みを行いません。このため、ソフ トウェアのバグによる誤書き込みを最新のバックアップ・データのみに限定することができ ます。既存のデータは安全な状態に保たれます。 簡素化されたデータ構造 典型的なファイル・システムにおいては、高速ブロック・アップデートを実現するためにフ リー・ブロック・ビット・マップやリファレンス・カウントといった多くのデータ構造が用 いられます。一方で、バックアップにおけるアクセスパターンは新規データのシーケンシャ ルライトであるため、そのパターンをサポートすることにフォーカスすればデー夕構造はと てもシンプルに構成することができます。ログの先頭を常にウオッチしていれば、新規書き 込みで既存のデータに触れる必要はありません。このようなシンプルな設計のおかげで、ソ フトウェア・エラーによるデータ障害の可能性が激減しました。 高速で安全な再起動のための NVRAM ストレージ・システムにおいて、ディスクへの完全な書き込みが終了していないデータがメ モリ上の書き込みバッファに存在するタイミングがあります。高速で安全な再起動を実行す るために、DDFS はこの書き込みバッファの安全性を活用しています。DDFS は多くの内部ロ ジックとデータ構造の整合性のチェックを使用しています。もしこれらのチェックにより問 題が確認された場合には、ファイル・システムは自力で再起動を行います。このチェックと 再起動により、データ障害を起こす種類のバグが早期発見され、また修復が行われます。こ の再起動時には、NVRAM バッファ内部のデータをファイル・システムヘの適応前に検証し、 データ・ロスト無くファイル・システムの整合性が保たれていることを保証します。ただし、 大規模な電源障害が起きた場合は、古いデータは失われ、復旧に失敗するでしょう。このよ うな事態を避けるために DDFS は、ストライプ内部のうち一部分のブロックだけを更新する ようなことはしません。データの上書きを行わないという特徴に加えて、ストライプ自体も 常に全体を更新 1 することにより、あらゆるデータ障害の可能性を排除しています。これは、 書き込み後の検証においてストライプ自体の完全性をも検証することを意味します。新しい 書き込みにより既存のバックアップが危険にさらされることはありません。データドメイン 製品は 1 次ストレージではなくバックアップ用途のストレージとして「データ復旧のための 最終手段」となることを念頭に現状考えられるストレージのエラーを最小限に抑える設計が なされています。想定外の障害が発生したときにもその検知までの時間を最短にし、即座に 状態を管理者に通達する機能も備えています。 部分書き込みを行わない プライマリ・ストレージで使用されている RAID 1、3、4、5、6 では、書き込み時に電源障 害等によるディスク障害が起きると既存のデータを失くしてしまうことがありますそれは ディスクの再構成は RAID のストライプ内部の整合性に依存していることが要因です。ブ ロック単位で書き込みが行われる場合には、RAID のストライプが整合性の無い過渡的な状 態になることがあり、その際にストライプの再構成が失敗した場合には、その中にある既存 のデータは失われてしまいます。大規模ストレージ・システムではこのデータ障害を防ぐた めに NVRAM を用いたり、UPS を導入するなどして対応します。しかし、大規模な電源障 害が起きた場合は、復旧に失敗しデータを失うことになるでしょう。このような事態を避け EMC Data Domain Data Invulnerability Architecture:データの整合性と復元性を向上 詳細レビュー 5 るために DDFS は、ストライプ内部のうち一部分のブロックだけを更新するようなことはし ません。データの上書きを行わないという特徴に加えて、ストライプ自体も常に全体を更新 1 することにより、あらゆるデータ障害の可能性を排除しています。これは、書き込み後の 検証においてストライプ自体の完全性をも検証することを意味します。新しい書き込みによ り既存のバックアップが危険にさらされることはありません。データドメイン製品は 1 次ス トレージではなくバックアップ用途のストレージとして「データ復旧のための最終手段」と なることを念頭に現状考えられるストレージのエラーを最小限に抑える設計がなされていま す。想定外の障害が発生したときにもその検知までの時間を最短にし、即座に状態を管理者 に通達する機能も備えています。 図2:新しく書き込まれるデータ は、決して古いデータをリスクに さらしません。データ・コンテ ナ・ログは既存のデータを決して 上書きしませんし、更新も行いま せん。新しいデータは単に(赤で 示された)新しいコンテナに収容 されます。古いデータ・コンテナ は適切に保持され、ソフトウェア 的な障害やデータ書き込み中に発 生しうるハードウェア的な障害か らも守られています。 継続的な障害検出と修復 突然のハードウェア障害をソフトウェアで防ぐ手段はありません。ストレージ・システム においてはディスク・ドライブの障害が大半です。その他にもローカル障害や一時的な障 害があります。ディスク・ブロックが読み込めなくなったり、データ転送中の内部パスで のピットの反転による論理的エラーも考えられます。これらに対処するために DDOS では 障害検知と復旧をオンラインで行い、データ・リストアの運用に妨げのないように設計さ れています。 RAID 6:2 重のディスク障害への対応とリード・エラーからの復旧 RAID 6 は Data Domain 製品の永続的な障害検知と復旧を行うための中核的な役割を提供しま す。強力なデュアル・パリティ・アーキテクチャによりこれまでの RAID1(ミラーリング)、 3、4、5 で行っているシングル・パリティ での対応という手法に対して、圧倒的な 優位性を持っています。 図3:永続的な障害検知と復旧の機能が システム障害を未然に防ぎます。システ ムは定期的に RAID ストライプとデー タ・コンテナの整合性を検証し、RAID の冗長性を活用して障害点 を復旧しま す。毎読み込み時に、データの整合性が 確認され、エラーがオンラインで補正さ れます。 1 外部 RAID に依存するゲートウェイ製品は、部分ストライプ書き込みがないことを保証する ことができません。 EMC Data Domain Data Invulnerability Architecture:データの整合性と復元性を向上 詳細レビュー 6 RAID 6: ディスクの 2 重障害への対応 シンクル・ディスク障害の復旧時におけるリード・エラーの可能性の排除 運用者のミスによる障害の保護 NVRAM や UPS が無くても電源障害から RAID ストライプの一貫性を保護 書き込み後のデータの整合性とストライプの一貫性の検証 これまでの RAID 手法では 2 つのディスク障害が起きるとデータを失ってしまいます。 データ保護にフォーカスしたストレージ・システムでは、RAID6 で提供されるより高いレ ベルのデータ保護機能が絶対に必要です。 ジョブ実行中の障害検知と復旧 DDFS ではディスク上のデータ構造はスクラッピング・バッファと呼ばれるデータ・ブロッ クでフォーマットされていますので、リストアが正常に行われればすべてのデータは正確に 復元されることを保証します。その中にはデータ検証のための強力なチェックサムが含まれ ています。データをディスクから読み込む時は、DDFS は読み込んだデータが正しいかどう かをこのチェックサムを使用して常に確認します。その後、データの整合性を確認するため にチェックサムを使用します。もし何らかの障害が発見されると、RAID 6 はさらに高度な修 復機能を実行します。RAID のストライプは部分的には更新されませんので、その信頼性に 基づいてデータを復旧します。 スクラブによる既存データの保証 オンラインによる障害検知が正常に稼働していたとしても、数週間前もしくは数か月前に書 き込んだデータが読めないという障害がしばしば発生します。こういった障害からデータを 保護するために、DDFS では毎週、実行中のバックグラウンド・プロセスでデータの整合性 をアクティブに再検証しています。このスクラブ・プロセスによって事前にディスクのブ ロック障害を検知し復旧することができます。以上のような実行中の障害検知と復旧、デー タの定期的スクラビングにより、ほとんどのシステム障害やディスク・ドライブ障害を見分 けることができ、データ障害を防いでいるため、データやシステム運用におけるリスクは大 きく軽減されます。 ファイル・システム復旧 前述したデータ保護の機能があったとし ても、一般のストレージ・システムが何 らかの障害を起こす可能性は完全に否定 できません。しかしながら、完全復元性 を持つアーキテクチャでは、ファイル・ システムのメタデータ障害からのリカバ リ ーや ファイ ル・シ ステ ムチェ ック の ツール等により、迅速かつ安全にシステ ムを復旧させることが可能です。 メタデータ復旧を保証するデー タ・フォーマット 図4:データは自己記述形式で保存されま す。必要に応じて、ログをスキャンし、デ ータ領域に埋め込まれたメタデータを再構 DDFS におけるファイル・システムのメタデー 成することでファイル・システムを再生成 タは、高速アクセス を実現するた め のイン することができます。 デックス情報などを提供しますが、それもま たディスク上のデータ自身から復旧すること EMC Data Domain Data Invulnerability Architecture:データの整合性と復元性を向上 詳細レビュー 7 ができます。すべてのデータは、それを表すメタデータとともに格納されています。もしメ タデータに障害が発生した場合は、以下の 2 つの方法で復旧が可能です。1 つ目は、DDFS は 数時間ごとにメタデータのスナップショットを取っていますので、その時点までの信頼のあ るデータとして復旧する方法です。2 つ目は、DDFS はディスクのデータをスキャンしメタ データを復旧する方法です。これらの機能により、ファイル・システムのメタデータに障害 が発生するという最悪の場合でも、システムを復旧することができます。 高速な FSCK 従来のファイル・システムでは、オンラインでのファイル一貫性のチェックはできません。 Data Domain システムでは、新しく書き込まれたデータの整合性を確保するため、バックアッ プ終了後に初期検証による確認を行います。一般のファイル・システムでは障害復旧時の ファイル復旧時間が非常に長くなるため、ファイル・システムの整合性チェックが現実的に 可能な容量に関して制約があります。たとえば 80 TB 以上のデータを持つ従来のファイル・ システムに FSCK を流すのが現実的でしょうか。新しいデータが既存データの上書きを誤っ て行わないように空き領域を探し出す非常に長い処理のプロセスが必要になります。加えて、 フリー・ブロック・マップやリファレンス・カウントの再構成を行うために、すべてのリ ファレンスもチェックするという処理も通常は必要になります。この処理はシステム内の データ量が多いほど時間がかかります。これとは反対に DDFS では既存データの上書きは行 わないのでブロック・マップ、リファレンス・カウントの再構成は必要ありません。ログを 確認するだけで安全にシステムをオンラインヘ復旧させます。 まとめ ストレージ・システムにおけるデータ保護の保証は、単純なメカニズムでは実現できません。 いくつものメカニズムが連携し確実な順序で行うことによりどのような障害においても復旧 を保証することができます。 これまでのストレージ・システムを 1 次ストレージから 2 次ストレージヘ単に目的を変えて 利用するのとは違い、データドメイン製品はデータ保護製品という明確な目的を持って設計 されました。完全なデータ復旧アーキテクチャは現状のデータ保護の問題に対する最善の手 法といえます。高度な検証により新しいバックアップが正確に保存されます。DDFS の上書 きしないログ形式のアーキテクチャは、フル・ストライプ書き込みの維持とともに、新しい バックアップ中にソフトウェアのエラーが発生した場合であっても古いバックアップが常に 安全であることを保証します。同時にシンプルで堅牢な DDFS はソフトウエア障害の可能性 を最尐に抑えます。 以上のメカニズムにより、ストレージへのバックアップ実行中に発生しうる問題からデータ を保護しますが、ストレージ自体の障害からの復旧も考慮する必要があります。これを解決 するために、Data Invulnerability Architecture は独自に開発した RAID 6 を搭載しました。これ によりディスクの 2 重障害、ディスク障害後の RAID 再構成時の読み込み障害、そして読み 込み時のデータ修復を実現しました。そしてまたスクラブ・プロセスを実行することにより 永続的なデータ保証を行うとともに事前に障害復旧を行うことができます。 DDFS ファイル・システムは、データ保護の最終手段として絶対に必要となる復旧性の機能 を備えています。独自のデータ・フォーマットによりメタデータ構造におけるデータ障害が 起きたとしても復旧が可能です。また、高速のファイル・システム・チェックと復旧機能に より数十テラバイトのデータ容量に何らかの問題がありオフラインになったとしても、迅速 な復旧を実現しています。 EMC Data Domain Data Invulnerability Architecture:データの整合性と復元性を向上 詳細レビュー 8