EMC Celerraのデータ重複除外を使用した優れたストレージ効率の実現

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download EMC Celerraのデータ重複除外を使用した優れたストレージ効率の実現

Transcript

EMC Celerraのデータ重複除外を使用した優れたストレージ効率の実現

EMC Celerra のデータ重複除外を使用した
優れたストレージ効率の実現
高度なテクノロジー
US ホワイトペーパー翻訳版
要約
このホワイト・ペーパーでは、Celerra®のデータ重複除外について説明します。この EMC®
Celerra ネットワーク・ファイル・サーバの機能によって、NAS（ネットワーク接続型ストレー
ジ）データの保存効率が向上します。また、ここではストレージ効率を向上させる動機づけ、
Celerra のデータ重複除外の動作方法、その背後にある原理と技術アーキテクチャ、他の Celerra
機能との相互運用性についても概説します。
2009 年 1 月
Copyright © 2009 EMC Corporation.不許複製
このドキュメントに記載されている情報は、ドキュメントの出版日現在において正確です。この
情報は、予告なく変更されることがあります。
この資料に記載される情報は、「現状有姿」の条件で提供されています。EMC Corporation は、
この資料に記載される情報に関する、どのような内容についても表明保証条項を設けず、特に、
商品性や特定の目的に対する適応性に対する黙示の保証はいたしません。
この資料に記載される、いかなる EMC ソフトウェアの使用、複製、頒布も、当該ソフトウェ
ア・ライセンスが必要です。
最新の EMC 製品名については、EMC.com で EMC Corporation の商標を参照してください。
他のすべての名称ならびに製品についての商標は、それぞれの所有者の商標または登録商標です。
パーツ番号 h6065-J
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
1
目次
エグゼクティブ・サマリー................................................................................... 3
はじめに ............................................................................................................... 3
対象読者....................................................................................................................................... 4
用語 .............................................................................................................................................. 4
Celerra のデータ重複除外の概要 .......................................................................... 5
詳細情報....................................................................................................................................... 6
データ削減テクノロジーの選択 ............................................................................................... 6
容量の削減処理 ........................................................................................................................ 7
クライアントへの影響の最小化 ............................................................................................... 7
管理 .......................................................................................................................................... 9
容量が削減されたファイルへのクライアントの入出力......................................................... 10
アーキテクチャ .......................................................................................................................... 11
パフォーマンス .......................................................................................................................... 12
他の Celerra 機能との相互運用性 ............................................................................................... 13
ネットワークと Celerra NDMP PAX（tar と dump）............................................................... 13
Celerra NVB（NDMP ボリューム・バックアップ）............................................................... 13
ファイル・システムのポイント・イン・タイム・ビュー ..................................................... 13
レプリケーション................................................................................................................... 14
クォータ ................................................................................................................................. 14
Celerra FileMover のアーカイブ .............................................................................................. 14
Celerra の File-Level Retention 機能（ファイルの保存期間設定）........................................... 15
使用上の考慮事項 ...................................................................................................................... 15
Celerra のデータ重複除外カリキュレータ.......................................................... 16
結論..................................................................................................................... 16
関連資料 ............................................................................................................. 16
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
2
エグゼクティブ・サマリー
ストレージ使用率の急増に従い、ストレージ効率を向上することは今日の多くのデータ・センタ
ーにとって重要になっています。この目的を達成するために、多くの実用性に優れたソリューシ
ョンが提供されています。具体的には、データ移行、シン・プロビジョニング、コンテンツとク
ォータの管理、データ重複除外などです。ただし、実行するソリューションの選択は、本番環境
でストレージ効率を向上させるには、お客様がどのアプローチを適切または効率的と考えている
かということに基づいています。エンド・ユーザーの操作に影響を与えることなく、容量の節約
を達成することによって、ファイル・システム・レベルでデータ保存のコストを削減しようと意
図する場合や、ファイル・システム・レベルでストレージ環境内にこれらの容量の節約を拡げよ
うと意図する場合は、データ重複除外が適切なテクノロジーとして考えられます。
ファイル・サーバでデータ重複除外を行う主な目的は、ファイル・サーバがホストになっている
ファイル・システムに保存されたファイルから、冗長データを削除することによって、ファイ
ル・ストレージ効率を向上させることです。データ重複除外を特長とする製品は多くありますが、
いずれのタイプの重複除外も、その目的はユーザーへの影響を配慮しつつ、ストレージ容量のニ
ーズをインテリジェントに減らすことです。Celerra®のデータ重複除外は、EMC® Celerra Network
Server バージョン 5.6 メンテナンス・リリースでは、ファイル・レベルのシングル・インスタン
スとファイル・レベルの圧縮を 1 つにまとめた重複除外機能として導入されています。これによ
り、一般的な NAS（ネットワーク接続型ストレージ）ファイル・システム・データの場合では、
平均で 30～40 パーセントの容量が節約され、ストレージ効率の向上が実現されます。
Celerra では、ストレージ効率を最大化するための機能が数多く提供されています。たとえば、
NAS および Internet SCSI（iSCSI）向け Celerra 仮想（シン）プロビジョニングは、使用可能な容
量を超えてストレージ・リソースが割り当てられる可能性を減少します。さらに、他の競合製品
と比較して、データ・ストラクチャの管理に関連する固有のオーバーヘッドを大幅に減少します。
Celerra のデータ重複除外には、NAS ファイル・システムのデータ保存コストをさらに削減する
新しいアプローチが追加されています。これにより、ファイルへのアクセス頻度やファイル・サ
イズの点から、圧縮およびシングル・インスタンスを実行するのに最適と考えられるターゲッ
ト・ファイルが自動的に特定されます。Celerra のデータ重複除外は、ストレージのニーズをイン
テリジェントに削減することによって、ストレージ効率を向上するために設計されています。こ
の機能では、小さすぎるファイル、大きすぎるファイル、アクセスが非常に頻繁なファイルは処
理から除外されます。さらに Celerra のデータ重複除外は、空き容量が最小限の場合や、ファイ
ル・アクセスのサービス・レベルに悪影響を与える場合は、ファイルの圧縮を行いません。また、
エンド・ユーザーや管理者の操作に大きな影響を及ぼすことなく、ユーザー・ファイル・システ
ムから冗長データを削除することによって、ストレージ容量の不足を削減し、エンド・ユーザー
に対する従来のファイル・アクセス・サービス・レベルを維持しながら、優れたストレージ効率
を実現する階層型ストレージ・ソリューションの設計と展開を可能にします。
重複除外の目的は優れたストレージ効率の実現であり、ストレージの節約は、それを実現する手
段です。シングル・インスタンスと圧縮によって従来のストレージ環境の使用を最適化すること
で、重複除外はストレージ・コストの削減を実現するとともに、データ・センターの将来的なス
トレージ使用率の予測値を低下させることができます。重複除外はファイル・システム・レベル
で有効であり、アクセス・プロトコルに対して透過的です。
はじめに
このドキュメントでは、Celerra の重複除外を紹介するだけではなく、機能の製品上の設計にも注
目していただくことを目的としています。これにより、管理の容易さ、インテリジェントなスト
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
3
レージ効率、柔軟性といった点における実用的な価値がお客様に提供されます。ここでは、
Celerra のデータ重複除外の概念が明示されています。また、Celerra での重複除外の使用方法お
よび管理方法を示します。この機能は、シンプルながら高性能な追加機能として、Celerra 機能の
従来からの強力なポートフォリオに含められるように設計されています。管理者は従来からの
Celerra ストレージ環境で重複除外を展開できます。このような特徴を念頭に置きながら、本ドキ
ュメントでは重複除外と他の Celerra 機能間での相互運用性について説明します。
対象読者
このホワイト・ペーパーは、EMC Celerra テクノロジーに精通しているが Celerra のデータ重複除
外についての知識は持っていない EMC のフィールド関係者およびお客様が利用することを前提
としています。以下の「用語」セクションには、本ドキュメントで使用される主な用語が示され
ています。ただし、EMC Celerra の基本的な管理に関する一般的な用語は含まれていません。
用語
CIFS（Common Internet File System）：MicrosoftのSMB（Server Message Block）に基づくファイ
ル共有プロトコル。インターネットおよびイントラネットを介してファイル・システムを共有で
きます。
重複除外されたファイルまたは容量が削減されたファイル：関連データのシングル・インスタン
ス、圧縮、またはその両方が行われたファイル。
重複除外：冗長データの圧縮に使用される処理。ファイル・システムにおける容量の節約を可能
にします。Celerraのデータ重複除外では、ファイル・データがファイル・システムに2つ以上存
在する場合、各ファイルの一意のコピーが1つだけ保存されます。また、ストレージ効率をさら
に向上させるために、ファイル・データは圧縮されます。
dump：PAXのバックアップ形式。幅優先順と深さ優先順を組み合わせてファイル・ツリーを走
査します。
iSCSI（インターネットSCSI：TCP/IPネットワーク上でSCSIパケットを送信するプロトコル
NFS（Network File System）：リモート・ファイル・システム間で透過的なアクセスを実現する
分散ファイル・システム。NFSでは、すべてのネットワーク・システムで1つのディレクトリの
コピーを共有できます。
NVB（NDMP Volume Backup）：EMC独自のNDMPバックアップ・メカニズム。ファイル・レ
ベルではなく、ボリューム・レベルでデータ・ブロックをバックアップします。従来のファイ
ル・ベースのバックアップで使用する方法と比較して、NVBは効率的な方法でディスク・デー
タ・ブロックのセットを読み取ります。NVBは、EMC認定のベンダーによるバックアップ・ソ
フトウェアでのみ実行されます。NVBは、一般的にはVBBとして知られています。
PFS（production file system）：Celerra Network Serverの本番ファイル・システム。Symmetrix®ボ
リュームまたはCLARiX® LUN上に構築され、Celerra Network ServerのData Moverにマウントされ
ます。
再重複：ファイルにおけるCelerra重複除外の結果を元に戻す処理。圧縮されたファイルは解凍さ
れます。ファイル・データに複数のインスタンスがある場合、ファイル・インスタンス間でブロ
ックの共有が起こらないようにするために、ファイル・データのコピーが作成されます。この処
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
4
理によって、ファイル・システム内の空き容量が余分に消費されます。したがって、この処理を
完了するには元ファイルの追加コピーを保持するための十分な空き容量がファイル・システムに
必要です。
SavVol：SnapSure™によるチェックポイント・データの書き込み先となるCelerraの標準メタボリ
ューム。このボリュームはチェックポイントの基となる本番ファイル・システムよりも小さくす
ることができます。
シングル・インスタンス：複数のファイルに同一データが存在する場合、ファイル・システムで
はファイルのコピーが1つだけ保存され、複数のファイル間でこのコピーを共有します。1つのフ
ァイルでも異なるファイル名、異なるセキュリティ属性、異なるタイムスタンプを持つ複数のイ
ンスタンスが可能です。メタデータは重複除外の影響を受けません。
tar：PAXのバックアップ形式。深さ優先順にファイル・ツリーを走査します。
仮想プロビジョニング：ファイル・システムの自動拡張との組み合わせでのみ使用できる、
Celerraファイル・システムの構成可能な機能。このオプションを使用すると、現在必要としてい
るファイル・システム・リソースのみが割り当てられると同時に、長期的な予測に基づいてスト
レージが割り当てられます。ユーザー（NFSまたはCIFSのクライアントやアプリケーションを使
用している場合）にはファイル・システムの仮想最大サイズが表示されますが、物理的にはその
一部のみが割り当てられます。ファイル・システムの自動拡張と仮想プロビジョニングのオプシ
ョンを組み合わせることで、ファイル・システムを必要に応じて徐々に拡張できます。
Celerra のデータ重複除外の概要
データ重複除外の主な目的は、ファイル・システムに配置されているファイルから冗長データを
削除して、ストレージ効率を向上させることです。ファイル・システムに保存された冗長データ
を削減することによって、一定のコスト内で保存するデータ量を増加できます。データ重複除外
テクノロジーにはさまざまな種類があり、それらは固定ブロックの重複除外、可変ブロックの重
複除外、ファイル・レベルの重複除外、ファイルの圧縮など、他のデータ重複除外ソリューショ
ンに導入されています。Celerra のデータ重複除外は、ファイル・レベルの重複除外（ファイル・
レベルのシングル・インスタンスとしても知られている）とデータ圧縮テクノロジーを組み合わ
せたもので、ストレージ効率の向上が必要なリソースに最大限のメリットを提供して、さらにミ
ッション･クリティカルなファイルに対するクライアントの影響を最小限に抑えます。
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
5
詳細情報
データ削減テクノロジーの選択
データ削減と重複除外に分類されるテクノロジーには数多くのものがあります。表 1
データ削減テクノロジーの比較
は 4 つの主要なデータ削減テクノロジーと、通常のファイル・サーバまたはNASデータ・セット
にこれらを適用した場合に節約される容量の一覧です 1 。各テクノロジーを実行、展開、テスト
するために必要なリソースの推定値も表に示されています。
表1
データ削減テクノロジーの比較
テクノロジー
ファイル・レベルの重複除外
固定ブロックの重複除外
可変ブロックの重複除外
圧縮
•
•
•
•
通常の容量の節約
10%
20%
28%
40%～50%
リソース消費
低
高
高
中
ファイル・レベルの重複除外は、ファイル・レベルのシングル・インスタンスとしても知ら
れ、節約可能な容量の割合は相対的に低めです。実行にはそれほど多くの CPU とメモリ・リ
ソースを必要としません。
固定ブロックの重複除外は、より多くの容量の節約を可能にします。ただし、より多くの
CPU とメモリ・リソースも必要になります。つまり、データの各ブロックのハッシュを計算
するには、これに対応する処理能力を有する多くの CPU リソースが必要であり、また、特定
のハッシュが以前に存在したかどうかを判別するにはインデックスが使用され、このインデ
ックスの保持には多くのメモリ・リソースが必要とされます。
可変ブロックの重複除外は、固定ブロックの重複除外よりもわずかに多くの容量の節約を可
能にします。ただし、この違いは、ファイル・システム・データに使用する場合はそれほど
大きくありません。可変ブロックの重複除外が最も効果的なのは、ディスク・バックアップ
のバックアップ・データや VTL（仮想テープ・ライブラリ）環境など、繰り返しではあるが
ブロック・アライメントに誤りのあるデータを含むデータ・セットに使用する場合です。可
変ブロックの重複除外のリソース消費は、固定ブロックの重複除外に類似しています。つま
り、同程度のメモリ容量とわずかに高い処理能力が必要です。
通常、圧縮は重複除外とは別の機能と見られています。ただし、圧縮は変更が無限に可能で、
ビット・レベルかつイントラ指向の重複除外として説明できます。また、圧縮は、主にスト
レージ効率を向上させるためにデータの保存方法を変更する、もう一つの技法です。実際、
圧縮は通常の NAS データ向けとして列挙されたすべての技法の中でも、群を抜いて優れた
容量の節約を実現しており、リソース占有領域については相対的に低い占有率が示されてい
ます。圧縮は相対的に見れば CPU の負荷が高いですが、非常に少ないメモリで済みます。
1
各テクノロジーでは EMC の企業ネットワークにある共有ファイル・システムから取得された約 900 GB の
データ・セットを使用しました。データ・セットは企業ファイル・サーバをホストにするファイル・システ
ムで通常見られる、オフィス・ドキュメント、メディア・ファイル、ソース・コード、バイナリ、その他の
ファイル・タイプなどの各種ファイルで構成されました。EMC の内部ファイル・サーバのデータは、有用
性という点において十分に「標準的である」ということを前提にしました。
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
6
これら 4 つのデータ重複除外テクノロジーは相互排他的ではありません。したがって、同一のデ
ータ・セットにこれらのうちの 2 つまたは 3 つの技法を使用することは、大いに可能であり、場
合によっては効率的でもあります。
4 つすべての技法を同時に使用して達成される節約のうち、約 75 パーセントは圧縮のみの使用で
達成できます。このことは興味深い事実です。圧縮で要求されるリソースの少なさは、この比較
における勝者が明確であることを意味します。ただし、圧縮は他の技法と比較した場合、短所も
あります。それはデータの読み取り時や修正時に行う解凍に伴う、潜在的なパフォーマンスの
「ペナルティ」です。
この解凍の「ペナルティ」は、どちらの面にも作用する場合があります。圧縮ファイルの読み取
りは多くの場合、非圧縮ファイルの読み取りに比べてすばやく実行できます。ディスクから取得
する必要があるデータのサイズを削減することは、データの解凍に必要な追加の処理を相殺する
以上のメリットがあります。
Celerra のデータ重複除外はファイル・レベルの重複除外と圧縮のメリットを組み合わせ、ファイ
ル・システム・データに適用された場合、必要なリソースの容量の節約を最大限に実現します。
容量の削減処理
Celerra のデータ重複除外には、処理から外すデータを指定したり、データの古さに基づいて特定
のファイルを重複除外するかどうかを判別する、柔軟性の高いポリシー・エンジンが備えられて
います。ポリシーがファイル・システムで有効な場合、Celerra のデータ重複除外では、ファイ
ル・システムを定期的にスキャンしてポリシーの基準に合致するファイルを検索し、それらのフ
ァイルを圧縮します。圧縮されたファイル・データは、そのファイルが以前に存在したかどうか
を判別するためにハッシュされます。圧縮したファイルが以前に存在しなかった場合は、ファイ
ルはファイル・システムの隠し部にコピーされます。ファイル・システムのユーザー部にあるフ
ァイル・データが使用した領域は解放され、ファイルの内部メタデータはこのデータの既存コピ
ーを参照するために更新されます。ファイルに関連するデータが以前に存在した場合は、データ
が使用する領域は解放され、ファイルの内部メタデータは更新されます。Celerra は圧縮不能なフ
ァイルを検出し、元の形式でこれらのファイルを保存します。ただし、これらのファイルは依然
としてシングル・インスタンスによるメリットを得ることができます。
Celerra のデータ重複除外では、ファイル・レベルの重複除外に SHA-1（Secure Hash Algorithm）
を採用しています。SHA-1 は 264 ビット長未満のデータ・ストリームの取得と 160 ビットのハッ
シュの作成を可能にします。このハッシュは、元のデータ・ストリームに対し一意になるように
設計されています。異なるファイルが同一の値をハッシュする可能性は実質的には低いので、衝
突率は 269 ハッシュ動作後にのみレポートされます。圧縮とは異なり、Celerra のデータ重複除外
ではシングル・インスタンスを無効にできます。
クライアントへの影響の最小化
Celerra では、すべての重複除外処理はバックグラウンドでの非同期処理として実行されます。こ
の処理はファイル・システムへの書き込み後にファイル・データ上で行われるため、ファイル・
データのファイル・システムへの書き込み中にデータが処理されることはありません。これは、
本番データへのアクセスは遅延の影響を受けやすいので、クライアント・データ・パスの遅延を
回避するためです。
バックグラウンドですべての処理が実行されることに加え、ファイル・システムの「ホット」デ
ータの処理を回避するように Celerra の重複除外を構成できます。「ホット」データはクライア
ントによってアクティブに使用されているすべてのファイルです。「ホット」データの定義は、
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
7
クライアントによるファイルへのアクセスと修正が最近いつ行われたかによって決まることに注
意してください。アクティブなファイルを処理しないことによって、クライアントとユーザーが
業務の遂行に使用するデータに対しては、いずれのパフォーマンスのペナルティも実行されませ
ん。ファイル・システムのデータ・プロファイルの調査によると、通常、ファイル・システムの
データのうちアクティブな使用状態にあるのは非常に小さな割合です。つまり、Celerra のデータ
重複除外では、本番のワークロードに影響を与えることなく、ファイル・システムの大容量のデ
ータが処理されます。包括的なデータ管理戦略は、多くの場合、ストレージの代替的な階層に一
定の期間使用されるファイルのアーカイブ化を含みます。この戦略を利用すると、すでにアクテ
ィブには使用されていないが、ファイル・システムからアーカイブするほどではない程度にアク
ティブな状態なファイルを考慮したうえで、Celerra のデータ重複除外はストレージ効率を最大化
します。重複除外とアーカイブを組み合わせることで、ストレージ効率の大幅な向上を実現する
複数階層型ストレージ・ソリューションを作成できる可能性があります。
重複除外が有効なファイル・システムには、ファイルをスキャンするためにポリシー・エンジン
で使用される、定義済みのデフォルト・ポリシーがあります。ポリシーは、産業や分野の種類に
よって異なるさまざまな企業の設定において、一般的なファイルをアクティブに使用している状
態から使用しなくなるまでの期間を、調査および分析した結果に基づいています。ただし、デフ
ォルト・ポリシーは一意のワークフローや設定が原因で、すべての企業の情報ライフサイクルに
は適合しない可能性があります。Celerra のデータ重複除外が提供する柔軟性と詳細な管理によっ
て、管理者は「ホット」データを自らの判断で定義できます。ただし、ポリシーの変更には細心
の注意が強く求められます。重複除外ポリシーは Data Mover レベルで設定します。
管理者はポリシー・パラメータをいくつか設定して、使用中の環境にあるアクティブなファイル
と非アクティブなファイルの構成要素を判別できます。ポリシーを変更すると、Data Mover にあ
る重複除外が有効なすべてのファイル・システムで実行されるポリシーも変更されます。管理者
は手動でポリシーを定義して、最終アクセスの値と修正時間のしきい値を調整することができま
す。
ファイル・サイズは、ファイルが重複除外の対象となるかどうかの判断基準にもなります。管理
者は最小サイズと最大サイズのパラメータを定義することで、重複除外でファイルに適用する必
要があるファイル・サイズの範囲を定義できます。
また、管理者は Celerra にフィルタを定義して、ファイルの拡張に基づくファイルの処理を回避
できます。
Celerra のデータ重複除外には、管理の負荷を低減させる機能があります。Celerra の重複除外処
理の影響は、処理の自動化スケジュールと CPU の負荷に基づくセルフ・スロットルによって制
御されます。各 Data Mover のスキャンと重複除外は、一度に 1 つのファイル・システムに対し
てのみ実行されます。ファイルのスキャンと重複除外の実行中、Data Mover における CPU の負
荷がユーザー定義のしきい値を超える結果が Celerra で検出された場合、処理のアクティビティ
は最低レベルにまで抑えられます。この動作は、CPU の負荷が低アクティビティのしきい値未満
にまで減少することが検出されるまで続けられます。これは、重複除外と再重複処理によって
CPU サイクルが効果的に消費されることを意味します。こうしないと、CPU サイクルはアイド
ル状態になり、システム性能に対する効果もなくなるため、クライアントのアクティビティが満
たされなくなります。
Celerra のデータ重複除外では、古くなったファイルが対象とされ、アクティブと見なされる新し
いファイルは対象とされません。したがって、この機能では、1 日 1 回ていど処理されるように
マーキングされた各ファイル・システムをスキャンします。管理者は必要に応じてこの頻度を調
整したり、特定のファイル・システムを即座にスキャンするようにシステムに要求できます。
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
8
管理
Celerra のデータ重複除外は、Celerra Manager の GUI（グラフィカル・ユーザー・インタフェー
ス）または Control Station の CLI（コマンド・ライン・インタフェース）によって管理できます。
有効化
ファイル・システムでCelerraのデータ重複除外を有効化するには、新規ファイル・システムの作
成時にCelerra Managerの［New File System］ウィンドウのチェックボックスを選択します。また、
既存のファイル・システムの場合は、Celerra Managerの［File System Properties］ウィンドウに
ある［On］を選択できます（9ページの図 1
Celerra ManagerのCelerraのデータ重複除
外セクション
を参照）。
重複除外の状態
重複除外のためにファイル・システムを有効化した後、Celerraのデータ重複除外はこれを定期的
にスキャンし重複除外をするファイルをさらに検索します。Control Station CLIによって各ファイ
ル・システムの重複除外プロセスの状態を問い合わせできます。また、Celerra Managerの［File
System Properties］ウィンドウでこの状態のデータを表示できます。（9ページの図 1
Celerra ManagerのCelerraのデータ重複除外セクション
を参照）。
図1
Celerra Manager の Celerra のデータ重複除外セクション
ファイル・システムにおける Celerra のデータ重複除外のデフォルトの設定は「Off」です。
「Off」の場合、ファイル・システムには重複除外されたファイルはなく、ポリシー・エンジン
は重複除外するファイルをスキャンしません。
状態が「On」の場合は、Celerra のデータ重複除外処理がファイル・システムで有効なことを示
します。「On」の場合、ファイル・システムには重複除外されたファイルが含まれる可能性が
あり、ポリシー・エンジンは次の実行スケジュールでさらに重複除外するファイルのためにファ
イル・システムをスキャンします。
「Suspended」は Celerra のデータ重複除外処理がファイル・システムで中止されたことを示しま
す。「Suspended」の場合、ファイル・システムに重複除外されたファイルが含まれる可能性が
あります。ただし、ポリシー・エンジンはさらに重複除外するファイルを探すためにスキャンし
ません。
Celerra の管理者はいつでも重複除外の状態間で切り替えができます。ファイル・システムの重複
除外の状態を「On」または「Suspended」から「Off」に切り替える場合、ファイル・システムに
あるすべての重複除外されたファイルが再重複されるようにシステムに要求します。システムは
この処理を完了するのに（ファイル・システムの容量を完全に使用することなく）十分な容量が
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
9
ファイル・システムにあるかどうかをチェックします。このチェックは、重複除外を「Off」に
する要求を受け付ける前に行われます。容量が十分ではない場合、処理を完了するのに必要な追
加容量に関する情報がシステムから管理者に通知されます。また、システムによってファイル・
システムの拡張が推奨されます。
重複除外のステータス
また図 1
Celerra ManagerのCelerraのデータ重複除外セクション
に示すように Celerra のデータ重複除外は、特定のファイル・システムのステータスが以下のい
ずれであるかをレポートします。
• スキャンニング：現在処理中。ファイル・システムによって推定の進行状況が示されます。
•
アイドル：処理の待機中。
•
再重複：重複除外されたファイルの再重複処理中。推定の進行状況が示されます。
重複除外の統計
図1
Celerra ManagerのCelerraのデータ重複除外セクション
に示すように、Celerra には以下の統計によるファイル・システムのデータの重複除外の結果が表
示されます。
• ファイル・システムの正常なスキャンが最後に完了した時間。
•
Files scanned（スキャンされたファイル）：重複除外ポリシー・エンジンが最後にファイ
ル・システムをスキャンしたときに処理していたファイルの総数。
•
Files deduped（重複除外されたファイル）：容量を節約する重複除外ポリシー・エンジンに
よって処理されたファイルの数。また、重複されたファイルとスキャンされたファイルの比
率を示します。
• Original data size（元のデータ・サイズ）：重複除外されていない場合、ファイル・システ
ムのデータを保存するのに必要な容量。ファイル・システムが過剰プロビジョニングされて
いると示された場合、この数値はファイル・システムの容量を上回る可能性があります。こ
れはファイル・システムの容量に対する元のデータ・サイズの割合によって示されます。フ
ァイル・システムの容量も表示されます。
• Space saved（節約された容量）：重複除外によって節約された容量の量と割合。これは元の
データ・サイズから、重複除外後にデータを保存するために使用された実際の容量を引いて
計算されます。
初めて重複除外のために有効化されたファイル・システムをスキャンする場合、表示する統計は
リアル・タイムでレポートされます。最初のスキャンの後、統計は最後に成功したスキャンに基
づいた静的な値としてレポートされます。
容量が削減されたファイルへのクライアントの入出力
Celerra のデータ重複除外機能は、重複除外されなかったファイルのクライアントの入出力
（I/O）に影響を与えません。この機能では、処理されなかったファイルへのアクセスに対する
いかなるオーバーヘッドの追加も発生しません。デフォルトのポリシーは頻繁な I/O アクセスが
あるファイルを除外するように作成されているので、これらのファイルのアクセスに必要な時間
に悪影響を与えることはありません。
重複除外されたファイルへの読み取りアクセスは、メモリ内でデータを解凍し、クライアントに
戻すことによって実現されます。Celerra はクライアントの読み取りアクティビティに関連してデ
ィスクのいかなるデータの解凍や変更も行いません。さらに、ランダム読み取りでは、ファイ
ル・データの要求された一部を解凍する必要はありますが、ファイル・データすべてを解凍する
必要はありません。重複除外されているファイルの読み取りは、解凍アクティビティがあるので、
重複除外されていないファイルの読み取りよりも時間がかかる可能性があります。ただし、逆の
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
10
状況もあり得ます。重複除外されているファイルの読み取りは、重複除外されていないファイル
の読み取りよりも場合によっては速くなります。これは、ディスクからの読み取りに必要なデー
タが少なく、データの解凍に関連する CPU アクティビティの増加にかかる時間を相殺してもさ
らに短い処理時間ですむからです。
重複除外ファイルへの書き込みや修正がクライアントから要求されると、ファイル・システムの
ファイルに対して再重複（解凍）処理が実行されます。シングル・インスタンス化された重複除
外ファイルに書き込みや修正を行うと、ファイル・データのコピーの再重複が特定のインスタン
スに対して行われます。一方、このファイルの残り部分を参照するために重複されたデータは維
持されます。このことは、重複除外ファイルへの最初の書き込み I/O はその後のファイルに対す
る I/O よりも時間がかかることを示します。以下の 3 つの要素によってこの影響は軽減されます。
•
•
•
多くのアプリケーションではファイルの修正を行いません。アプリケーションは通常、ロー
カル・コピーを作成してからこれを修正します。修正後、ファイル・サーバに新しいファイ
ル全体を書き込み、この処理で使用した古いコピーを廃棄します。したがって、ファイルは
ファイル・サーバで再重複処理されることはなく、置き換えられるだけです。
Celerra はポリシーの定義に基づいて、（最近アクセスや修正を行った）アクティブなファイ
ルの処理を行いません。そのため、重複除外されたファイルが修正される可能性は低く、修
正されたとしてもパフォーマンスが大きな問題になる可能性は低いと思われます。
デフォルトでは、Celerra は 200 MB よりも大きいファイルの重複除外を行いません。これは、
Windows クライアントの CIFS（Common Internet File System）リダイレクタで 25 秒以内にレ
スポンスが受信されない場合、ファイル I/O が許可されないからです。パフォーマンス・テ
ストでは、たとえ負荷が高い場合でも、Celerra では 200 MB のファイルを 25 秒以内で再重複
処理できることが示されました。この特長は、クライアントが PFS（本番ファイル・システ
ム）の重複除外されたファイルを修正する場合、Windows クライアントのタイムアウトを回
避するのに役立ちます。PFS のファイルを修正する Windows クライアントやアプリケーショ
ンがまったく存在しない環境の場合、必要に応じて最大ファイル・サイズを増加させること
で、より大きな容量の節約を実現できます。
アーキテクチャ
図2
Celerraのデータ重複除外ソフトウェア・アーキテクチャ
に、DART（リアルタイム・データ・アクセス）オペレーティング・システム内の Celerra のデ
ータ重複除外ソフトウェア・アークテクチャを表すブロック図を示します。
図2
Celerra のデータ重複除外ソフトウェア・アーキテクチャ
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
11
重複除外ポリシー・エンジンでは、ファイル・システムのユーザーに認識される部分を検索して、
ポリシー・パラメータに基づいて処理されるファイルを探します。処理するファイルが見つかっ
た場合、DART 内のファイル仮想化層に通知され、ファイルに関連するデータは重複除外および
圧縮エンジンに渡されます。
重複除外および圧縮エンジンでは、容量が削減された各ファイルに関連するデータが以前にも確
認され、保存されているかどうかを判別し、ファイル・システムの隠しおよび削減データ保存部
に関連データを保存します。重複除外および圧縮エンジンでは、データの特定の部分が以前に存
在したかどうかが判別されます。判別は、データの SHA-1 ハッシュの計算と、ハッシュをファ
イル・システムの隠しおよび削減データ保存部に保持してあるインデックスと比較することによ
って行われます。
また、重複除外および圧縮エンジンでは、ファイル・システムの隠しおよび削減データ保存部の
データは圧縮された形式で保存され、必要に応じて取り出されます。圧縮アルゴリズムでは、圧
縮時に特定のファイルに関連するデータのサイズが削減されないかどうかが自動的に検出され、
このデータを元の解凍された形式で保存します。
ファイル仮想化層では、クライアントに対して透過的なファイルに関連するデータが確実に削減
されます。ファイル・データが削減されたことに関してクライアント側に示されるのは、「ディ
スク上のサイズ」属性がファイルの作成または最終修正時よりも小さいという点だけです。
パフォーマンス
Celerra のデータ重複除外はストレージ効率の向上が実現可能な非侵入型機能を特長としています。
これはポリシー・エンジンがアクティブなとき、Data Mover での高負荷を回避しようとします。
この機能は定期的に実行されるようになっています。その理由は、ポリシー・エンジンが新たに
修正または作成されたファイルではなく、古いファイルを検索するように設計されているからで
す。
重複除外プロセスでは、CPU の処理能力の 5%を使用して、3 分間に最大 100 万ファイルをスキ
ャンできます。システムの負荷によりますが、重複除外では週単位で 1.5 TB（非常にビジーな
Data Mover）から 15 TB（アイドル状態の Data Mover）のデータを処理できます。
重複除外されたファイルへの読み取りアクセスはパススルー動作になるため、ユーザーは読み取
りパフォーマンスの点でほとんど影響を受けないはずです。重複除外されたファイルのランダム
読み取りは、ユーザー側には、通常のファイルの読み取りと同じように見えます。重複除外ファ
イルの大規模なシーケンシャル読み取りは、これらを未処理の形式で読み取った場合よりも 25
パーセント時間がかかります。重複除外のファイル読み取りは未処理のファイルよりも約 50 パ
ーセントの CPU サイクルを必要とします。したがって、重複除外された多くのファイルが同時
に読み取られるとパフォーマンスに影響する可能性があります。ただし、これらの発生は、環境
内の処理パターンに適するようにポリシーを適切に変更すれば最小限に抑えることができます。
重複除外されたファイルへの書き込みは、圧縮されたファイル・データの完全な再重複を要求し
ます。ファイルが完全に再重複処理され、ファイル・システムのユーザーに認識可能な部分で元
に戻るまで、再重複処理は I/O を停止させます。ユーザーは比較的小さいファイルの場合、リコ
ールの時間に気づかない可能性があります。デフォルトでは、重複除外の最大ファイル・サイズ
は 200 MB に設定されています。これは CIFS クライアントによるタイムアウトを回避するため
です。
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
12
他の Celerra 機能との相互運用性
ネットワークと Celerra NDMP PAX（tar と dump）
容量が削減されたファイルは、CIFS または NFS を介してネットワーク上でバックアップされた
場合、バックアップ・アプリケーションへの転送のために元のサイズに解凍されます。ただし、
データはディスク上では解凍されません。このことは、Celerra の重複除外された本番ファイル・
システムでは容量の節約によるストレージ効率向上のメリットが得られましたが、ネットワー
ク・ベースまたは PAX ベースの NDMP バックアップ使用時には同様のメリットは得られないこ
とを示します。さらに、重複除外されたデータの解凍には CPU オーバーヘッドが増加するため、
個々の重複除外されたファイルのバックアップが低速になります。重複除外ファイルのバックア
ップは、通常より 2～4 倍の時間がかかります。小さなファイル（1 MB 未満）ほど比例して低速
になります。さまざまなサイズの重複除外されたファイルと通常のファイルを組み合わせた、通
常の重複除外されたファイル・システムでは、この種類のバックアップに重複除外前の同一のフ
ァイル・システムのバックアップよりも 20～35 パーセント長く時間がかかると予想されます。
バックアップにかかる時間に対する影響に問題がある場合は、Celerra NDMP（Network Data
Management Protocol）ボリューム・バックアップを使用できます。
さらに、PAX ベースの NDMP バックアップからファイルをリストアする場合、ファイルは通常
のファイルとしてリストアされ重複除外されません。したがって、ファイルにはリストア後、よ
り多くのファイル・システム容量が必要です。ファイル・システム内で使用できる容量によって
は、以前重複除外されたファイルをテープからリストアすると、ファイル・システム内のすべて
の空き容量が消費されてしまう可能性があります。
Celerra NVB（NDMP ボリューム・バックアップ）
Celerra NVB（NDMP ボリューム・バックアップ）は、Celerra のデータ重複除外が有効なファイ
ル・システムをバックアップし、上書きリストア方法を使用してこれらを完全にリストアできま
す。NVB は（バックアップするファイルのヒストリを保存しながら）ブロック・レベルで実行
されるので、重複除外されたファイル・システムをバックアップする場合、データの再重複は一
切実行されません。ファイル・システムのデータは削減された形式でバックアップされます。こ
のことは、本番ファイル・システムで実現されたストレージ効率向上のメリットがバックアップ
に対してももたらされることを示します。
ただし、Celerra は、重複除外されたファイルにおける NVB バックアップからのファイルごとの
リストアをサポートしません。したがって、EMC では、重複除外されたファイル・システムの
NVB バックアップは特定の戦略の一部として使用することを推奨します。つまり、ファイルご
とのリストアをテープからではなく、ローカルまたはリモートでレプリケートされた SnapSure
チェックポイントから行う戦略です。ファイルのリストアの多くは、削除された後の最初の数日
で処理されるので、SnapSure チェックポイントは多くのファイルのリストアにとって効果的でよ
り速い方法です。
ファイル・システムのポイント・イン・タイム・ビュー
重複除外処理では本番ファイル・システムの領域が直ちに解放されます。一方、開放ブロックは
処理中に SnapSure SavVol にコピーされる場合があります。ファイルに関連するデータの重複除
外には、ファイル・システム内のデータの隠しおよび削減データ・ストアへのコピーが含まれま
す。これによってデータの圧縮とシングル・インスタンス化が可能です。SnapSure チェックポイ
ントのコピーは初回書き込み時にブロックを保存ボリュームに変更するので、重複除外されるブ
ロックを SavVol にコピーして、ファイル・システムの以前のポイント・イン・タイム・ビュー
を保存する必要があります。対応するチェックポイントが削除されるかまたはリフレッシュされ、
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
13
他のチェックポイントで再使用が可能な場合、これらのブロックは解放されます。重複除外処理
中に SavVol にコピーされたブロック数は、ファイル・システムの占有率、変更率など、予測が
難しい値に対する関数になります。デフォルトでは、Celerra は SavVol の拡張が発生する前にフ
ァイル・システムの重複除外処理を中止するように構成されています。こうして、重複除外アク
ティビティによる SavVol の拡張は回避されます。重複除外処理が途中で中止される場合、発生
した状況を説明するアラートが生成されます。Celerra の管理者は SavVol を拡張するか、または
単純に重複除外処理を次のスケジュール時に再実行するように選択できます。
レプリケーション
Celerra Replicator™を使用してレプリケートする前にファイル・システムの内容を重複除外する
と、初期のベースラインにおけるコピー処理の一部としてネットワークに送信されるデータ量は
大幅に削減されます。レプリケーションと重複除外が同時に実行される場合、ネットワーク上で
転送されるデータ量への重複除外の影響は、レプリケーションの更新と重複除外の実行の相対的
なタイミングに左右されます。極端な状況は別として、レプリケーションの更新はファイル・シ
ステムの重複除外のスキャンよりも頻繁に発生します。このことは、ファイル・システムの新規
および変更データは、通常はまず非重複除外形式でレプリケートされることを示し、さらに、そ
の後に実行されるいずれの重複除外も、隠しおよび削減データ・ストアへのファイル・システム
内のブロック変更によってレプリケーション・トラフィックの追加が要求されることを示します。
これは、データのレプリケート処理とデータのリモート・レプリカの更新を行ういずれの重複除
外ソリューションにも該当します。レプリケーションの更新は重複除外のスキャンよりも頻繁に
実行されるからです。本番ファイル・システムによって実現される容量の節約は、コピー先のフ
ァイル・システムに反映されます。
クォータ
Celerra では、2 つのクォータの「ポリシー」のどちらかを使用して、ユーザー、グループ、
ディレクトリ・ツリーのクォータをトラッキングできます。つまり、ファイルの論理サイ
ズまたはディスクを使用するファイルのサイズ（ブロック・サイズ・ポリシー）に基づい
て、クォータの使用量をトラッキングできます。ファイルを重複除外する処理ではファイ
ルの論理サイズは変更されないので、論理ファイルのサイズに基づいたクォータ・トラッ
キングに影響を与えません。ファイルの重複除外処理では、ディスクのファイル・サイズ
が削減されます。したがって、クォータがディスクのサイズに基づく場合、ユーザー、グ
ループ、ディレクトリ・ツリーの使用量のクォータは、ファイルが重複除外されると削減
され、レプリケートされると増加します。
Celerra FileMover のアーカイブ
Celerraのデータ重複除外は、Celerra FileMoverアーカイブに対して透過的です。これらの2つの機
能を同時に使用すると、ファイル・ストレージ・ソリューションのストレージ効率を最大限に向
上できます。Celerraのデータ重複除外が有効になっているCelerra ファイル・システムからアーカ
イブされたファイルはいずれも、非重複除外形式でアーカイブ・ストレージから書き込みと読み
取りが行われます。ただし、アーカイブ・ストレージ・システムでは、アーカイブ・データ自体
が重複除外される場合があることに注意してください。リポジトリとして使用されるCelerraファ
イル・システムは、Celerraのデータ重複除外の対象として適しています。
FileMoverとCelerraのデータ重複除外を組み合わせることで、「ホット」なデータおよび時々アク
セスされるデータに対して本番または本番に近いパフォーマンスを可能にする、階層型ファイ
ル・ストレージ・ソリューションが実現できます。さらに、使用頻度の低いデータは、低コスト
のストレージにアーカイブできるので、ストレージの節約が実現されます。ファイルはライフサ
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
14
イクルに沿って、本番ストレージから容量削減ストレージを経てアーカイブ・ストレージにシー
ムレスに進みます。これに伴い容量とコストの割合が減少します。
Celerra の File-Level Retention 機能（ファイルの保存期間設定）
Celerra のFile-Level Retention（FLR）ファイル・システムでは、エンタープライズ・タイプとコ
ンプライアンス・タイプの両方でCelerra重複除外を有効化できます。有効化に際してファイル・
システムが保持するデータに適用される保護を侵害することはありません。
使用上の考慮事項
Celerra のデータ重複除外を使用する場合、以下を考慮する必要があります。
•
Celerra の重複除外では、ファイル・システムにわたるまたはファイル・システム間で
のデータ重複除外は実行されません。
•
Celerra のデータ重複除外によって処理するために有効化されたファイル・システムは、
Celerra Replicator（V2）を使用してレプリケートできます。V1 ではできません。
Celerra のデータ重複除外をサポートするには、コピー先となる Data Mover が必要です。
•
Celerra のデータ重複除外が有効化されているファイル・システムのアクセスには、
Celerra MPFS （マルチパス・ファイル・システム）が使用できます。ただし、重複除
外されたファイルにアクセスする場合、MPFS クライアントは標準 CIFS または NFS
に透過的にフォールバックします。この制限は、システムがアクティブなファイルを
処理しないため、最もパフォーマンスの影響を受けると推測されるファイルを処理し
ないという事実によって緩和されます。
•
PAX ベースの NDMP および CIFS/NFS ネットワークにおける重複除外ファイルのバッ
クアップは、通常ファイルのバックアップよりも低速です。EMC では、NVB と
SnapSure チェックポイントを組み合わせて使用することを推奨します。これによって、
容量の節約によるストレージ効率向上のメリットが受けられ、重複除外されたデータ
における単一のファイルのリストアを実行する性能が保持されます。
•
Celerra NVB を使用することによって Celerra のデータ重複除外が有効化されたファイ
ル・システムをバックアップして、完全にリストアできます。ただし Celerra は、重複
除外されたファイルにおける NVB バックアップからの単一のファイルまたはファイ
ルごとのリストアをサポートしません。EMC では、重複除外されたファイル・システ
ムの NVB バックアップを特定の戦略の一部として使用することを推奨します。つま
り、単一のファイルやファイルごとのリストアを「テープ」からではなく、ローカル
またはリモートでレプリケートされた SnapSure チェックポイントから実行する戦略で
す。
•
Celerra の重複除外は、Celerra がホストになる iSCSI LUN（logical unit number）には適
用されません。
•
Celerra のデータ重複除外は、ファイル・システムのファイルやディレクトリに関連す
る代替データ・ストリーム（名前付き属性）を処理したり、それに影響を与えたりし
ません。
•
Celerra のデータ重複除外は、サイズが 24 KB 未満のファイルを処理しません。このよ
うなファイルの処理に関連してオーバーヘッドが発生すると、容量の節約がいくら実
現されても無駄になってしまいます。
•
Celerra のデータ重複除外を有効化できるファイル・システムのサイズに制限はありま
せん。ただし、重複除外を有効化できるようにするには、ファイル・システムに 1
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
15
MB 以上の空き容量が必要です。空き容量が十分にない場合、エラー・メッセージが
作成されサーバ・ログが更新されます。
•
Celerra のデータ重複除外を有効化できるファイル・システムの数に制限はありません。
•
Celerra のデータ重複除外は既存のファイル・システムで有効化できます。
Celerra のデータ重複除外カリキュレータ
ご使用の環境でCelerraのデータ重複除外を展開できるかどうかを確認するには、Celerraのデータ
重複除外カリキュレータを使用できます。カリキュレータはEMCウェブサイトをホストとし、ユ
ーザー入力による特定のデータ・セットにCelerraの重複除外を展開した場合、実現可能な容量と
会計上の節約を見積りベースで提供します。また、ストレージの毎年の増加率とコストをギガバ
イト単位で予想し、同時にデータの量と種類の詳細も示します。さらに、Celerra Dataの重複除外
が実現する、短期と 5 年間の予想容量およびコストの節約についての見積もりも作成します。
結論
Celerraの優れたストレージ効率化機能に追加されたCelerraのデータ重複除外機能は、インテリジ
ェントな容量使用率の削減とストレージ効率の向上を実現します。シングル・インスタンスと圧
縮によって、既存のストレージ環境を最適化できます。
ファイル・レベルの重複除外と圧縮の組み合わせが、使用するリソースに最大のメリットを与え
る最善の技法となります。ファイル・システムに存在するデータに対して適用した場合、通常の
ファイル共有データでは 30～40 パーセントの範囲で節約が見込まれます。この機能は Celerra
Manager のシングル・クリック・オプションにより、非常に簡単な操作で実行可能です。また
Celerra のデータ重複除外は、ほとんどすべての Celerra の機能、Celerra 仕様の最大値をサポート
します。
関連資料
以下に、Celerra の重複除外についての追加および関連情報を示します。
•
EMCカスタマーおよびパートナー限定のエクストラネットである、Powerlink®の「Using
Celerra Data Deduplication」テクニカル・モジュール
•
EMC.comのCelerra Data Deduplication Calculator
Celerra のデータ重複除外による優れたストレージ効率の実現
高度なテクノロジー
16