HPのデータ重複排除戦略について

by user

on 28-03-2017

Category: Documents

>> Downloads: 5

views

Report

Comments

Description

Download HPのデータ重複排除戦略について

Transcript

HPのデータ重複排除戦略について

HPのデータ重複排除戦略について
1つの技術ではすべてに対応できない理由
目次
エグゼクティブ・サマリー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
注記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
データ重複排除の利点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
注記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
お客様のデータ重複排除要件について. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
大企業のお客様向けの HP 加速的重複排除
（Accelerated Deduplication） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11
オブジェクトレベルの差分に関連する問題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
HP の加速的重複排除
（Accelerated Deduplication）の特長. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
中規模および小規模 IT 環境向けの HP の動的重複排除
（Dynamic Deduplication）. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
動的重複排除
（Dynamic Deduplication）の動作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
ハッシュベースの分断化に関連する問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
低帯域幅の複製の使用モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
重複排除にHP を選ぶ理由 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
HP 仮想ライブラリ製品に適合する重複排除テクノロジ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
付録 A − 用語集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
付録 B − 重複排除テクノロジと他のデータ削減テクノロジの比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
詳細 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
エグゼクティブ・サマリー
データ重複排除テクノロジは、将来のデータ保護およびディザスタリカバリ・ソリューションを変革する、近年で最も
重要なストレージ強化機能の 1 つです。データ重複排除を利用することで、一定量のストレージにより多くのデータ
を保存し、より低い帯域幅のリンクを使用して大幅に低いコストでデータを複製することができます。
HP は、お客様の多様なニーズに適合する2 つの補完的な重複排除テクノロジを提供しています。
• ハイエンドの企業のお客様向けの加速的重複排除＝Accelerated Deduplication（オブジェクトレベルの差分）
− 最高速のバックアップのパフォーマンス
− 最高速のリストア
− パフォーマンスと容量の点で最も拡張性が高いソリューション
− マルチノードの低帯域幅の複製
− 高い重複排除率
− 広範な複製モデル
• 中規模企業と支店向けの動的重複排除＝Dynamic Deduplication（ハッシュベースのチャンキング）
− RAM 容量を減らし、ディスク使用率を最適化した、より低コストのデバイス
− Lights-Out 操作と完全に統合された重複排除アプライアンス
− バックアップ・アプリケーションやデータタイプに依存しない最大の柔軟性
− 広範な複製モデル
本書では、HP の重複排除テクノロジの動作、各アプローチの長所と短所、特定のタイプを選択する方法、および HP
が将来サポートする予定の低帯域幅の複製モデルについて説明します。
重複排除にHPを選ぶ理由
• HP Virtual Library System（VLS）には、エンタープライズ・クラスのお客様に高性能の重複排除を提供する加速的
重複排除テクノロジが組み込まれています。HP は、同じアプライアンスに仮想テープライブラリと重複排除エンジ
ンを搭載したオブジェクトレベルの差分アーキテクチャを持つ少数のベンダの 1 つです。オブジェクトレベルの差
分を持つ競合他社は、重複排除エンジンとVTLを別々に使用しており、データが 2 つのアプライアンスに分割され
ているため、効率面で劣り、高価であるという傾向があります。
• HP D2D
（Disk to Disk）
Backup Systemは、競合他社より大幅に低価格の動的重複排除テクノロジを使用しています。
HP の特許を組み合わせて、RAMとディスクの使用率の最適化や、高性能な分断化を実現し、ページングが最小限
に抑えられています。業界標準の HP ProLiant サーバを使用するコストの利点とともに、重複排除アプライアンス
の新しい価格が設定されました。
2
HP の D2D Backup SystemとVLS仮想ライブラリは、以下の画面が示すような重複排除率の監視を提供します。
図1. HP の VLSデバイスとD2D デバイスの重複排除率の画面
（※ 画面は開発中のものであり、実際の画面とは異なる可能性があります。）
3
はじめに
近年、仮想テープライブラリは、以下の機能を提供することで、現代のデータ保護戦略の根幹をなすものとなり
ました。
• 妥当なコストでのディスクベースのバックアップ
• 新しいリソース（仮想テープドライブ）のプロビジョニングが容易なことによる SAN 環境でのバックアップの
パフォーマンスの向上
• 物理テープより高速の単一ファイルのリストア
• 既存のバックアップ戦略とのシームレスな統合によるリスクの軽減
• オフサイト・ディザスタリカバリまたは長期アーカイブ用の物理テープへのデータ移行機能
仮想テープライブラリは仮想ファイルシステムを備えたディスクベースのバックアップデバイスであり、バックアップ
プロセス自体が大量の反復データを扱うため、仮想テープライブラリは特にデータ重複排除で良好に動作します。ス
トレージテクノロジでは、重複排除は原則的に冗長データの除去を意味します。重複排除プロセスでは、重複する
データが削除され、そのデータのただ1つのコピーのみが保存されます。ただし、
データが必要になる場合に備えて、
すべてのデータの索引が保持されます。重複排除では一意のデータだけが保存されるので、必要となるストレージ
容量を減らすことができます。
通常、特定のデータタイプから削除できる重複データの推定量は、次のとおりです。
PACS
5%
Web および Microsoft ofﬁce データ
30%
エンジニアリング・データディレクトリ
35%
ソフトウェアコードのアーカイブ
45%
技術文書
52%
データベースのバックアップ
70% 以上
上記の例で、PACSとは「Picture Archiving and Communication System」のことであり、X 線や医療用画像処理で使用
される種類のデータです。重複するデータは非常に少量です。逆に、データベースには大量の冗長データが含まれ
ています。すなわち、データベースは、その構造上、多数のレコードが空白のフィールドを持ち、同じフィールドに同
じデータが存在します。
仮想テープライブラリで重複排除を実行すると、時間の経過とともに、一定のディスクストレージ容量で、実際に送
信されるより多くのデータを保持することができます。重複排除を実行するには、ディスクベースのバックアップが提
供するランダムアクセス機能が必要です。これは物理テープが不要ということではなく、テープはアーカイブやディ
ザスタリカバリに必要であり、総合的なデータ保護ソリューションではディスクとテープのそれぞれに固有の属性が
あるということです。
重複排除がもたらす容量の最適化は、以下によって変化します。
• バックアップポリシー、フル、インクリメンタル
• 保管期間
• データの変更率
4
図($ 重複排除の視覚的な説明
重複排除を使用する理由
保存される容量
（J8）
'*&
'(&
'&&
.&
,&
*&
(&
&
'
(
)
保存されるデータ
,
/
' ( （月）
送信されるデータ
注記
重複排除について、「購入するストレージが少なくて済むからよい」と考える人もいますが、実際はそうではありま
せん。重複排除は、めざましい重複排除率を実現するまでに数か月もかかることがある累積的なプロセスです。最
初に、購入するストレージの量を、既存のバックアップテープ・ローテーション戦略と、お客様の環境で予想されるデー
タ変更率を考慮して決定する必要があります。
HP は、重複排除が必要なストレージ容量を決定できる重複排除サイズ決定ツールを開発しました。ただし、これらの
ツールを使用するには、システムのデータ変更率をある程度把握している必要があります。
HP Backup Sizer Tool（英語）
データ量が増えるほど、データを保存するコスト、特にディスク上にバックアップデータを保存するコストも増大する
ため、重複排除が広く利用されるようになってきています。重複排除を通じて、ディスクに複数のバックアップを保存
するコストが低減されます。重複排除は、容量を節減する最新のテクノロジです。重複排除テクノロジと他のデータ
削減テクノロジまたは容量節減テクノロジの比較については、付録 Bを参照してください。
図 3に、重複排除の動作例を示します。
5
図)$ 時間の経過に伴うファイルシステムのデータにおける重複排除の動作例
例 − 'J8ファイルサーバのバックアップ
保管ポリシー
データパラメータ

'週間、毎日、インクリメンタル（+）データ圧縮率3(：'

,か月、毎週、フル（(+）

毎日の変更率3'
（ファイルの'&のデータの'&）
バックアップホストから
送信されるデータ
最初の毎日のフルバックアップ
'&&&=8
最初の毎日のインクリメンタル・バックアップ
'&&=8
(回目の毎日のインクリメンタル・バックアップ
'&&=8
)回目の毎日のインクリメンタル・バックアップ
'&&=8
*回目の毎日のインクリメンタル・バックアップ
'&&=8
+回目の毎日のインクリメンタル・バックアップ
($+J8のディスクバックアップ
3通常、(週間のみの
データ保持
重複排除で
保存されるデータ
+&&=8
+=8
'$(+J8未満の
+=8
ディスクバックアップ
3重複排除で,か月の
+=8
データ保持
+=8
'&&=8
+=8
'&&&=8
(+=8
'&&&=8
(+=8
'&&&=8
(+=8
(+"+&&
(+"+&&=8
=8
'"'(+
'"'(+=8
=8
保存されているデータが約()：'に減少
この例では、1TB のバックアップデータを含むシステムを使用しています。最初の通常のフルバックアップで、データ
が 2：1に圧縮され、ストレージが 500GBになります。バックアップの間にデータの 10% が変更される場合、通常の
インクリメンタル・バックアップはフルバックアップのサイズの約 10% つまり約 100GB をバックアップデバイスへ送
信します。ただし、それらのファイルではデータの 10% だけが実際に変更され、ブロックレベルまたはバイトレベルで
1% のデータが変更されたことになります。これは、ブロックレベルで 10GB だけが変更され、重複排除と2：1 圧縮
で保存されるデータの 5GB だけが変更されることを意味します。時間の経過に伴い、効果が増大します。次のフル
バックアップが保存されるとき、そのサイズは500GB でなく、重複排除された 25GB だけになります。これは、ブロッ
クレベルの 1 週間のデータ変更が 5GB のインクリメンタル・バックアップの 5 倍にすぎないためです。6 か月が経過
すると、重複排除対応バックアップシステムで使用されるストレージ容量は、通常のバックアップシステムの 1 週間分
より少なくなります。6 か月の期間で、実質的にストレージ容量が 23：1に節減されます。また、物理テープからデー
タをリストアせずに、時間を遡ってデータをリストアすることができます。ここで重要なことは、重複排除率が主に以
下の 2 つの要素に依存することです。
• バックアップとバックアップの間のデータ変更率（ファイルの % のデータの %）
• ディスクに保存されるバックアップの保持期間
たとえば、10% のファイルの毎日のデータ変更率が 0.5% の場合、毎日のフルバックアップで、1 年間で 50：1 の重
複排除率になります。明らかに、複雑なシステムの毎日の変更率を予測することは、特にExchange、SQL、Oracle な
どのアプリケーションの場合、非常に困難です。そのため、ベンチマーキングを強くお勧めします。
6
データ重複排除の利点
データ重複排除には、次のような利点があります。
• オンラインで保存できるデータの大幅な増加（オンラインとはディスクベースのことです）
• RPO（Recovery Point Objective）の範囲の拡大。時間を遡ってバックアップからデータを復旧できるため、サービス
レベル・アグリーメント（SLA）に適合しやすくなります。ディスクでの単一ファイルの復旧は、常にテープより高速
です。
• 長期間のアーカイブとディザスタリカバリ使用モデルに使用を制限することによる物理テープへの投資の低減
• 重複排除は、より低いコストでサイト間での複製を実行する機能があるので、ディザスタリカバリ・プロセスを自動
化できます。重複排除はブロックレベルまたはバイトレベルでどのデータが変更されたかを認識しているため、複
製がよりインテリジェントになり、完全なデータセットでなく、変更されたデータだけが転送されます。そのため、
時間が短縮し、複製用の帯域幅が節減されますが、これは重複排除の最も魅力的な利点の 1 つです。今日、サイト
間でディスクベースの複製を利用していないお客様も、耐障害性を強化し、物理テープをオフサイトに輸送する必
要と運用コストがなくなるため、低帯域幅の複製の恩恵を受けます。複製は、テープカートリッジ・レベルで実行さ
れます。
図*$ 低帯域幅の複製を導入する前のリモートサイトのデータ保護
低帯域幅の複製を導入する前のリモートサイトのデータ保護
各サイトで複製されるプロセス（ローカル
オペレータがテープを管理する必要がある）
リスクと運用コストへの影響
(週間以上の低速リストア（テープから）
オフサイトサービスに渡った後、テープを
ローカルサイト
コントロールできない
オフサイト保管施設サービスの過剰なコスト
ローカルサイト
勤務時間外バックアップの頻繁な失敗
テープ、ラベル、およびオフサイト搬出調整など、
ローカルサイト
退屈で日常的なオンサイトメディア管理
バックアップホスト
オフサイトの
テープ保管施設
I7D
'年間
(週間
(週間以上
データはディスクに保存されて
から、テープへコピーされる
テープは夜間に作成され、ディザスタリカバリ用に
オフサイトへ輸送される
7
図+$ 低帯域幅の複製を導入した後のリモートサイトのデータ保護
低帯域幅の複製を導入した後のリモートサイトのデータ保護
ローカルサイトでテープを
操作するオペレータが不要
リスクと運用コストへの影響
HJEIB7の改善すべてのリストアがディスクから実行される
ローカルサイト
ローカルサイト
外部の保管施設サービスが不要
ローカルサイトでのメディア管理が不要
信頼性の高いバックアッププロセス
テープへのコピー回数が減少、テープの使用を単一サイトに統合
ローカルサイト
−テープの数が減少
バックアップホスト
リモートサイト
I7D
I7D
*か月
*か月
ディスク上のデータ保存期間が
*か月に延長。すべてのリストアが
ディスクから実行される。
ローカルで作成されるテープがない。
テープコピー
データはM7D経由で自動的に
リモートサイトへ複製される。
毎月'回、アーカイブのために
テープへのコピーが実行される。
重複排除の複製時間への影響については、次ページの図 6を参照してください。また、このモデルでは、サイト間で
送信されるコントロール情報とデータ差分自体のオーバーヘッドが考慮されています。重複排除がない場合、サイト
間でデータ全体を転送する必要があり、それには、一般にGbE やファイバチャネルのような高帯域幅リンクが必要で
す。重複排除がある場合、差分変更だけがサイト間で転送されるため、より低いコストで T3 や OC12 のような低帯域
幅リンクを使用できます。次の例では、さまざまな変更量での予測複製時間を示します。ほとんどのお客様は、たと
えば T3リンクを使用するサイト間での 2 時間の複製に満足します。HP D2D Backup SystemまたはHP Virtual Library
System から複製リンクへのデータ転送には、1 つまたは複数の GbE パイプを使用します。
8
図,$ 重複排除がある場合とない場合の複製時間
'J8バックアップ環境で (：'でデータを複製する予測時間
リンクタイプ
送信されるデータ
リンク速度（効率,,）
J'
J)
E9'(
'$+CX%i
**$-CX%i
,(($'CX%i
重複排除なし
バックアップのタイプ
インクリメンタル
+&=8
*$+日
)$.時間
',分
フル
+&&=8
*+$*日
'$,日
($-時間
重複排除あり
変更率
&$+
')$'=8
(/時間
+/分
*$)分
'$&
',$)=8
)+時間
-)分
+$)分
($&
(($+=8
*/時間
'&(分
-$)分
注記
プライマリサイトとセカンダリサイトで、バックアップデバイスの初期同期化を実行する必要があります。この段階で
は大量のデータを同期化する必要があるため、低帯域幅リンクでは不十分です。同期化は、次の 3 つの方法で実行
できます。
• 同じサイトに2 つのデバイスを供給し、高帯域幅のファイバチャネル・リンク経由でローカル複製のような機能を
使用してデータを同期化します。次に、ライブラリの 1 つをリモートサイトに搬送します。
• 別々のサイトに2 つの別々のデバイスを設置し、サイトA で初期バックアップを実行します。サイトA から物理テー
プにバックアップをコピーし、物理テープをサイトB へ輸送し、インポートします。両方のサイトのシステムが同期
化されたら、2 つのサイト間の低帯域幅の複製を開始します。
• サイトA の初期バックアップの後で、低帯域幅リンク経由で 2 つのデバイスが初期バックアップデータをコピーで
きるように数日の初期同期化期間を取ります。
9
お客様のデータ重複排除要件について
規模の大小を問わず、組織はデータ保護について非常に類似した課題を抱えています。大規模企業と小規模企業の
差は、問題の優先順位です。
図-$ 支店、中規模および小規模企業、大企業のお客様に共通するデータ保護の課題
共通の課題
環境
ニーズ
急激に増加するデータの処理
バックアップ期間の遵守と維持
データセンタ
バックアップの信頼性の改善
テープ（仮想テープを含む）からのより迅速なリストア
リモートサイトのデータ保護の管理
専任の?Jリソース不足の解消
支店
データ増大の管理
バックアップ・アプリケーション、ファイル、
およびEIの非依存性の維持
バックアップの管理時間の短縮
中規模および
小規模企業
優先順位が異なるため、HP は、2 つの異なるデータ重複排除のアプローチを開発しました。例を示します。
• 大企業では、バックアップ期間の遵守が課題であるため、バックアッププロセスに時間がかかる重複排除テクノロジ
はまったく役に立ちません。中規模および小規模企業の場合も、バックアップ期間は問題ですが、重要度は下がり
ます。
• ほとんどの大企業のお客様は、リストア時間に関するサービスレベル・アグリーメント（SLA）を有しているため、リ
ストアプロセスに時間がかかる重複排除テクノロジではまったく役に立ちません。
• 多くの大企業のお客様は、夜間に数百テラバイトのバックアップを実行するので、重複排除を持つバックアップソ
リューションは、パフォーマンスを低下させずにこれらの容量まで拡大する必要があります。細分化された複数の
重複排除ストアを使用しなければならないアプローチも、バックアッププロセス全体の管理が困難になります。
• 逆に、支店や中規模および小規模の組織では、一般に妥当なコストの専用の自己完結型アプライアンスのような
より容易なアプローチが必要です。
• 支店や中規模および小規模企業は、無限の拡張性を備えたシステムは必要でなく、容量とパフォーマンスの拡大
に伴ってコストが比例して増加することを望みません。必要なのは、どのような環境でも透過的に動作できる単一
エンジンのアプローチです。
10
大企業のお客様向けの HP 加速的重複排除（Accelerated Deduplication）
HP の加速的重複排除テクノロジは、大企業データセンタ向けに設計されています。これは、HP が HP StorageWorks
Virtual Library System 用に選択したテクノロジです。加速的重複排除には、以下のような特長と利点があります。
• パフォーマンスと拡張性を重視したオブジェクトレベルの差分テクノロジを利用。
• 可能なかぎり最高速のバックアップのパフォーマンスを提供。バックアップジョブの完了時に、後処理テクノロジを
利用してデータ重複排除を実施し、他のバックアップの処理中に前バックアップの重複排除を実行します。
• 最新のバックアップデータから最高速のリストアを提供。最新のバックアップデータの完全なコピーを保持し、前
のバックアップの重複データを除去します。
• 拡張可能な重複排除パフォーマンス。ノードを追加することでパフォーマンスを向上させることのできる分散型
アーキテクチャを採用しています。
• 投資を保護するための柔軟な複製オプション
図.$ オブジェクトレベルの差分では、同じホストからの現在のバックアップと前のバックアップだけが比較され、
ポインタで重複データが除去されます。最新のバックアップは、常にそのまま維持されます。
>Fの加速的重複排除（7YY[b[hWj[Z:[Zkfb_YWj_ed）
前の
バックアップ
UUUUUUUUU
7
UUUUUUUUU
UUUUUUUUU
UUUUUUUUU
UUUUUUUUU
UUUUUUUU
UUUUUUUUU
UUUUUUUUU
UUUUUUUU
UUUUUUUUU
UUUUUUUU
UUUUUUUU
UUUUUUUU
現在の
バックアップ
前の
バックアップ
UUUUUUUUU
7
UUUUUUUUU
UUUUUUUUU
UUUUUUUUU
UUUUUUUUU
UUUUUUUU
UUUUUUUUU
UUUUUUUUU
UUUUUUUU
UUUUUUUUU
UUUUUUUU
UUUUUUUU
UUUUUUUU
UUUUUUUU
UUUUUUUU
7
UUUUUUUU
UUUUUUUU
UUUUUUUU
現在の
バックアップ
データの整理
類似するデータ
オブジェクトを識別
データの区別/
データの比較
バイトレベルで
差分を識別し、
データ整合性を
確保
スペースの
再利用
重複データを
削除し、
未使用スペースを
再割り当て
現在の
バックアップ
UUUUUUUU
UUUUUUUU
7
UUUUUUUU
UUUUUUUU
UUUUUUUU
（オプション）
(回目の整合性チェック
再構築
新しい
データの保存。
既存データへの
ポインタによる
重複データの
置き換え
既存データへの
ポインタ
UUUUUUUU
7
UUUUUUUU
UUUUUUUU
UUUUUUUU
UUUUUUUU
重複を除去したデータと元の
データオブジェクトを比較
UUUUUUUU
7
UUUUUUUU
UUUUUUUU
UUUUUUUU
UUUUUUUU
11
加速的重複排除の動作
バックアップの実行時には、データストリームがディスクに保存されるときに処理され、バックアップ・アプリケーショ
ンが添付するメタデータへの問い合わせを行って一時的なコンテンツデータベースが作成されます。このプロセス
は、パフォーマンスへの影響が最小です。
1. 最初のバックアップジョブが完了すると、重複排除の処理を開始するタスクのスケジュールが設定されます。コン
テンツデータベースは、同じデータソースからの以降のバックアップを識別するために使用されます。オブジェクト
レベルの差分では、同じホストからの現在のバックアップと前のバックアップが比較されるため、これは重要です。
図/$ バックアップ形式、ファイル、およびデータベースに関連するメタデータの除外による重複データの識別
オブジェクトレベルの差分では、
メタデータを除外して実際の重複を特定
物理データ
バックアップ・
アプリケーションの
メタデータ
C
;
J
7
7
実際のファイル7
セッション'
論理データ
C
;
J
7
8
実際のファイル7
セッション(
これらの(つのファイルは、バックアップ
メタデータが異なるためにバックアップ
のオブジェクトレベルでは異なって見え
ますが、論理レベルでは同一です。
オブジェクトレベルの差分の重複排除で
は、バックアップメタデータが除外され、
実際の重複データが明確になります。
2. データの比較は、同じホストからの現在のバックアップと前のバックアップの間で実行されます。比較には、さまざ
まなレベルがあります。たとえば、一部のバックアップセッションは、セッションレベル全体で比較されます。ここで、
データは、2 つのバージョンの間でバイト単位で比較され、共通のデータのストリームが識別されます。他のバッ
クアップセッションでは、バックアップセッション内のファイルのバージョンが比較されます。なお、加速的重複排
除のオブジェクトレベルの差分では、バックアップメタデータとファイルシステムメタデータが除外された後で比
較が実行されます。（次ページの図 10 の例を参照してください）。そのため、重複排除プロセスの効率が大幅に
向上しますが、バックアップ・アプリケーションのメタデータのタイプとデータタイプのメタデータ（ファイルシス
テム・ファイル、データベース・ファイルなど）の詳細な知識が必要です。
3. 比較プロセスで重複するデータが見つかると、最も古いバックアップ内の重複するデータストリームが、同じデー
タの新しいコピーへの 1 組のポインタで置き換えられます。これで、最新のバックアップが常に完全に連続し、最
新のバックアップからのリストアが常に最大速度で実行されることが保証されます。
12
図'&$ オブジェクトレベルの差分では、最後のバックアップが常にそのまま維持されます。
前のバックアップ内の重複オブジェクトは、ポインタとバイトレベルの差分で置き換えられます。
>Fの加速的重複排除（7YY[b[hWj[Z:[Zkfb_YWj_ed）− 詳細
セッI;II?ED
ション ) セッI;II?ED
ション ( セッI;II?ED
ション '
:7O
日目 '
'
:7O
日目 (
(
:7O
日目 )
)
7
9
:
)
7
9
7 9
(
現在のバージョンへの
ポインタ
7
8
7
8
7
8
'
差分データ
7、8、9、:は、バックアップセッション中のファイルです。
図 10で、バックアップセッション1にファイル Aとファイル Bがあります。バックアップセッション2が完了し、バックアッ
プセッション1と比較されると、ファイル A が見つかり、古いバージョンのバイトレベルの差分が計算されます。した
がって、より古いバックアップ（セッション1）で、ファイル A はポインタとバックアップセッション2 のファイル Aとの
差分デルタで置き換えられます。その後、バックアップセッション3 が完了すると、バックアップセッション2と比較さ
れ、ファイル C が重複していることが見つかります。そのため、バックアップセッション2 での差分とポインタが、バッ
クアップセッション3 でファイル C データを指し示し、同時にセッション1 でのファイル A の元のポインタがファイル A
の新しい位置を指し示すように変更されます。これにより、古いデータをリストアするとき、ポインタの複数のホップ
が防止されます。したがって、プロセスが進むごとに、現在のバックアップが前のバックアップと比較されます。差分
とポインタが書き込まれるたびに、ストレージ容量が節減されます。このプロセスにより、ファイル間のバイトレベル
の変更であっても、重複排除を追跡することができます。
4. 2 回目の整合性チェック − バックアップテープが新しいデータのポインタを持つ重複排除されたバージョンで置
き換えられる前に、元のバックアップと「再構築された」バックアップを、ポインタを含めて比較して、バイト単位
の比較を実行することができます。これにより、2 つのバックアップが同一であることを保証します。比較が成功
する場合のみ、元のバックアップテープが、ポインタを含むバージョンで置き換えられます。この手順は、オプショ
ンです。図 8 の手順 4を参照してください。
5. スペース再利用は、重複データをデータの単一インスタンスへのポインタで置き換えて作成されるすべての空き
容量が完了すると、実行されます。スペース再利用は時間がかかる場合があり、使用された容量がデバイス上の
空きプールに返されます。
スペースが再利用される前でも変更されたデータを複製できるため、複製は手順 3 から実行することができます。
13
HP の加速的重複排除には以下の利点があります。
• 数百 TBまで拡張します。
• 比較が、
バックアップジョブが完了した後で実行されるため（後処理）
、
バックアップのパフォーマンスに影響しません。
• より多くの重複排除「計算ノード」を追加して重複排除のパフォーマンスを改善し、バックアップサイクルが再び開
始する前に後処理を確実に完了することができます。
• メタデータを除外して実際の重複を特定し、データ分断に依存しないため、高い重複排除率を実現します。
• 最近バックアップされたデータの高速で大容量のデータリストアとテープクローンを提供し、バックアップデータの
最新のコピーを維持し、前のバックアップ内の重複データを除去します。
オブジェクトレベルの差分に関連する問題
オブジェクトレベルの差分における主な問題は、メタデータを解釈するために、デバイスがバックアップ形式とデータ
タイプを認識している必要があることです。HP の加速的重複排除は、発売時にバックアップ・アプリケーションとデー
タタイプのサブセットをサポートしています。
さらに、オブジェクトレベルの差分では、同じホストからのバックアップだけが比較されるので、ホスト間の重複排除
は実行されません。しかし、異なるホスト間で共通するデータは非常に少量です。
HP の加速的重複排除（Accelerated Deduplication）の特長
HP の加速的重複排除のオブジェクトレベルの差分は、市場で独特です。すべての重複を除去するか、まったく除去
しないかのハッシュベース方式と異なり、オブジェクトレベルの差分は、プロセスにインテリジェンスを適用し、重複
排除を実行するデータタイプをユーザが決定でき、期待する結果や希望する結果が得られない場合、重複排除の負
荷を減らす柔軟性があります。また、HPのオブジェクトレベルの差分テクノロジは、ハッシュベースの分断とは異なり、
増大する索引テーブルの管理に依存しないアーキテクチャであるため、バックアップのパフォーマンスに影響を与え
ず、数百テラバイトまで拡大できる、唯一の重複排除テクノロジです。また、使用できるすべての処理リソース全体
に重複排除ワークロードを分散でき、重複排除専用のノードを持つことができるので、拡張性の高いシステムにも適
しています。
• HP の加速的重複排除は、さまざまなバックアップ・アプリケーションでサポートされています。
− HP Data Protector
− Symantec NetBackup
− Tivoli Storage Manager
− Legato Networker
• HP の加速的重複排除は、各種のファイルタイプをサポートしています。
− Windows 2003
− Windows Vista
− HP-UX 11.x
− Solaris 標準ファイルバックアップ
− Linux Redhat
− Linux SuSe
− AIXファイルバックアップ
− Tru64ファイルバックアップ
14
• HP の加速的重複排除は、時間の経過に伴うデータベースバックアップをサポートしています。
− Oracle RMAN
− Hot SQL バックアップ
− Online Exchange
− MAPIメールボックス・バックアップ
HP の加速的重複排除でサポートされている最新のバックアップ・ソフトウェアとデータタイプの詳細については、
http://www.hp.com/go/ebs で『HP Enterprise Backup Solutions compatibility guide』を参照してください。
HP の加速的重複排除テクノロジは、HP StorageWorks Virtual Library System（モデル 6000、9000、および 12000）
のライセンスで使用できます。ライセンス料金は、（圧縮や重複排除を実行する前の）ユーザストレージの TB 単位
で課金されます。
図''$ >Fの加速的重複排除の長所と短所
>Fの加速的重複排除（7YY[b[hWj[Z:[Zkfb_YWj_ed）の長所と短所
長所
短所
バックアップ速度に制限がない。
データはバックアップが完了した後で
処理されます。
?ILの形式とデータタイプに対応する
必要があり、時間の経過とともにコンテンツの
対象が拡大する。
リストア速度が速い。
「前方参照ポインタ」でデータに高速アクセス
できます。
長時間バックアップのシナリオで重複排除の
後処理を高速化するために、追加の計算ノード
が必要な場合がある。
バックアップを分割せずに'&&J8以上の
データセットを処理できる。
ハッシュテーブルに依存しません。
一致しそうなデータを選択的に比較できる。
パフォーマンスと重複排除率が向上します。
後処理の比較を実行するために、(つのバック
アップをキャッシュする必要がある。そのため、
ソリューションのサイズ決定で、最も大きい
バックアップのサイズに等しい追加のディスク
容量が必要となる。
大企業LJBに最適です。
テープコンテンツ・データベースが生成される、データの取り込み時に、小さいパフォーマンスオーバーヘッド（0.5%
未満）があり、このデータベースを保持するために（ハッシュベースの分断重複排除テクノロジのハッシュテーブルよ
りはるかに）少量のディスク容量が必要です。このコンテンツデータベースが完全に破壊された場合でも、再書き込
みされたテープ形式にポインタがそのまま保持されているため、まだデータにアクセスできます。
また、HP のオブジェクトレベル差分は、コンテンツのタイプでの選択的な重複排除を提供することができます。また、
将来、コンテンツによるアーカイブ検索を実行するために、コンテンツに索引を付けるために使用されます。
「同じホストから同じバックアップが到達するときまでに重複排除が完了していないとどうなるか」という質問がしば
しば起こります。通常、重複排除プロセスの時間は、任意のバックアップに対するバックアッププロセスの時間の 2 倍
かかりますので、単一のバックアップジョブが 8 時間以内の場合、
このようなことは起きません。さらに、マルチノード・
アーキテクチャにより、各ノードは処理能力の 33%を提供するように重複排除の負荷が分散され、バックアップとリス
トアに必要なパフォーマンスが維持されます。最後に、必要に応じて、重複排除専用の計算ノードを追加することが
できます。
15
次に、第 2 の HP 重複排除テクノロジであるハッシュベースの分断を使用する動的重複排除を分析します。
中規模および小規模 IT 環境向けの HP の動的重複排除
（Dynamic Deduplication）
HP の動的重複排除は、比較的小規模の IT 環境を保有するお客様向けに設計されています。主な特長と利点は、
次のとおりです。
• ハッシュベースの分断テクノロジは、互換性とコストを重視して設計
• 低コストおよび少ない RAM 使用量
• バックアップ・アプリケーションに依存しない
• システムにデータ重複排除を内蔵
• 柔軟な複製オプションによる投資保護の強化
データ削減用のハッシュベースの分断方式は、すでに長年にわたって利用されています。ハッシュ法は、データの特
定のチャンクにアルゴリズムを適用し、そのデータ固有のフィンガープリントを生成します。バックアップストリーム
は、単に一連のチャンクに分断されます。たとえば、データストリーム内の 4K チャンクは、20 バイトのハッシュコード
で一意に表現されるように「切り刻む」ことができます。図 13を参照してください。
図'($ ハッシュテクノロジ
ハッシュテクノロジ
「インライン」 = 「ハッシュ」テクノロジを使用してデータが取り込まれるときに即時に
重複排除を実行する
「ハッシュ法」 = ある種類のデータをデータのデジタル「フィンガープリント」として
使用できる（比較的）小さい値に変換する再現可能な方法
入力
出力
>F_dl[dj
ハッシュ法
:<9:)*+)
>FIjehW][Mehai
ハッシュ法
-.+9):/(
>FD[Whb_d[
IjehW][
ハッシュ法
*,-)<:-*8
チャンクが大きいほど、同じハッシュコードを生成する同一のチャンクが見つかる確率が低くなり、重複排除率はそれ
ほど高くありません。チャンクのサイズが小さいほど、データ重複排除プロセスの効率が上がりますが、作成される
索引の数が増え、膨大な索引が保存される問題が発生します（次の例と用語集を参照してください）。
16
図')$ ハッシュベースの分断化の動作
索引（PAM）
?dZ[n
H7C
UUUUUUUUU
UUUUUUUUU
バックアップ'
8WYakf '
UUUUUUUUU
UUUUUUUUU
UUUUUUUUU
UUUUUUUUU
バックアップ(
8WYakf (
UUUUUUUUU
UUUUUUUUU
#33
#13
#1
#65
#9
#245
#21
#127
バックアップがチャンクに分割され、
ハッシュ機能が適用される
#33
#13
#222
#75
#9
ハッシュが生成され、
検索が実行される
#245
#86
#127
新しいハッシュが生成され、
索引に入力される
Dei
#番号
:_ia8beYa
ディスクブロック
))
#33
+
5
')
#13
()*
234
'
#1
./
89
,+
#65
)(*+
3245
/
#9
-.+
785
(*+
#245
/-,
976
('
#21
'()
123
'(#127
')
13
(((
#222
,*+/
6459
-+
#75
)*347
.,
#86
+,-5677
チャンクがディスクに
保存される
))
.,
動的重複排除（Dynamic Deduplication）の動作
1. バックアップ・データストリームがターゲットデバイス（この場合、HP D2D2500またはD2D4000 Backup System）
に入力されると、4K チャンクに分断され、それに対して SHA-1 ハッシュアルゴリズムが実行されます。これらの結
果は「索引」
（ハッシュ値）に保存され、
ターゲットD2D デバイスの RAMに保存されます。ハッシュ値は、バックアッ
プストリームを表す「レシピ」ファイル内の項目としても保存され、元の 4K チャンクが保存される重複排除ストア
内のデータをポイントします。これは、バックアップの実行中にリアルタイムで実行されます。手順 1 は、バックアッ
プ・データストリーム全体まで継続します。
2. 別の 4K チャンクが前のチャンクと同じハッシュを生成するときは、索引リストに索引が追加されず、重複排除スト
アにデータが書き込まれません。ハッシュ値がある項目は、単にそのバックアップストリーム用の「レシピファイル」
に追加され、以前に保存されたデータを指し示すため、スペースが節減されます。これを多数のバックアップに実
行すると、同じハッシュ値を持つインスタンスが増えますが、実際のデータは 1 回だけ保存されるので、スペース
節減効果が増加します。
3. 次に、図 13 のバックアップ 2を考えます。データストリームが再びハッシュアルゴリズムを通過すると、多くのデー
タがバックアップ 1と同じハッシュ索引コードを生成するので、テーブルに索引を追加する必要はなく、また重複排
除ストアのストレージを使用する必要もありません。このバックアップでは、一部のデータが変更されています。
場合によっては（#222、#75、および #86）、データが一意であり、索引ストア用の新しい索引を生成し、重複排除
ストアに新しいデータ項目を保存します。
4. したがって、ハッシュプロセスは、バックアップがテープローテーション戦略で更新されるまで無限に継続すると、
特定のハッシュ索引が不要になり、ハウスキーピング処理で削除されます。
17
図'*$ ハッシュベースの分断化によるリストアの動作
索引（PAM）
?dZ[n
H7C
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
UUUUUUU
))
#33
')
#13
'
#1
,+
#65
/
#9
(*+
#245
('
#21
'(#127
リストアが開始し、重複排除ストアで
レシピファイルが参照される
バックアップ'を
リストアする
バックアップ'のレシピファイル
))
#33
')
#13
'
#1
,+
#65
レシピファイルは重複排除
ストアに保存され、バック
アップを構成するテープ
ブロックの再構築のために
使用される
/
#9
(*+
#245
('
#21
Dei
#番号
:_ia8beYa
ディスクブロック
))
#33
+
5
')
#13
()*
234
'
#1
./
89
,+
#65
)(*+
3245
/
#9
-.+
785
(*+
#245
/-,
976
('
#21
'()
123
'(#127
')
13
'(#127
レシピファイルは
索引を参照する
チャンクがディスクに
保存される
))
レシピファイル
))がリストアされる
5. バックアップシステムからリストアコマンドを受信すると、D2D デバイスは正しいレシピファイルを選択し、リストア
するファイルの再構築を順次開始します。
a. レシピファイルを読み込みます。
b. 索引でハッシュを検索し、ディスクポインタを取得します。
c. ディスクから元のチャンクを取得します。
d. ストリームをリストアするためにデータを返します。
e. レシピファイル内のすべてのハッシュ項目についてこの手順を繰り返します。
18
ハッシュベースの分断化に関連する問題
ハッシュベースの分断化テクノロジの主な問題は、索引の増大と索引を保存するために必要な RAM ストレージの制
約です。単純な例を考えます。4K チャンクを使用する1TB のバックアップ・データストリームがあり、すべての 4K チャ
ンクが一意のハッシュ値を生成する場合、これは 2 億 5000 万個の 20 バイトハッシュ値、または 5GB のストレージに
相当します。
他の最適化（たとえば、ディスクへの索引のページングやディスクからの索引のページング）を実行しない場合、アプ
ライアンスには重複を除去される一意の 1TB データ当たり5GB の RAM が必要です。ほとんどのサーバシステムが、
16GB 以上の RAMをサポートできません。そのため、ハッシュベースの分断化は、簡単に数百テラバイトまで拡張す
ることができません。
ほとんどの中規模および小規模の重複排除テクノロジは、各種のハッシュベースの分断化を使用しますが、生成され
る索引のサイズを小さくする手法を追加して、必要な RAM の量を削減します。しかし、一般に重複排除の効率やパ
フォーマンスが低下します。索引管理が効率的でない場合、バックアップ速度が許容できないレベルまで下がるか、
多数の重複データのインスタンスが欠落します。あるいは、もっと大きいチャンクサイズを使用して、索引のサイズ
を小さくします。すでに述べたように、この場合の短所は、重複排除の効率が低下することです。また、これらのアル
ゴリズムは、一部のバックアップ・ソフトウェアのテープ形式で発生する反復しないデータパターンでは不利に作用
する場合があります。これは、チャンクサイズが大きくなると、さらに大きい問題になります。
HP は、パフォーマンスや重複排除効率を低下させずに、索引を管理するためのメモリの量を大幅に減らす、HP 研究
所の成果を利用した独自の斬新なテクノロジを開発しました。このテクノロジは、低価格で高性能のディスクバック
アップシステムを実現するだけでなく、はるかに小さいチャンクサイズを使用して、さまざまなバックアップストリー
ムの形式やデータタイプに対応できる、より効果的なデータ重複排除を提供することができます。
ハッシュベースの分断化では、リストアが低速になる場合があります。図 14 からわかるように、ハッシュベースの重複
排除ストアから4K のデータを復旧するために再構築プロセスが必要です。リストア時間はバックアップ時間より長く
なる場合があります。
最後に、2 つの異なるデータチャンクが、同じハッシュ値を生成する「ハッシュ衝突」という問題があり、明らかにデー
タの整合性に影響します。ハッシュ衝突が発生する確率は、非常にまれです。
HP 研究所による計算
SHA1のような20バイト
（160ビット）
ハッシュを使用すると、勤務日当たり1TBのデータをバックアップするとして、ハッ
シュ衝突が発生するのに100,000,000,000,000 年かかります。
しかしながら、HP 動的重複排除は、ほとんど発生することのないハッシュ衝突を回避するために、テープレコードレ
ベルの CRC（Cyclic Redundancy Checksum、周期冗長検査）をさらに追加しています。
上記の制限事項にもかかわらず、ハッシュベースの分断化を使用する重複排除は信頼のあるテクノロジであり、支店
や中規模企業で非常に良好に動作します。ハッシュベースの分断化の最大の利点は、データ形式にまったく依存せ
ず、特定のバックアップ・アプリケーションやデータタイプのために変更する必要がないことです。ハッシュベースの
重複排除テクノロジを使用する製品の設計方法は汎用です。
HP は、支店や中規模および小規模組織向けに設計された最新の D2D Backup Systemに動的重複排除テクノロジを
配備しています。
HP の D2D 2500 および 4000 Backup System は、重複排除を標準搭載し、追加のライセンス費用は不要です。
19
図'+$ ハッシュベースの分断化による重複排除の長所と短所
>F動的重複排除（:odWc_Y:[Zkfb_YWj_ed）の長所と短所
長所
重複排除はバックアップ時に実行される
任意のデータ形式を即時に処理できる
処理オーバーヘッドは大きいが、プロセッサの
開発で対応できる
検索が高速で、アルゴリズムはハッシュ検出を
支援する実績がある
ストレージのオーバーヘッドが少ない。
事後分析を開始するために完全なバックアップ
（J8）を保持する必要がない
小規模LJBに最適
短所
効率的に行わないと、取り込み率
（バックアップ率）が制限され、バックアップ
速度が下がる場合がある。
データ再構築プロセスのために、オブジェクト
レベルの差分による重複排除よりリストア時間
がかかる場合がある。
非常に大きいハッシュ索引を使用する場合、
拡張性の問題が発生する。数十J8以上の
データセットの場合、ハッシュ索引の管理を
改善するために、
「分割」バックアップの開始が
必要な場合がある。
HP の動的重複排除テクノロジは、パフォーマンスや重複排除の効果を低下させずに、索引を管理するために必要な
メモリの量を大幅に削減する、HP 研究所が開発したアルゴリズムを採用している点が独特です。このテクノロジの
具体的な特長は、次のとおりです。
• 特定のバックアップ・データストリームについて RAMに保存する最適な索引を決定するアルゴリズムを実装するこ
とで、メモリ使用量が大幅に減少します。
• 非常に小さいチャンクサイズを使用できるので、データ重複排除の効果が向上し、さまざまなバックアップストリー
ムの形式やデータタイプに対応できます。
• チャンクとレシピファイルのインテリジェントストレージを提供して、ディスクI/Oとページングを制限します。
• バックアップ・ソフトウェアの形式やデータタイプに依存しないため、広範囲の環境で良好に動作します。
20
低帯域幅の複製の使用モデル
重複排除の 2 番目の主な利点は、高帯域幅リンクが不要になるため、わずかなコストでサイトA のデータの変更をリ
モートサイトBに複製できることです。一般に、T1リンクは、同じ距離で 4Gb FCリンクのコストの 10% で済みます。
低帯域幅の複製は、D2D 製品とVLS 製品の両方で使用できます。D2D デバイスでは最大 2GbE ポートを複製用に使
用でき、VLS 製品ではノード当たり1GbE ポートを使用できます。
HP は、低帯域幅の複製用に、以下の 3 つのトポロジをサポートする予定です。
• Box-to-Box
• Active-Active
• 多対 1
複製の単位は、カートリッジです。VLS では、仮想ライブラリ複製ターゲットデバイス内のスロットを分割して、特定の
ソース複製カートリッジに関連付けることができるようになります。
図',$ 重複排除による>FLBIシステムと:(:システムでの7Yj_l[#7Yj_l[複製
加速的重複排除の複製の使用例−7Yj_l[#7Yj_l[
一般に、データセンタ間の複製では、各デバイスがローカルバックアップを実行し、
他のデータセンタ用の複製ストアとして機能
J9F%?F
LB_X'
LBI'
LB_X'
LBI(
LB_X(
LB_X(
バックアップサーバ
バックアップサーバ
21
図'-$ 重複排除による>FLBIシステムと:(:システムでの多対'複製
加速的重複排除の複製の使用例 − 多対'
それぞれに別々の複製ライブラリを必要とせず、単一の複製先ターゲットを複数のスロット範囲に
分割することで多対'が可能
バックアップサーバ
LB_X'
バックアップサーバ
LB_X'
バックアップサーバ
LB_X'
LBI'
LB_X'
LBI(
J9F%?F
q
q
q
LBI*
LB_X(
LBI)
バックアップサーバ
最初は、D2D デバイスは、重複排除テクノロジが異なるため、はるかに大きい VLS デバイスに複製することができま
せん。しかし、HP は、近い将来、この機能を提供できる予定です。
複数の HP D2D250 を中央の D2D4000に複製することや、より小さい VLS6200 モデルを中央の VLS 12000に複製
することができるようになります（図 18を参照してください）。
重複排除テクノロジにより、多数のリモートサイトが妥当なコストでデータを中央のデータセンタに複製することが
可能になります。そのため、退屈なテープのオフサイト保管の必要がなくなり、完全にプロセスを自動化できるので、
さらにコストを低減することができます。
そのため、以下が保証されます。
• 各サイトに最も費用対効果が高いソリューションが配備される
• 物理テープのオフサイト保管に関連するコストと問題がなくなる
• ディザスタリカバリ・プロセス全体が自動化される
• ソリューションは、すべてのサイトにあわせて調整できる
22
図'.$ リモート拠点や支店からデータセンタへの複製による大企業配備
大企業配備
小さいROBOと大きいROBO
ROBO = Remote office and Branch office
小さい支店
大きいデータセンタ
モバイル／デスクトップ・クライアントエージェント
モバイル/デスクトップ
サーバ
バックアップエージェント
バックアップ／メディアサーバ
モバイル/デスクトップ
サーバ
地方のサイトまたは
小さいデータセンタ
:(:アプライアンス
サーバ
モバイル/デスクトップ
サーバ
セカンダリ・
データセンタ
モバイル/デスクトップ
サーバ
バックアップサーバ
ディスク
ストレージ
L_hjkWbB_XhWho
Ioij[c
大きい支店
バックアップサーバ
バック
アップ
サーバ
:(:アプライアンス
サーバ
バック
アップ
サーバ
:(:アプライアンス
テープ
ライブラリ・
システム
ディスク
ストレージ
L_hjkWb
B_XhWho
Ioij[c
重複排除にHPを選ぶ理由
重複排除は強力なテクノロジであり、実装方法もさまざまですが、ほとんどのベンダが、ただ 1 つの方法だけを提供
しており、これまで見てきたように、すべての状況で最適な方法というものはありません。HP は、お客様の要件に応
じて重複排除テクノロジを選択できる機能を提供しています。HP は、「1 つのサイズですべてに対応」などと偽った
りはしません。
中規模および小規模規模の IT 環境には、HP の動的重複排除を選択してください。お求めやすい価格で最適な重複
排除テクノロジを提供しています。柔軟な複製オプションが、さらにソリューションを強化します。
拡張性とバックアップのパフォーマンスが重要な大企業のデータセンタには、HP の加速的重複排除を選択してくだ
さい。柔軟な複製オプションが、さらにソリューションを強化します。
ハッシュベースの分断化に関連する拡張性の問題は、ある競合他社が単一の管理インタフェースの背後に複数の
別々の重複排除ストアを作成することで対応しています。しかし、「重複排除の島」が生成され、実質的に拡張性に
欠けるため、お客様の利点が減少し、余分なコストが発生します。
データセンタレベルでは、オブジェクトレベルの差分を使用する主要な競合他社が、既存の仮想テープライブラリに
重複排除エンジンを「つなぎあわせた」アーキテクチャを使用していますが、重複排除エンジンはVTL 自体に統合さ
れていません。そのため、仮想ライブラリと重複排除エンジンの間でデータが行き来するので、効率が非常に低くな
ります。
23
HP 仮想ライブラリ製品に適合する重複排除テクノロジ
HP は、小企業と支店向けの 2.25TB ユーザ単位のエントリレベル D2D2500 から、ハイエンドの大企業データセンタ
のお客様向けの容量が 1PB 以上の VLS12000 EVA Gatewayまで、重複排除機能を備えたさまざまなディスクベース
のバックアップ製品を取り揃えています。これらの製品は、さまざまな HP の物理テープオートローダやライブラリと
同じ動作をします。
図'/$ >Fの重複排除のあるディスクベースのバックアップ・ポートフォリオ
>FIjehW][Mehai
重複排除のあるDisk to diskおよび仮想ライブラリ・ポートフォリオ
動的重複排除（:odWc_Y:[Zkfb_YWj_ed）
VLS6000ファミリ
ハッシュベースの分断化
VLS 12000
EVA Gateway
大容量、高性能の
容量
マルチノードシステム
高可用性、拡張可能
D2D2500
大企業のデータセンタ
D2D4000
大きい<9I7D
拡張可能、管理可能、
高信頼性アプライアンス
管理可能、高信頼性
管理可能、高信頼性
大中規模のデータセンタ
中規模企業または
中規模企業または
大中規模の<9I7D
リモート支店の?J
（_I9I?）
小規模データセンタの?J
加速的重複排除（7YY[b[hWj[Z:[Zkfb_YWj_ed）
_I9I?および<9
オブジェクトレベルの差分
エントリレベル
ミッドレンジ
エンタープライズ
HP StorageWorks D2D2500 および D2D4000 Backup System は、HP 動的重複排除をサポートしています。サイズは
2.25TB から7.5TB、支店または小企業のお客様が対象です。D2D2500 は、iSCSIインタフェースを搭載し、支店の実
装コストを低減し、D2D4000 ではiSCSIまたは4Gb FCを選択できます。
HP StorageWorks Virtual Library System は、すべて、VLS 6000 および VLS 12000 EVA Gateway で 4.4TB から1PB
のユーザ容量を提供する4Gb SAN 接続デバイスです。VLS6000 および 12000 モデルでは、ハードウェアによる圧
縮を使用して、大容量を実現できます。VLS12000 は、マルチノード・アーキテクチャを採用しているので、パフォー
マンスを線形に拡張できます。これらのデバイスは、8 つのノードを搭載し、2：1 のデータ圧縮で最高 4800MB/ 秒
のスループットを維持できます（SAN ホストが、このデータ速度を提供できる場合）。HP Virtual Library System は、
HP 加速的重複排除テクノロジを配備します。
24
まとめ
データ重複排除テクノロジは、将来のデータ保護およびディザスタリカバリ・ソリューションを変革する、近年で最も
重要なストレージ強化の 1 つです。重複排除は、一定量のストレージにより多くのデータを保存する機能を提供し、
低帯域幅リンクを使用する複製が可能になり、費用対効果が向上します。
HP は、お客様の多様なニーズ対応するために2 つの補完的な重複排除テクノロジを提供しています。
• 以下の要件を持つハイエンドの企業のお客様向けの加速的重複排除（オブジェクトレベルの差分を使用）
− 可能な最高速のバックアップのパフォーマンス
− 最高速のリストア
− パフォーマンスと容量の点で最も拡張性が高いソリューション
− マルチノードの低帯域幅の複製
− 最高の重複排除率
− 広範な複製モデル
• 以下の要件を持つ中規模の組織と支店向けの動的重複排除（ハッシュベースの分断化を使用）
− より低いコスト、より少量のメモリ
− Lights-Out 操作と統合された重複排除アプライアンス
− バックアップ・アプリケーションやデータタイプに依存しない最大の柔軟性
− 広範な複製モデル
本書では、HP の重複排除テクノロジの動作、各アプローチの長所と短所、特定のタイプを選択する方法、および HP
がサポートする予定の低帯域幅の複製モデルについて説明してきました。
HP Virtual Library System（VLS）には、大規模のマルチノードシステム用に拡張し、エンタープライズ・クラスのお客
様に高性能の重複排除を提供する加速的重複排除テクノロジが組み込まれています。
HP の D2D（Disk to Disk）Backup System は、競合他社より低価格の動的重複排除・テクノロジを使用しています。HP
特許の組み合わせにより、類似するバックアップストリームで生成される新しいハッシュ値が最小に抑えられ、最適の
RAM 使用量（RAMフットプリント）が可能です。重複排除を内蔵するHP D2D Backup System は、重複排除デバイス
に新しい価格を提案します。
25
付録 A − 用語集
ソースベースの重複排除
ストレージネットワーク経由の送信の前に、ホストでデータの重複を除去する方式。一般に、ベンダ独自方式になる
傾向があります。
ターゲットベースの重複排除
仮想テープライブラリのようなターゲットデバイスでデータの重複を除去する方式。ターゲットデバイスを使用する
すべてのホストで使用できます。
ハッシュ法
これは、ある種類のデータをデータのデジタル「フィンガープリント」として使用できる（比較的）小さい値に変換す
る再現可能な方法です。
チャンク
これは、データストリームをセグメント（チャンク）に分割し、各チャンクに対してハッシュアルゴリズムを実行する方
法です。
SHA-1
Secure hashing algorithm 1（安全なハッシュアルゴリズム1）。たとえば、SHA-1 を使用すると、4K のデータチャンク
を20 バイトのハッシュ値で一意に表現できます。
オブジェクトレベルの差分
論理形式レベルまでデータ処理の詳細な知識を持つプロセスを記述する一般的な IT の説明です。オブジェクトレベ
ルの差分による重複排除とは、重複排除プロセスが、バックアップ・アプリケーション形式、バックアップされるファイ
ルタイプ（たとえば、Windowsファイルシステム、Exchangeファイル、および SQLファイル）の詳細な知識を持って
いることを意味します。この詳細な知識により、バイトレベルのファイル比較を実行して、重複データを削除すること
ができます。
Box-to-Box
ソースからターゲットへの片方向の複製。
Active-Active
サイトA のソースデバイスからサイトB のターゲットデバイスへの複製、およびサイトB のソースデバイスからサイト
A のターゲットデバイスへの複製。
多対 1
複数のソースから単一のターゲットデバイスへの複製。
重複排除率
（いくつかの他のバックアップを行った後での）バックアップに必要なストレージ量の減少率。ベンダにより、重複排
除率は10：1 ∼ 300：1 の範囲です。重複排除率は、以下に強く依存します。
• データの変更率（たとえば、ファイルの 10% のデータの 10%）
• バックアップの保持期間
• 重複排除テクノロジの実装の効率
スペースの再利用
すべての重複排除デバイスで、重複データが使用しているスペースを解放し、「空きプール」に返すための時間が
必要です。これには非常に時間がかかることがあるため、オフピーク時間帯に実行される傾向があります。
後処理
重複排除プロセスによるバックアップの遅延やバックアップ期間の増加を防止するために、バックアップが完了した後
26
で重複排除を実行すること。
インライン
バックアップが実際に行われているときに重複排除プロセスをリアルタイムで実行すること。実装によっては、バック
アッププロセスの速度が下がる場合があります。
マルチスレッド
HP のオブジェクトレベルの差分では、実行を高速化するために、比較プロセスとスペース再利用プロセスが複数の
パスで同時に実行されます。
マルチノード
HP VLS12000製品は、非常に高いレベルのパフォーマンスを提供するための拡張性を備えています。最大8つのノー
ドを並列に実行することができるので、2：1 の圧縮率で最高 4800MB/ 秒のスループットが実現されます。このマル
チノード・アーキテクチャは、最大の処理能力を重複排除プロセスに適用できるため、HP の加速的重複排除テクノロ
ジの基礎になっています。
付録 B − 重複排除テクノロジと他のデータ削減テクノロジの比較
テクノロジの説明
長所
重複排除 − すでに保存されてい 2 倍の利点
る既存のデータブロックを参照し、
新しい一意のデータだけを保存すスペース節減は、10：1 ∼ 100：1
ることで、効率的にデータを保存の範囲
する高度な方法。
さらに、低帯域幅の複製の利点
短所
備考
効率的に実装しないと、バックアッ
プ速度が下がる場合があります。
重複排除は、近年登場しているテ
クノロジの中で、最も斬新なディス
クストレージ削減テクノロジです。
ハッシュベースのテクノロジは、数
百 TBまで拡張できない場合があり
ます。
実装は、ベンダごとに異なります。
ベンチマーキングを強くお勧めし
ます。
オブジェクトレベルの差分テクノロ
ジは、複数の形式に対応する必要
があり、設計に時間がかかります。
シングルインスタンス化 − ファイ
ルレベルの重複排除
アレイベースの「スナップショッ
ト」は、ディスクLUN 上の変更され
たブロックを取得します。
Microsoft ファイルシステムの一環
として、また Netappファイラのファ
イルシステムの機能として使用で
きます。システムベースのスペー
ス節減アプローチ
主に「イメージリカバリ」を使用す
る整合性のある状態への高速ロー
ルバックに使用され、ストレージ効
率をあまり考慮していません。
2 つのファイルが同一の場合、ファ
イル内の冗長が除去されません。
使用の制限
たとえば、PST ファイルにファイル
を追加する、またはプレゼンテー
ションにスライドを追加するなど。
変更されたブロックの冗長データ
を除去しません。
実績があります。一般に、既知の
時点までの高速復旧に使用され
ます。
ファイルシステムが行う任意の変
更を取得します。例は、実際のデー
タとディスク上の削除スペース／
空きスペースを区別しません。
インクリメンタル永久バックアッ
プ − ただ 1 つのフルバックアップ
と多くのインクリメントから完全な
リストアイメージを再構築します。
頻繁なフルバックアップの必要が
最小限に抑えられるため、バック
アップ期間が短くなります。
時間節減に重点が置かれており、一般に、データベースのバックアッ
スペース節減があまり考慮されてプではなく、ファイルシステムの
いません。
バックアップでのみ動作します。
圧縮 − ソフトウェアまたはハード
ウェア
ハードウェアの場合は高速、ソフト
ウェアの場合は低速です。実績が
あり、よく理解されています。
一般に、最大スペース節減は 2：1
です。
重複排除管理に加えて使用するこ
とができます。
27
詳細
www.hp.com/go/tape（英語）
www.hp.com/go/D2D（英語）
www.hp.com/go/VLS（英語）
www.hp.com/go/deduplication（英語）
HP StorageWorks のお客様成功事例
（HP StorageWorks customer success stories（英語））
本カタログは、環境に配慮した用紙と
植物性大豆油インキを使用しています。
記載されている会社名および商品名は、各社の商標または登録商標です。
記載事項は(&&.年,月現在のものです。
本カタログに記載された内容は、予告なく変更されることがあります。
9efoh_]^j(&&.>[mb[jj#FWYaWhZ:[l[befc[dj9ecfWdo"B$F$
日本ヒューレット・パッカード株式会社
〒'&(#&&-, 東京都千代田区五番町-番地
@IJ&.*/.#&'