...

Tips

by user

on
Category: Documents
10

views

Report

Comments

Description

Transcript

Tips
�������
テキスト ������
サーバ運用と問題解決
第 6 章/リカバリ
section
1
フォールトトレランス
Server+ Vol.2
システムを停止させないで継続、復旧させるための仕組み、それがフォールトトレランス(耐障害性)で
す。サーバのディスクアレイ制御で使われる RAID 機能は、まさにそのための技術といえます。
RAID 機能を実装した NOS もありますが、ここではハードウェアベンダが提供する RAID 制御により、
障害復旧の場面でフォールトトレランス機能がいかに実現されるかを説明します。
また、その他のフォールトトレランス技術もあわせて説明します。
RAIDシステムによるリカバリ
RAID 機能(レベル 0 を除く)により、ディスク障害からデータを保護し、またシステム
を停止することなく障害復旧させることが可能になります。つまり、RAID を使用して
いれば、ユーザに影響を与えずに済むということになります。次の表に、RAID レベル
と特徴について示します。
レベル
方式
特徴
ストライピング
データ再現機能がないため、データ復旧はできない。
RAID1
ミラーリング
アレイを構成するハードディスクを 2 グループに分け、同一
のデータをそれぞれのグループに書き込む。読み出しは、
いずれか一方から行う。万一どちらかのグループのハード
ディスクが故障しても、もう一方の正常なハードディスクか
らデータを読み出すことが可能。実際のディスク量の半分し
か使えなくなるのが欠点。小さいデータのランダム書き込
みが多いアプリケーションに適している。
RAID3
データ用ディスクとパリティ用ディスクの組み合わせで構成
され、もしデータ用ディスクの 1 台が故障しても残りの正常
ストライピング(バイト)と
なディスクとパリティ用ディスクから得られる情報からデー
パリティドライブ(固定)
タを再生することが可能。主として大量のデータを高速に
処理する必要性のある分野で有効。
RAID0
RAID3 が常にすべてのディスクにアクセスするのに対して、
RAID4 では必要とされるディスクのみにアクセスする。これ
RAID4
RAID5
ストライピング ( ブロック) により、読み込みの速さはかなり速くなる。書き込みについ
とパリティドライブ(固定) ては書き込み用のディスクとパリティ用ディスクの両方にア
クセスしてパリティを計算するため RAID3 より処理時間が長
くなる。
現在市場に出ている製品では最も一般的な方法。RAID5 で
ストライピング(ブロック)
は、パリティが分散され、すべてのハードディスクに分散して
とパリティドライブ(分散)
記憶されるため、RAID4 の欠点を解消できる。
RAID の特徴
90
1 /フォールトトレランス
RAID1のディスク障害の復旧
ミラーリングでは、単純に同じデータを 2 つのディスクに書き出します。そこで、もし
ミラーリングを行っているディスクの片方に障害が発生した場合、ディスクの書き出
す量が半分になるので一時的にパフォーマンスはよくなります。
壊れたディスクを交換したら、再度ミラーリングを行う必要があります。再ミラーリン
グには大抵かなりの時間がかかり、完了するまでの間はデータは保証されません。
RAID5 のディスク障害の復旧
RAID5 でディスクに障害が発生した場合、残りのディスクとパリティデータから障害
が発生したディスク上のデータを復元することができます。ただし、パリティデータ
が分散しているためにその再計算が発生し、読み込みの速度は遅くなります。
壊れたディスクを新しいものに交換するまでの間に、RAID コントローラはデータを
復元し続け、書き出しについては一時的に別のディスクに行い、復元が完了した時点
で新しいディスクにコピーします。
RAID の詳細に関しては 3 章を参照してください。
スペアの準備
フォールトトレランスに備えて RAID を構築したものの、動作している機器が、いつ
故障してしまうか分かりません。また、故障が発生した場合は、早急に故障している
機器を新しいものと交換する必要があります。
機器の故障は、いつ起こるのか予想がつかないため、人間が 24 時間いつでもサポー
トできるようにしておくには限界があります。たとえば、いくらサポート要員を用意し
ておいても、復旧に手間取り、作業に多大な時間がかかってしまっては、何の意味も
なくなってしまいます。
このような時のために、故障する可能性がある機器や部品などをスペアとして準備
し、自動化できるところは検討し、できるだけ速やかに復旧できるようにしておくこと
が望まれます。
91
第 6 章/リカバリ
ホットスペア
ホットスペアドライブを設定すると、障害が発生した場合に故障したディスク上の
データがスペアドライブ上に復元され、自動的に切り替わって使用されるようになり
ます。そして、障害が発生したディスクを交換すると、そのディスクが次のホットスペ
アドライブになります。
ホットスワップ
ホットスワップとは、システム稼働中、つまり電源の入った状態で周辺装置や記憶デ
バイスを抜き差しすることが可能である機能を指します。このようにすることで、
ユー
ザに対するサービスを中断させずにシステムの修理や機能向上を図ることができま
す。たとえば RAID システムは、ある程度の電源の揺れやバスの中断に耐えることが
できるようになっているため、障害時には新しいディスクに交換して、消失したデータ
を再構築することができるようになっています。
ホットプラグ
ホットプラグは、
電源の入った状態で機器などを取り付けることができます。また、
ホッ
トスワップと同じ意味で使われる場合もあります。
ウォームスワップ
ウォームスワップは、交換の前に一度システムをサスペンドモード(省電力モード)に
し、機器の追加・交換が行える方法です。
�����
ホットスペアやホットスワップの違いを確認しておきます。
92
1 /フォールトトレランス
アダプタチーミング(Adapter Teaming)
NIC の故障や異常は、サーバ機能の停止を意味します。多くのサーバでは NIC を 1
つだけしか装着していませんが、そのような場合はその NIC が故障するとサーバは
ネットワークから切り離されてしまいます。同じようにケーブルやハブの異常によっ
ても、サーバは実質的に機能しなくなります。つまり、ネットワークサーバにはフォー
ルトトレランス(耐故障性)が求められます。こうしたトラブルに対処するため、サー
バは複数の NIC を備え、より広い帯域を備えている必要があります。複数の NIC を
1 つのチームとして 1 つのアドレスを使用できるようにすることを、アダプタチーミン
グ(Adapter Teaming あるいは Adaptive Teaming)と呼びます。これによって、1
つの NIC が故障したり異常が生じても、残りの NIC で動作は保証されます。
100Mbps NIC
合計400Mbpsの
帯域幅
サーバ
100Mbps NIC
スイッチ
100Mbps NIC
100Mbps NIC
スイッチ
アダプタチーミング
アダプタフォールトトレランス
サーバの NIC のフォールトトレランスを高めるため、通常は複数の NIC を装着し、1
つの NIC が破損しても別の NIC でネットワーク接続が確保されるようにします。この
ことをアダプタフォールトトレランス(Adapter Fault Tolerance あるいは Adaptive
Fault Tolerance)と呼びます。単に AFT と略することもあります。
この場合、NIC は同一製品でなくてもかまわず、たとえばギガビットイーサネット用
NIC と 100Mbps 用 NIC の組合せでも問題はありません。
このようなフォールトトレランス設定を行う場合は、どの NIC も同一のアドレスを割り
当てるようにします。
93
第 6 章/リカバリ
アダプタロードバランス
複数枚の NIC を 1 つのチームとして構成することで、トラフィックが集中しないよ
うに自動的に負荷を分散させる機能があると共に、一方の回線で障害が発生した
場合でも他方を利用して通信を確保できます。このことをアダプタロードバランス
(Adapter Load Balance)といい、単に ALB と省略することもあります。また ALB
によって、帯域幅が向上します。たとえば 4 つの 100Mbps 用 NIC を 1 つのチーム
とした場合、帯域幅は 400Mbps になります。また、4 つのギガビットイーサネット用
NIC を 1 つのチームとすれば、帯域幅は 4Gbps になります。
このとき、受信はプライマリのアダプタだけが行うことに注意してください。ただし、
プライマリアダプタのリンクがダウンした場合にはセカンダリアダプタが処理を引き
継ぎます。たとえば 2 つの 100Mbps アダプタでチーミングしている場合、送信用の
帯域は 200Mbps となり、すべてのアダプタから送信が行われますが、受信用の帯域
は 100Mbps のままで、プライマリアダプタだけが行います。
クラスタリング
クラスタリングとは、システムに障害が発生してもシステム全体が停止しないように
複数のサーバを 1 台のサーバのように扱うような構成をいいます。
サーバ環境において、より高い信頼性を得るために使用される方法の 1 つです。
一般的には複数のサーバをまとめ、1 台のサーバとして振る舞うように構成します。
クラスタリンググループの中の 1 台が故障で停止したとしても、他のサーバがすぐに
処理を引き継ぐため、外からは問題が発生してもわかりません。
����
個々のサーバはノードと呼ばれることがあります。
94
1 /フォールトトレランス
もっとも単純な構成は、サーバ 2 台に共有ディスクを接続し、ハートビート(Heart
Beat)用の回線を接続した構成になります。
LAN
メインサーバ
待機サーバ
共有ディスク
ハートビート用LAN
(クロスケーブルを使用する場合もあります)
クラスタリング
これは主に処理を行っているサーバと障害用の待機サーバを SCSI の外部ディスクに
それぞれ接続してあります。双方のサーバは通常ハートビートを交換していますが、こ
れがとぎれると障害が発生したと見なされ、待機用のサーバが処理を引き継ぎます。
データは外部ディスク上にあるため、待機用サーバが起動しても問題なくデータ処
理を継続することができます。
95
第 6 章/リカバリ
section
2
バックアップとリストア
Server+ Vol.2
バックアップの目的はデータ損失の防止です。天災、人災を問わず、データ損失のようなリスクはコン
ピュータシステムを利用している限り、回避することができません。データ損失によるダメージは、少
ない場合もあれば非常に高いコストがかかる場合もあります。そこで、管理者にとって、バックアップは
もっとも重要な責務の 1 つといえるでしょう。データのバックアップは適切な機材を用い、対象となる
データの調査を実施して、効率的なスケジューリングによって行います。
バックアップ計画
バックアップは、いわば保険のようなものです。そこで、何か障害がおきた場合に、損
害を最小限に押さえ、
できるだけ早く復旧させることが第一の目的になります。また、
大規模な被害だけを考えるだけでなく、ユーザの誤りなどでファイルを 1 つだけ削除
してしまったようなケースにも対応できる柔軟な計画を立てる必要があります。バッ
クアップの計画を立てる際には、次のような項目を検討します。
バックアップが必要なファイルは何か
基本的にはすべてのファイルですが、たとえば、CD-ROM で配布されている OS のシ
ステムファイルなどは、バックアップする必要はありません。
バックアップの時間や頻度をどうするか
バックアップ実行のタイミングや頻度を決定するために、ファイルの更新頻度を調べ
ます。頻繁に更新されるファイルはバックアップの頻度も高くしなければなりません
が、同じサーバ上のほとんど変更のないファイルは、それほど頻繁にバックアップしな
くてもよいでしょう。決まった時間や曜日に大規模な更新が発生するなどの特徴の
ある業務の場合には、更新の後に必ずバックアップを取る必要があります。
また、ソフトウェアやハードウェアに更新があった場合には、必ずフルバックアップを
取らなければなりません。
バックアップの時間は、通常はユーザにあまり影響しない時間帯を選びます。
96
2 /バックアップとリストア
バックアップはどのように管理するのか
バックアップを取ったメディアをどこに、いつまで保管するのか、どのように文書化して
おくのかは非常に重要です。特に、フルバックアップは 2 セットとっておき、そのうちの
1 セットを必ず建物外の離れた場所に保管して、万一に備えておく必要があります。
バックアップ機器の導入
RAID システムなどを構築した場合、ハードウェアによる障害からデータを守ることが
できますが、オペレーションミスなどによる障害の場合、ハードウェア対策だけでは不
十分です。このような人為的ミスなどによる障害に備えてバックアップを行っておき、
いつでもデータを修復可能な状態にしておく必要があります。
バックアップ機器の導入においては、次のことが基準となります。
●何日前のデータに戻す必要があるのか。
●システム復旧に許されるシステムダウンの時間はどれぐらいあるのか。
●バックアップするデータの容量はどのくらいか。
●バックアップに費やすことのできる時間はどれぐらいあるのか。
これらを検討し、容量と転送速度を考慮した上で、必要な機器のスペックを決定します。
����
ハードウェア圧縮率の低いファイル形式で保存されているデー
タの存在を考慮して、容量算出時には非圧縮時の値でメディア
を選定します。
バックアップ機器として一般的なのはテープドライブになります。以前はテープの走
行方式によってテープメディアの耐久性に違いがあると考えられていました。しかし
現在では技術が進んだことによって考慮する必要はほとんどありません。
97
第 6 章/リカバリ
テープの走行方式
テープの走行方式は 2 種類あり、それぞれ特徴があります。
へリカルスキャン方式
へリカルスキャン(Helical Scan)方式の機構は、テープが回転ヘッドに斜めに巻き付
いて走行し、テープの記録パスはテープ長方向に対してノの字を書くように斜めに書
き込まれます。ヘリカルスキャン方式の特徴は、高密度化が可能である反面、テープ
機構が複雑であり、テープに負担がかかりやすいことが欠点です。
へリカルスキャン方式
リニアスキャン方式
リニアスキャン方式あるいはリニア方式は、QIC、DLT、および 9 インチオープンリー
ルのテープなど、コンピュータデータの記録では一般に用いられる方式です。固定
されたヘッドに対して、テープが長手方向に直線に走行し、テープが往復走行する間
に磁気ヘッドが次のトラックに移動して記録と再生を行います。
リニアスキャン方式
98
Fly UP