...

ハードウェア ステータスの評価 CA Application Delivery Analysis Multi

by user

on
Category: Documents
7

views

Report

Comments

Transcript

ハードウェア ステータスの評価 CA Application Delivery Analysis Multi
ハードウェア ステータスの評
価
CA Application Delivery Analysis Multi-Port
Monitor
バージョン 10.1
このドキュメント(組み込みヘルプ システムおよび電子的に配布される資料を含む、以下「本ドキュメント」)は、
お客様への情報提供のみを目的としたもので、日本 CA 株式会社(以下「CA」)により随時、変更または撤回される
ことがあります。
CA の事前の書面による承諾を受けずに本ドキュメントの全部または一部を複写、譲渡、開示、変更、複本することは
できません。 本ドキュメントは、CA が知的財産権を有する機密情報です。ユーザは本ドキュメントを開示したり、
(i)本ドキュメントが関係する CA ソフトウェアの使用について CA とユーザとの間で別途締結される契約または (ii)
CA とユーザとの間で別途締結される機密保持契約により許可された目的以外に、本ドキュメントを使用することはで
きません。
上記にかかわらず、本ドキュメントで言及されている CA ソフトウェア製品のライセンスを受けたユーザは、社内で
ユーザおよび従業員が使用する場合に限り、当該ソフトウェアに関連する本ドキュメントのコピーを妥当な部数だけ
作成できます。ただし CA のすべての著作権表示およびその説明を当該複製に添付することを条件とします。
本ドキュメントを印刷するまたはコピーを作成する上記の権利は、当該ソフトウェアのライセンスが完全に有効と
なっている期間内に限定されます。 いかなる理由であれ、上記のライセンスが終了した場合には、お客様は本ドキュ
メントの全部または一部と、それらを複製したコピーのすべてを破棄したことを、CA に文書で証明する責任を負いま
す。
準拠法により認められる限り、CA は本ドキュメントを現状有姿のまま提供し、商品性、特定の使用目的に対する適合
性、他者の権利に対して侵害のないことについて、黙示の保証も含めいかなる保証もしません。 また、本ドキュメン
トの使用に起因して、逸失利益、投資損失、業務の中断、営業権の喪失、情報の喪失等、いかなる損害(直接損害か
間接損害かを問いません)が発生しても、CA はお客様または第三者に対し責任を負いません。CA がかかる損害の発
生の可能性について事前に明示に通告されていた場合も同様とします。
本ドキュメントで参照されているすべてのソフトウェア製品の使用には、該当するライセンス契約が適用され、当該
ライセンス契約はこの通知の条件によっていかなる変更も行われません。
本ドキュメントの制作者は CA です。
「制限された権利」のもとでの提供:アメリカ合衆国政府が使用、複製、開示する場合は、FAR Sections 12.212、52.227-14
及び 52.227-19(c)(1)及び(2)、ならびに DFARS Section252.227-7014(b)(3) または、これらの後継の条項に規定される該当
する制限に従うものとします。
Copyright © 2014 CA. All rights reserved. 本書に記載された全ての製品名、サービス名、商号およびロゴは各社のそれぞ
れの商標またはサービスマークです。
CA への連絡先
テクニカル サポートの詳細については、弊社テクニカル サポートの Web
サイト(http://www.ca.com/jp/support/)をご覧ください。
目次
第 1 章: ハードウェア ステータスの評価
7
概要.............................................................................................................................................................................. 9
ハードウェアの確認 ................................................................................................................................................ 10
アプライアンスのシャットダウンまたは再起動 ................................................................................................ 11
失敗ストライプの確認 ............................................................................................................................................ 13
電源オン時セルフ テスト(POST)の実行 ........................................................................................................... 16
RAID 低下状態の評価および復旧 ........................................................................................................................... 18
アレイの再構築 ................................................................................................................................................. 20
不明ドライブの検出 - CA6300 ......................................................................................................................... 22
不明ドライブの検出 - CA6000 ......................................................................................................................... 26
障害が発生したドライブの復旧 - CA6300 ..................................................................................................... 29
障害が発生したドライブの復旧 - CA6000 ..................................................................................................... 33
SCSI ディスク破損の評価および復旧 .................................................................................................................... 36
XFS ファイル システム破損の評価および復旧 ..................................................................................................... 38
XFS ファイル システム破損の修復 ................................................................................................................. 40
第 2 章: Vertica メトリック データベースの再作成
43
第 3 章: ベスト プラクティス
45
目次 5
第 1 章: ハードウェア ステータスの評価
このガイドには、CA Multi-Port Monitor CA6000 アプライアンス(レガシー
アプライアンス)、および CA MTP バージョン 10.1 で導入された CA6300 ア
プライアンスのハードウェア ステータスを評価するための手順が含まれ
ます。
アップグレード前には、常に CA Multi-Port Monitor アプライアンスのハー
ドウェア ステータスを評価してください。 ステータスが[低下]状態で
ある場合は、CA Multi-Port Monitor のアップグレードを推奨しません。
以下の図は、ハードウェア ステータスを評価するプロセスについて説明
しています。
第 1 章: ハードウェア ステータスの評価 7
概要
次の手順に従ってください:
1. アプライアンスを再起動します (P. 11)。
2. 失敗ストライプを確認します (P. 13)。
3. 電源オン時セルフ テストを実行します (P. 16)。
a. RAID 低下状態を評価および復旧します (P. 7)。
b. SCSI ディスクの破損を評価および復旧します (P. 36)。
c. XFS ファイル システムの破損を評価および復旧します (P. 38)。
4. ベスト プラクティスを実施します。 (P. 45)
8 CA Application Delivery Analysis Multi-Port Monitor
概要
概要
アップグレード前には、常に CA Multi-Port Monitor アプライアンスのハー
ドウェア ステータスを評価してください。 どちらかの RAID アレイのス
テータスが[低下]または[失敗]である場合、両方の RAID アレイのス
テータスが[最適]になるまで、CA Multi-Port Monitor をアップグレード
しないでください。
以下のインストール前にハードウェア ステータスを評価します。
■
前提条件インストール
■
Multi-Port Monitor 製品リリース
■
CentOS アップグレード
ハードウェア ステータスを正しく評価するには、アプライアンスを再起
動します。 システム BIOS は起動時にハードウェア スキャンを実行し、以
下のコンポーネントに関する問題がないかを確認します。
■
システム ボード
■
メモリ モジュール
■
RAID コントローラ
■
失敗または破損したドライブ
新しいアプライアンス CA6300 は、CA MTP バージョン 10.1 から使用可能
です。 このドキュメントでは、新しい CA6300 アプライアンスおよびレガ
シーの CA6000 アプライアンスのハードウェア ステータスを評価する方
法について説明します。
CA Multi-Port Monitor 用の CA6300 ハードウェアには、1 つの Adaptec® RAID
7805Q コントローラ、2 つの RAID アレイ、システムおよびデータが含まれ
ます。
CA Multi-Port Monitor 用の CA 6000 ハードウェアには、以下の 2 つの RAID
コントローラが含まれます。
■
Adaptec® 5405 - 4 ドライブ システム アレイ用(シャーシ上のドライブ
1 ~ 4)
■
Adaptec® 51245 - 12 ドライブ データ アレイ用(シャーシ上のドライブ
5 ~ 16)
第 1 章: ハードウェア ステータスの評価 9
ハードウェアの確認
このドキュメントの目的は、これら 2 つの RAID アレイ(システムおよび
データ)を、永続的かつ回復不能なデータ損失が発生する前に復旧するた
めのサポートを提供することです。このようなデータ損失が発生すると、
その後のソフトウェア アップグレードや監視デバイスの機能全体に悪影
響が生じます。
詳細:
アプライアンスのシャットダウンまたは再起動 (P. 11)
ハードウェアの確認
レガシーの CA6000 MTP ハードウェア アプライアンス、または新しい
CA6300 MTP ハードウェア アプライアンスのどちらを使用しているかを判
断するには、コマンド プロンプトから lspci コマンドを実行します。
/sbin/lspci | grep Adaptec
2 つの RAID バス コントローラが表示される場合、アプライアンスは
CA6000 です。
1 つの RAID バス コントローラが表示される場合、アプライアンスは
CA6300 です。
10 CA Application Delivery Analysis Multi-Port Monitor
アプライアンスのシャットダウンまたは再起動
アプライアンスのシャットダウンまたは再起動
CA6000 および CA6300 のアプライアンスに該当
アプライアンスをシャットダウンまたは再起動する場合、常に Vertica メ
トリック データベースを先にシャットダウンします。 アプライアンスの
シャットダウンまたは再起動を以下の場所から行う場合:
Multi-Port Monitor Web インターフェース
1. Vertica メトリック データベースをシャットダウンします。
a. [環境管理]をクリックして[環境管理]ページを開きます。
b. [Database Status]をクリックして[Database Status]ページを開
きます。
c. Metrics データベースを停止するために Stop をクリックします。
2. アプライアンスをシャットダウンまたは再起動します。
a. [System Setup]をクリックして[System Setup]ページを開きま
す。
b. [Machine Settings]をクリックして[Machine Settings]ページを
開きます。
c. [System Shutdown/Restart]をクリックします。
d. 次のオプションをクリックします。
■
Shut down the computer このオプションは、アプライアンスの
電源を切る場合に選択します。再び電源を入れるには、アプラ
イアンスに物理的にアクセスできる必要があります。
■
Restart the computer このオプションは、アプライアンスの電源
を切ってから再起動する場合に選択します。 Vertica メトリッ
ク データベースは、アプライアンスの再起動時に自動的に起動
します。
コマンド ライン
以下のコマンドを実行します。
1. Vertica メトリック データベースを停止します。
sudo /opt/NetQoS/scripts/doVerticaCmd.sh --shutdown
2. アプライアンスをシャットダウンまたは再起動します。
アプライアンス をシャット ダウンするには、以下を実行します。
sudo /sbin/shutdown -h now
第 1 章: ハードウェア ステータスの評価 11
アプライアンスのシャットダウンまたは再起動
アプライアンスを再起動するには、以下を実行します。
sudo /sbin/shutdown –r now
12 CA Application Delivery Analysis Multi-Port Monitor
失敗ストライプの確認
失敗ストライプの確認
CA6000 および CA6300 のアプライアンスに該当
問題: アプライアンスの Adaptec RAID コントローラが、物理ドライブが
オフラインではないため、不正なストライプを含むアレイを[低下]ステー
タスと判断しません。 そのため、CA Multi-Port Monitor の Web インター
フェースの[システム ステータス]ページには、RAID アレイのステータ
スが[最適]と誤って表示され、失敗ストライプも示されません。
解決策: Adaptec Storage Manager のコマンド ライン ユーティリティであ
る arcconf を使用して、RAID コントローラのステータスを確認します。 ス
テータスが低下または失敗ストライプであるアレイが存在する場合、CA
Multi-Port Monitor をアップグレードする前に、そのアレイの復旧を試行し
てください。
警告: システム アレイ上に失敗ストライプが存在する状態で CA
Multi-Port Monitor をアップグレードすると、アレイ上のファイル システ
ムが広範囲に破損する恐れがあります。また、CentOS Linux オペレーティ
ング システムからのカーネル パニックにより、アプライアンスを開始で
きなくなる可能性があります。
アレイのステータスが失敗ストライプの場合、以下の状態を示しています。
■
RAID アレイでデータ破損がすでに発生しており、復旧不可能です。
■
RAID コントローラおよび不良ドライブの交換が必要な場合がありま
す。また、データ破損が広範囲にわたって生じているために CA
Multi-Port Monitor を正常動作にリストアできない可能性があります。
ただし、復旧を試行することはできます。復旧が成功するかどうかは、
データ破損の程度に依存します。
失敗ストライプの状態は、以下の状況で発生する可能性があります。
■
再構築中に 1 つ以上の物理ドライブでエラーが発生した。
■
アレイ内の複数のドライブで不良セクタが蓄積していき、最終的にス
トライプがデータの整合性を維持できなくなった。
■
不適切なシステム シャットダウンにより、アレイ内の複数のドライブ
が破損し、ストライプがデータの整合性を維持できなくなった。
第 1 章: ハードウェア ステータスの評価 13
失敗ストライプの確認
注: Adaptec からの情報では、既存アレイ内の失敗したストライプから
データを復旧することはできません。また、BIOS および arcconf ユーティ
リティから、失われたストライプについての情報を取得することはできま
せん。
監視デバイスの機能に対するこのデータ損失の影響度は、どのストライプ
が失われたかによって決まります。 失われたストライプが空のディスク
領域で、この手順により検証と再構築が成功した場合、監視デバイスは、
失敗ストライプが含まれていても正常に機能し続ける可能性があります。
ただし、失敗ストライプに重要なシステム ファイルやデータが含まれて
いた場合、監視デバイスの機能を復旧できない可能性があります。
Adaptec Storage Manager のコマンド ライン ユーティリティである arcconf
はサードパーティ ソフトウェアであり、個別にインストールする必要が
あります。 詳細については、「インストール ガイド」を参照してくださ
い。
arcconf ユーティリティをルート権限で実行するには、すべてのコマンド
の前に "sudo" を付けます。 コマンドのリストを参照するには、パラメー
タなしでユーティリティを実行します。 以下に例を示します。
sudo /usr/StorMan/arcconf
次の手順に従ってください:
1. arcconf ユーティリティを使用して GETCONFIG LD コマンドを実行し、
RAID コントローラの論理ドライブ ステータスを確認します。
sudo /usr/StorMan/arcconf GETCONFIG 1 LD
以下の例では、システム アレイに失敗ストライプがあります。 どの
ディスクがストライプの失敗を引き起こしたかは示されないことに注
意してください。
14 CA Application Delivery Analysis Multi-Port Monitor
失敗ストライプの確認
2. RAID コントローラのステータスが「失敗ストライプ」である場合、以
下の手順に従ってアレイを復旧します。
a. アプライアンスを再起動します。
b. RAID Controller Configuration ユーティリティを起動します。
c. [Disk Utilities]オプションを選択します。
Disk Utilities を使用してディスク メディア上の不良セクタを検出
し、復旧を試行します。
d. アレイの一部としてリスト表示された各ドライブ上で Verify Disk
Media を実行します。
各ドライブの検証には 1 時間以上かかる場合があります。
検証が完了すると、アレイを正常に再構築することが可能になる場合
があります。
3. アプライアンスが起動し、RAID コントローラが自身の再構築をまだ開
始していない場合は、以下の arcconf コマンドを実行してアレイの再構
築を試行します。 再構築の完了まで数時間かかることがありますので、
ご注意ください。
sudo /usr/StorMan/arcconf task start <controller_num> logicaldrive 0 verify_fix
詳細:
アプライアンスのシャットダウンまたは再起動 (P. 11)
障害が発生したドライブの復旧 - CA6300 (P. 29)
第 1 章: ハードウェア ステータスの評価 15
電源オン時セルフ テスト(POST)の実行
電源オン時セルフ テスト(POST)の実行
CA6000 および CA6300 のアプライアンスに該当
電源オン時セルフ テスト(Power On Self Test; POST)を実行して、ハード
ウェア ステータスを評価します。 端末画面に表示される診断情報を使用
すると、ハードウェア問題の識別に役立ちます。 診断情報は、
/var/log/messages にあるシステム ログにも記録されますが、元となる完全
な診断情報は端末画面に表示されます。
CA Multi-Port Monitor をアップグレードする前に、すべてのハードウェア
問題を解決してください。
この例では、CA6300 が表示されます。 CA6000 は、2 つの RAID コントロー
ラのそれぞれに対して同様の結果をレポートします。 この例では、1 つの
CA6300 RAID コントローラのステータスは「最適」であるため、失敗スト
ライプが存在しない限り、それ以上のアクションは不要です。
16 CA Application Delivery Analysis Multi-Port Monitor
電源オン時セルフ テスト(POST)の実行
アプライアンス再起動時の動作は以下のとおりです。
■
各 RAID アレイ コントローラに対して BIOS スキャンが実行され、現在
の状態が端末画面にレポートされます。
■
ファイル システムまたは物理ディスクの破損が、RAID コントローラで
検出されていないシステムまたはデータ アレイで発生した場合、SCSI
の "sense" または "hang" エラーが端末に表示される可能性があります。
■
XFS ファイル システムの破損が発生した場合、カーネル パニックの前
に XFS コード コール スタックが端末に表示されます。
CA6000 または CA6300 アプライアンスを再起動するには、以下の手順に従
います。
1. アプライアンスを再起動する前には、常に Vertica メトリック データ
ベースを停止します。
a. Vertica メトリック データベースを停止します。
sudo /opt/NetQoS/scripts/doVerticaCmd.sh --shutdown
2. アプライアンスを再起動します。
sudo /sbin/shutdown –r now
CA6000 の場合、システムおよびデータの RAID コントローラの
BIOS スキャンのステータスが端末画面に表示されます。
CA6300 の場合、単一の RAID コントローラの BIOS スキャンのス
テータスが端末画面に表示されます。
3. 端末画面上の情報を使用して問題を特定します。 詳細については、以
下のセクションを参照してください。
詳細:
アプライアンスのシャットダウンまたは再起動 (P. 11)
第 1 章: ハードウェア ステータスの評価 17
RAID 低下状態の評価および復旧
RAID 低下状態の評価および復旧
CA6000 および CA6300 のアプライアンスに該当
問題: アプライアンスが起動すると、RAID コントローラの BIOS スキャン
により、アレイが低下状態にあることを示す以下のようなメッセージが表
示されます。
Following Arrays have Missing or Rebuilding or Failed Members and are degraded:
解決策: データの損失を回避するために低下状態のアレイを復旧します。
アレイのステータスが[低下]の場合、BIOS により、設定を変更して失敗
または破損したドライブを論理削除し、アレイを再構築するようメッセー
ジが表示されます。
CA6000 の場合、アプライアンスが起動すると、システムおよびデータの
RAID コントローラが BIOS スキャンを実行します。BIOS スキャンが完了す
ると、端末画面に診断情報が表示されます。
CA6300 の場合、アプライアンスが起動すると、単一の RAID コントローラ
が BIOS スキャンを実行します。 BIOS スキャンが完了すると、端末画面に
診断情報が表示されます。
RAID アレイ ステータスが低下状態になるのは、単一のディスク ドライブ
またはセグメントが次のステータスの場合です。
■
使用不可
■
Missing (不明)
■
Failed (失敗)
■
Rebuilding (再構築中)
CA Multi-Port Monitor は、低下状態の RAID アレイが存在しても動作を続行
できます。 ただし、低下状態のアレイはできるだけ早く修復する必要が
あります。
■
CA6000 の場合、システムおよびデータのアレイは、冗長性ではなくパ
フォーマンスを確保するために設定される RAID 5 アレイです。低下状
態のアレイが別のセグメントを失うと、アレイは失敗状態となりデー
タの損失が発生します。
■
CA6300 の場合、システム アレイは RAID 1 です。 データ アレイは、冗
長性ではなくパフォーマンスに対して設定される RAID 6 です。低下状
態のアレイが別のセグメントを失うと、アレイは失敗状態となりデー
タの損失が発生します。
18 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
アレイのステータスが[失敗]の場合、オペレーティング システムお
よび CA Multi-Port Monitor ソフトウェアの再インストールについては
CA サポートまでお問い合わせください。
アレイが低下状態の間は、アレイのパフォーマンスが大きく低下する可能
性があります。 アレイの再構築中は以下の点に注意してください。
■
CA Multi-Port Monitor はトラフィックの監視を続行します
■
再構築の完了まで最大 12 時間かかる可能性があります
重要: アレイを再構築しても物理ドライブが運用状態にリストアされな
い場合は、できるだけ早くドライブを交換してください。 詳細について
は、CA サポートまでお問い合わせください。
詳細:
アプライアンスのシャットダウンまたは再起動 (P. 11)
SCSI ディスク破損の評価および復旧 (P. 36)
アレイの再構築 (P. 20)
第 1 章: ハードウェア ステータスの評価 19
RAID 低下状態の評価および復旧
アレイの再構築
CA6000 および CA6300 のアプライアンスに該当
アレイを再構築してステータスを[最適]にリストアします。このステー
タスでは、すべてのディスクが使用可能で、RAID コントローラによって検
出されています。
アレイの再構築に必要な予想時間: 6 ~ 12 時間
次の手順に従ってください:
1. アプライアンスを再起動します。
2. アレイが低下状態であることが端末画面に表示された場合は、以下の
いずれかの操作を選択します。
■
メッセージが表示されたら、30 秒以内に Enter キーを押して、コン
トローラによるアレイの再構築を開始します。
■
Ctrl + A キーを押して Adaptec RAID Configuration Utility にアクセス
します。 このユーティリティを終了すると、アプライアンスが再
起動して 30 秒プロンプト画面に戻ります。
30 秒以内に Enter キーを押さない場合、アプライアンスは低下状態で
動作を続行します。 この期間に必要な操作を実行できなかった場合、
アレイの再構築操作を実行するには、アプライアンスをもう一度再起
動します。
アレイを構成するすべてのドライブは、再構築中にドライブ ライトが
点灯します。 物理ドライブが使用可能でない場合、そのドライブは再
構築中にアレイから削除され、ドライブ ライトは消灯します。
20 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
3. アレイの再構築が完了した後の状態は以下のとおりです。
■
CA Multi-Port Monitor の Web インターフェースの[システム ステー
タス]ページで、[RAID]セクションのアレイ ステータスは「最
適」に戻っている必要があります。
■
ドライブ ライトは点灯しなくなります。
CA Multi-Port Monitor が SNMP トラップを送信するように設定されて
いる場合、アレイの再構築が完了すると SNMP トラップが送信されま
す。
4. RAID アレイ コントローラによって参照されているドライブを検証 (P.
22)します。 アレイ内に存在しなくなったドライブについては、個々
のドライブの復旧は検証プロセスの一部として試行されます。
5. これらの手順を繰り返して、復旧されたドライブでアレイを再構築し
ます。ドライブを復旧できない場合、CA サポートまでお問い合わせく
ださい。
CA6300 用の Adaptec RAID Configuration Utility の詳細については、「Adaptec
RAID Controller Installation and User's Guide」を参照してください。これは、
http://www.adaptec.com/en-us/support/raid/sas_raid/sas-7805q/ からダウン
ロードできます。
第 1 章: ハードウェア ステータスの評価 21
RAID 低下状態の評価および復旧
不明ドライブの検出 - CA6300
CA6300 アプライアンスに該当
アプライアンスを起動したときに、RAID コントローラがドライブを検出で
きない場合、BIOS は、アレイの設定変更を受け入れて、より尐ないドライ
ブで再構築を開始するようリクエストします。 不明ドライブの検出を試
行する前に、アレイを再構築することをお勧めします。
RAID Configuration Utility を使用して、RAID コントローラによって現在参照
されているドライブをリスト表示できます。
■
システム アレイには 2 つのドライブがあります
■
データ アレイには 16 のドライブがあります
ユーティリティがドライブを検出しない場合は、RAID Configuration Utility
を使用してアレイ内のドライブを再スキャンし、そのステータスを確認し
ます。 再スキャンによって RAID コントローラがドライブを検出できるよ
うになる可能性があります。 RAID コントローラによって現在参照されて
いるドライブを再スキャンして、物理ドライブが使用可能ではないことを
確認した場合は、できるだけ早くその物理ドライブを交換してください。
不明な点については、CA サポートにお問い合わせください。
注: BIOS ユーティリティでは、RAID コントローラによって検出されたドラ
イブがリスト表示されますが、[Failed]または[Rebuilding]など、論理
アレイに含まれる特定のドライブのステータスは表示されません。
次の手順に従ってください:
1. アプライアンスを再起動します。
2. 端末画面にアレイが「低下」状態であることが示された場合、30 秒以
内に Ctrl + A キーを押して RAID Configuration Utility メニューにアクセ
スします。
30 秒以内に Ctrl + A キーを押さない場合、アプライアンスは低下状態
で動作を続行します。 この期間に必要な操作を実行できなかった場合、
アプライアンスを再起動して Ctrl + A キーを押します。
3. [Logical Device Configuration]を選択します。
22 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
4. メイン メニューから[Manage Arrays]を選択します。
第 1 章: ハードウェア ステータスの評価 23
RAID 低下状態の評価および復旧
5. OS またはデータ アレイを選択し、Enter キーを押すとアレイのプロパ
ティが表示されます。
6. [Array Properties]にアレイ内の各ドライブがリスト表示されます。ド
ライブがリスト表示されない場合は、メイン メニューから[Rescan
Drives]を選択し、BIOS によるアレイ内のドライブの再スキャンを強
制実行してステータスを確認します。
24 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
7. 再スキャンによって、表示されていなかったドライブが正常に検出さ
れたら、新しく検出されたドライブを選択し、[Verify Disk Media]を
選択します。
8. 再スキャンで不明ドライブが検出されなかった場合、ドライブの交換
が必要な場合があります。不明な点については、CA サポートにお問い
合わせください。
第 1 章: ハードウェア ステータスの評価 25
RAID 低下状態の評価および復旧
不明ドライブの検出 - CA6000
CA6000 アプライアンスに該当
アプライアンスを起動したときに、RAID コントローラがドライブを検出で
きない場合、BIOS は、アレイの設定変更を受け入れて尐ないドライブで再
構築を開始するようリクエストします。 不明ドライブの検出を試行する
前に、アレイを再構築することをお勧めします。
Array Configuration Utility を使用して、以下の RAID コントローラによって
現在参照されているドライブをリスト表示します。
■
Adaptec 5405 上のシステム アレイには 4 台のドライブがあります
■
Adaptec 52415 上のデータ アレイには 12 台のドライブがあります
ユーティリティがドライブを検出しない場合は、Array Configuration Utility
を使用してアレイ内のドライブを再スキャンし、そのステータスを確認し
ます。 再スキャンによって RAID コントローラがドライブを検出できるよ
うになる可能性があります。 RAID コントローラによって現在参照されて
いるドライブを再スキャンして、物理ドライブが使用可能ではないことを
確認した場合は、できるだけ早くその物理ドライブを交換してください。
不明な点については、CA サポートにお問い合わせください。
注: BIOS ユーティリティでは、RAID コントローラによって検出されたドラ
イブがリスト表示されますが、論理アレイに含まれる特定のドライブのス
テータスは表示されません(「Failed」または「Rebuilding」など)。
以下の手順に従います。
1. アプライアンスを再起動します。
2. 端末画面にアレイが低下状態であることが表示された場合、30 秒以内
に Ctrl + A キーを押して[Utilities]メニューにアクセスします。
30 秒以内に Ctrl + A キーを押さない場合、アプライアンスは低下状態
で動作を続行します。 この期間に必要な操作を実行できなかった場合、
アプライアンスを再起動して Ctrl + A キーを押します。
3. BIOS スキャンの完了後、コントローラの[Utilities]メニューにアクセ
スするには、[#0](Adaptec 5405:システム アレイ)または[#1]
(Adaptec 51245:データ アレイ)を選択します。
26 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
4. [Array Configuration Utility]オプションを選択します。
第 1 章: ハードウェア ステータスの評価 27
RAID 低下状態の評価および復旧
5. メイン メニューから[Manage Arrays]を選択します。
[Array Properties]にアレイ内の各ドライブがリスト表示されます。ド
ライブがリスト表示されない場合は、メイン メニューから Rescan
Drives を選択し、BIOS によるアレイ内のドライブの再スキャンおよび
ステータスの確認を強制実行します。
再スキャンで不明ドライブが検出された場合:
a. Array Configuration Utility を終了します。
b. Disk Utilities を開きます。
c. 新しく検出されたドライブを選択し、[Verify Disk Media]を選択
します。
6. 再スキャンで不明ドライブが検出されなかった場合、ドライブの交換
が必要な場合があります。 不明な点については、CA サポートにお問
い合わせください。
28 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
障害が発生したドライブの復旧 - CA6300
CA6300 アプライアンスに該当
RAID Configuration Utility で Disk Utilities オプションを使用することにより、
物理ドライブを復旧し、ディスク メディアのエラーを確認して不良セク
タの復旧を試行します。 RAID アレイが以下のいずれかの状態になった場
合に、物理ドライブの復旧を試行します。
■
低下状態
■
ストライプ失敗
■
SCSI エラー(オペレーティング システムによってレポート)
障害が発生したドライブの復旧までの予想時間: 1 ドライブあたり 2 ~ 3
時間
ディスク復旧の試行後に、アレイを再構築します。 再構築に失敗する場
合は、CA サポートに連絡してディスク ドライブの交換を依頼してくださ
い。
重要: CA Multi-Port Monitor の Web インターフェースでは、[システム ス
テータス]ページの[RAID]セクションを使用して、失敗ディスクの論理
アレイ番号を検証します。物理ドライブの検証には最大 2 時間かかる場合
があります。
次の手順に従ってください:
1. アプライアンスを再起動します。
2. 30 秒以内に Ctrl + A キーを押して、RAID Configuration Utilities メニュー
にアクセスします。
この期間内に操作できなかった場合は、もう一度アプライアンスを再
起動して Ctrl + A キーを押します。
BIOS スキャンが完了した後、RAID Configuration Utility で[Disk Utilities]
オプションを選択します。
第 1 章: ハードウェア ステータスの評価 29
RAID 低下状態の評価および復旧
30 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
3. 復旧するディスクを選択し、Enter キーを押します。 以下のようにな
ります:
■
システム アレイ:
CN1 :Dev 00 はディスク 1 に対応します
CN1 :Dev 01 は ディスク 2 に対応します
■
データ アレイ:
Box00:Slot00 はディスク 0 に対応します
Box00:Slot01 はディスク 1 に対応します
Box00:Slot02 はディスク 2 に対応します
Box00:Slot03 はディスク 3 に対応します
Box00:Slot04 はディスク 4 に対応します
Box00:Slot05 はディスク 5 に対応します
Box00:Slot06 はディスク 6 に対応します
Box00:Slot07 はディスク 7 に対応します
Box00:Slot08 はディスク 8 に対応します
Box00:Slot09 はディスク 9 に対応します
Box00:Slot10 はディスク 10 に対応します
Box00:Slot11 はディスク 11 に対応します
Box00:Slot12 はディスク 12 に対応します
Box00:Slot13 はディスク 13 に対応します
Box00:Slot14 はディスク 14 に対応します
Box00:Slot15 はディスク 15 に対応します
データ アレイの場合、ディスク 0 ~ 15 は Multi-Port Monitor シャー
シの前面にあるドライブ 0 ~ 15 に対応します。
以下の例では、ハイライトされたディスクは、データ アレイ ディスク
1 に対応します。
第 1 章: ハードウェア ステータスの評価 31
RAID 低下状態の評価および復旧
4. [Verify Disk Media]を選択し、Enter キーを押します。
物理ドライブの検証と復旧には最大 2 時間かかる場合があります。
詳細:
アプライアンスのシャットダウンまたは再起動 (P. 11)
32 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
障害が発生したドライブの復旧 - CA6000
CA6000 アプライアンスに該当
ディスク メディアのエラーを検証して不良セクタの復旧を試行するには、
ドライブ ユーティリティを使用して物理ドライブを復旧します。 RAID ア
レイが以下のいずれかの状態になった場合に、物理ドライブの復旧を試行
します。
■
低下状態
■
ストライプ失敗
■
SCSI エラー(オペレーティング システムによってレポート)
障害が発生したドライブの復旧までの予想時間: 1 ドライブあたり 2 ~ 3
時間
ディスク復旧の試行後に、アレイを再構築します。 再構築に失敗する場
合は、CA サポートに連絡してディスク ドライブの交換を依頼してくださ
い。
重要: CA Multi-Port Monitor の Web インターフェースでは、[システム ス
テータス]ページの[RAID]セクションを使用して、失敗ディスクの論理
アレイ番号を検証します。物理ドライブの検証には最大 2 時間かかる場合
があります。
以下の手順に従います。
1. アプライアンスを再起動します。
2. 30 秒以内に Ctrl + A キーを押して、Utilities メニューにアクセスします。
この期間内に操作できなかった場合は、もう一度アプライアンスを再
起動して Ctrl + A キーを押します。
3. BIOS スキャンの完了後、コントローラの[Utilities]メニューにアクセ
スするには、[#0](Adaptec 5405)または[#1](Adaptec 51245)
を選択します。
第 1 章: ハードウェア ステータスの評価 33
RAID 低下状態の評価および復旧
4. [Disk Utilities]オプションを選択します。
5. 復旧するディスクを選択し、Enter キーを押します。 以下のようにな
ります:
■
システム アレイ:
CN0 :Dev 00 は ディスク 1 に対応します
CN0 :Dev 01 は ディスク 2 に対応します
CN0 :Dev 02 は ディスク 3 に対応します
CN0 :Dev 03 は ディスク 4 に対応します
システム アレイでは、ディスク 1 ~ 4 は Multi-Port Monitor シャー
シの前面にある同じドライブ番号に対応します。
■
データ アレイ:
CN0 :Dev 00 は ディスク 1 に対応します
CN0 :Dev 01 は ディスク 2 に対応します
CN0 :Dev 02 は ディスク 3 に対応します
CN0 :Dev 03 は ディスク 4 に対応します
CN1 :Dev 00 は ディスク 5 に対応します
CN1 :Dev 01 は ディスク 6 に対応します
CN1 :Dev 02 は ディスク 7 に対応します
CN1 :Dev 03 は ディスク 8 に対応します
CN2 :Dev 00 は ディスク 9 に対応します
CN2 :Dev 01 は ディスク 10 に対応します
CN2 :Dev 02 は ディスク 11 に対応します
CN2 :Dev 03 は ディスク 12 に対応します
データ アレイでは、ディスク 1 ~ 12 は Multi-Port Monitor シャーシ
の前面にあるドライブ 5 ~ 16 に対応します。
以下の例では、ハイライトされたディスクは、ディスク 8 に対応しま
す。
34 CA Application Delivery Analysis Multi-Port Monitor
RAID 低下状態の評価および復旧
6. [Verify Disk Media]を選択し、Enter キーを押します。
物理ドライブの検証と復旧には最大 2 時間かかる場合があります。
第 1 章: ハードウェア ステータスの評価 35
SCSI ディスク破損の評価および復旧
SCSI ディスク破損の評価および復旧
CA6000 および CA6300 のアプライアンスに該当
問題: アプライアンスの再起動時に、以下のような SCSI の "sense" または
"hang" エラーが表示されます。
Feb
Feb
Feb
Feb
Feb
Feb
Feb
sdb1
Feb
Feb
Feb
Feb
Feb
3
3
3
3
3
3
3
04:59:20
04:59:20
04:59:20
04:59:20
04:59:20
04:59:20
04:59:20
smkong3
smkong3
smkong3
smkong3
smkong3
smkong3
smkong3
kernel:
kernel:
kernel:
kernel:
kernel:
kernel:
kernel:
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current: sense key: Hardware Error
Add. Sense: Internal target failure
3
3
3
3
3
05:00:21
05:00:21
05:00:21
05:01:21
05:01:41
smkong3
smkong3
smkong3
smkong3
smkong3
kernel: aacraid: Host
last message repeated
kernel: aacraid: Host
kernel: aacraid: SCSI
kernel: aacraid: Host
Info fld=0x0
end_request: I/O error, dev sdb, sector 34
Device sdb1, XFS metadata write error block 0x0 in
adapter abort request (1,0,0,0)
255 times
adapter reset request. SCSI hang ?
bus appears hung
adapter abort request (1,0,0,0)
これらのエラーは、論理または物理データの破損が発生しており、RAID コ
ントローラによって破損が検出および修正されなかったことを示してい
ます。
解決策: SCSI エラーは通常、物理ドライブ上で不良セクタが累積して、シ
ステムまたはデータ アレイ上でデータ破損が発生したことを示します。
アレイ ステータスが[最適]であっても、不良セクタを修復するか、ま
たは不良セクタの使用を回避するために、アレイの修復を試行してくださ
い。
アプライアンスの起動中に端末画面を確認して、SCSI の "sense" または
"hang" エラーを識別します。 これらのエラーが断続的に発生しても、ア
プライアンスの通常動作中に明らかな障害が生じないこともあれば、断続
的な Linux カーネル パニックを引き起こすこともあります。ただし、Linux
システム ファイルが破損した場合、繰り返し同じカーネル パニックが発
生して、アプライアンスが起動できなくなる可能性があります。
復旧は、以下の 2 段階で試行することができます。
1. アレイを再構築します (P. 20)。
2. 再構築が成功しないか、SCSI エラーが解決されない場合は、失敗スト
ライプからの復旧 (P. 13)を試行します。
36 CA Application Delivery Analysis Multi-Port Monitor
SCSI ディスク破損の評価および復旧
復旧処理の一環として、Disk Utilities を使用してアレイ内のすべてのド
ライブのディスク メディアを検証し、その後にアレイを再構築してく
ださい。 各ドライブの検証には 1 時間以上かかる場合があります。
両方の手順を実行しても SCSI エラーまたはハングアップが解決されない
場合、アプライアンスを運用状態に復旧するには、CentOS Linux および CA
Multi-Port Monitor ソフトウェアの再インストール、またはアプライアンス
の交換が必要になる場合があります。 不明な点については、CA サポート
にお問い合わせください。
第 1 章: ハードウェア ステータスの評価 37
XFS ファイル システム破損の評価および復旧
XFS ファイル システム破損の評価および復旧
CA6000 および CA6300 のアプライアンスに該当
問題: アプライアンスの再起動時、カーネル パニックの前に以下のよう
な XFS コード コール スタックが表示されます。
RIP [<ffffffff883cf607>] :xfs:xfs_error_report+0xf/0x58
RSP <ffff81028c817c28>
CR2: 0000000000000118
<0> Kernel panic – not syncing – Fatal exception
解決策: 破損した XFS ファイル システムをできるだけ早く復旧すること
をお勧めします。 通常、XFS ファイル システムが破損すると、上記に似た
Linux カーネル パニックおよびシステム停止が発生します。
CA Multi-Port Monitor アプライアンスは、以下の 2 つのパーティションで
高パフォーマンスの Linux XFS ファイル システムを使用しています。
■
CA6300 の場合:
/nqxfs 上にマウントされた /dev/sdb1 は Vertica メトリック データベー
スをホストします。
/data 上にマウントされた /dev/sdb2 は CA Multi-Port Monitor パケット
キャプチャ ストレージをホストします。
■
CA6000 の場合:
/nqxfs 上にマウントされた /dev/sda4 は Vertica メトリック データベー
スをホストします。
/data 上にマウントされた /dev/sdb1 は CA Multi-Port Monitor パケット
キャプチャ ストレージをホストします。
XFS ファイル システムが破損するのは、通常、アプライアンスで停電また
はハードウェア ハングアップが発生した場合です。
38 CA Application Delivery Analysis Multi-Port Monitor
XFS ファイル システム破損の評価および復旧
Linux カーネル パニックはほとんどの場合、アプライアンスが再起動した
直後、Vertica メトリック データベースが開始されたときに /nqxfs パー
ティションで発生します。 以下の例では、端末画面に XFS コール スタッ
クおよびカーネル パニックが表示されています。 影響を受けたパーティ
ションが表示されない可能性はありますが、両方の XFS パーティション
(/nqxfs および /data)で安全に xfs_repair を実行して、XFS ファイル シス
テムの破損をすべて修復することができます。
XFS ファイル システムを修復して、そのファイル システム上の破損を解決
します。 破損が /nqfxs パーティション(Vertica メトリック データベース
が存在する場所)で発生した場合は、Vertica メトリック データベースを
再作成します。
詳細:
アプライアンスのシャットダウンまたは再起動 (P. 11)
第 1 章: ハードウェア ステータスの評価 39
XFS ファイル システム破損の評価および復旧
XFS ファイル システム破損の修復
CA6000 および CA6300 のアプライアンスに該当
影響を受けたパーティション上で xfs_repair コマンドを使用して、破損し
た XFS ファイル システムを修復します。 XFS ファイル システムの破損を
修復した後に必要な操作は以下のとおりです。
■
/data パーティションの場合、それ以上のアクションは必要ありません。
■
/nqxfs パーティションの場合、そのパーティションでホストされてい
る Vertica メトリック データベースを再作成します。
XFS 修復の完了までの予想時間: 30 ~ 60 分
次の手順に従ってください:
1. Multi-Port Monitor の端末にカーネル パニックおよびシステム停止
メッセージが表示されて応答がない場合、電源ボタンを数秒間押し続
けてアプライアンスをシャットダウンします。 それ以外の場合は、通
常の方法でアプライアンスをシャットダウン (P. 11)します。
2. 電源ボタンを押してアプライアンスを起動します。
3. BIOS スキャンの後、CentOS 初期起動画面が表示されます。 カウント
ダウンがゼロ秒になる前に任意のキーを押して、起動メニューを表示
します。
4. デフォルトの起動カーネルがあらかじめ選択されています。 a キーを
押して、カーネルの起動パラメータを変更します。
5. カーソルはカーネル パラメータ行の最後にあります。以下の例に示す
ように、行の最後にパラメータ single を追加し、Enter キーを押します。
40 CA Application Delivery Analysis Multi-Port Monitor
XFS ファイル システム破損の評価および復旧
6. カーネルの起動が完了すると、コマンド プロンプトが表示されます。
システムはシングル ユーザ モードで実行されているため、ログイン
プロンプトは表示されません。
注: シングル ユーザ モードでは、アプライアンスは端末画面からのみ
アクセスできます。
7. パーティションを修復します。
CA6300 用の /nqxfs パーティション
マウント解除して、そのブロック デバイスに xfs_repair を実行しま
す。
umount /nqxfs
xfs_repair /dev/sdb1
CA6300 用の /data パーティション
マウント解除して、そのブロック デバイスに xfs_repair を実行しま
す。
umount /data
xfs_repair /dev/sdb2
CA6000 用の /nqxfs パーティション
マウント解除して、そのブロック デバイスに xfs_repair を実行しま
す。
umount /nqxfs
xfs_repair /dev/sda4
CA6000 用の /data パーティション
マウント解除して、そのブロック デバイスに xfs_repair を実行しま
す。
umount /data
xfs_repair /dev/sdb1
8. いずれの場合も、修復が成功すると以下のようなテキスト出力が生成
されます。
Phase 1 - find and verify superblock...
Phase 2 - zero log...
- scan file system freespace and inode maps...
- found root inode chunk
Phase 3 - for each AG...
- scan and clear agi unlinked lists...
- process known inodes and perform inode discovery...
- agno = 0
- agno = 1
...
- process newly discovered inodes...
Phase 4 - check for duplicate blocks...
第 1 章: ハードウェア ステータスの評価 41
XFS ファイル システム破損の評価および復旧
- setting up duplicate extent list...
- clear lost+found (if it exists) ...
- clearing existing “lost+found” inode
- deleting existing “lost+found” entry
- check for inodes claiming duplicate blocks...
- agno = 0
imap claims in-use inode 242000 is free, correcting imap
- agno = 1
- agno = 2
...
Phase 5 - rebuild AG headers and trees...
- reset superblock counters...
Phase 6 - check inode connectivity...
- ensuring existence of lost+found directory
- traversing file system starting at / ...
- traversal finished ...
- traversing all unattached subtrees ...
- traversals finished ...
- moving disconnected inodes to lost+found ...
disconnected inode 242000, moving to lost+found
Phase 7 - verify and correct link counts...
Done
9. reboot と入力し、シングル ユーザ モードを終了してアプライアンスを
再起動します。
10. XFS の修復によりパーティションが正常な動作に戻ったかどうかを評
価します。
アプライアンスを再起動すると、パーティションが正常であれば Linux
カーネル パニックをトリガしなくなります。
11. /nqxfs パーティションを修復する場合、そのパーティションでホスト
されている Vertica メトリック データベース (P. 43)を再作成する必要
があります。
42 CA Application Delivery Analysis Multi-Port Monitor
第 2 章: Vertica メトリック データベースの再
作成
CA6000 および CA6300 のアプライアンスに該当
データベースの破損を解決するには、Vertica メトリック データベースを
再作成します。 CA Multi-Port Monitor の Web インターフェースの[システ
ム ステータス]ページで、データベース ステータスが[ダウン]と表示
されており、データベースを再起動できない場合、データベースが破損し
ています。
データベースが破損するのは、通常、CA Multi-Port Monitor で停電または
ハードウェア ハングアップが発生した場合です。
重要: Vertica メトリック データベースを再作成すると、すべてのセッショ
ン データが失われます。 セッション データは、Multi-Port Monitor の Web
インターフェースの[分析]タブに表示されます。
Vertica メトリック データベースを再作成する前に、以下の項目を確認し
ます。
■
CA Multi-Port Monitor の Web インターフェースの[システム ステータ
ス]ページで、データベース ステータスが[ダウン]と表示されてい
る。 このステータスが[稼働中]である場合、Vertica メトリック デー
タベースを再作成する必要はありません。
■
/nqxfs パーティションで XFS ファイル システムが破損していないかど
うか評価 (P. 38)し、必要な場合は XFS ファイル システムを修復 (P.
40)します。 XFS ファイル システムが破損している場合、XFS ファイル
システムの修復に失敗します。
■
SCSI ディスク エラーを評価および復旧 (P. 36)します。
データベース再作成の予想時間: 5 分
第 2 章: Vertica メトリック データベースの再作成 43
XFS ファイル システム破損の評価および復旧
次の手順に従ってください:
1. コマンド プロンプトを開きます。
2. CA Multi-Port Monitor のすべてのデーモン プロセスを停止します。
sudo /opt/NetQoS/scripts/stopprocs.sh
3. Vertica DB を再作成します。
sudo /opt/NetQoS/install/setupVertica.sh --new
sudo /opt/NetQoS/install/setupReplicateMySqlToVertica.sh
4. CA Multi-Port Monitor のすべてのデーモン プロセスを起動します。
sudo
/opt/NetQoS/scripts/startprocs.sh
5. CA Multi-Port Monitor の Web インターフェースの[システム ステータ
ス]ページで、メトリック データベースのデータベース ステータスが
[稼働中]であることを確認します。
詳細:
SCSI ディスク破損の評価および復旧 (P. 36)
44 CA Application Delivery Analysis Multi-Port Monitor
第 3 章: ベスト プラクティス
CA6000 および CA6300 のアプライアンスに該当
ハードウェア問題の発生を最小限に抑えるには、以下の項目を実施します。
■
アプライアンスをシャットダウンまたは再起動 (P. 11)する場合、常に
Vertica メトリック データベースを先にシャットダウンします。
■
UPS 冗長性を実装して、予期しない電源オフからアプライアンスを適
切に保護します。
■
アプライアンスが使用環境の仕様に基づいて動作していることを確認
します。
■
SCSI ディスクにエラーまたは障害がないか、RAID ステータスを定期的
に確認します。RAID ステータス情報は、以下の場所から取得できます。
■
Multi-Port Monitor の Web インターフェースの[システム ステータ
ス]ページ
■
Linux システム ログ
エラーまたは障害が発生した場合は、以下の操作を実行します。
■
■
低下状態の RAID アレイをできるだけ早く復旧します。
■
SCSI ディスク破損エラーの復旧を試行します。
■
障害が発生したドライブをできるだけ早く交換して、完全なシス
テム パフォーマンスを確保できるようにします。
再構築後、RAID アレイが[最適]状態に戻ったときに通知を受信する
には、SNMP トラップを編集します。mtpRAIDTrap 重大度を変更して、
最小の重大度レベルを[情報]に変更します。 デフォルトでは、
Multi-Port Monitor はアレイが低下状態の場合に SNMP トラップを送信
しますが、再構築の成功後には SNMP トラップを送信しません。
アレイに失敗ストライプが含まれていても、アプライアンスの
Adaptec RAID コントローラはこれを低下状態と判断しないため、SNMP
トラップは送信されません。
詳細:
アプライアンスのシャットダウンまたは再起動 (P. 11)
SCSI ディスク破損の評価および復旧 (P. 36)
第 3 章: ベスト プラクティス 45
XFS ファイル システム破損の評価および復旧
46 CA Application Delivery Analysis Multi-Port Monitor
Fly UP