Comments
Description
Transcript
ファイルの回復プログラム
資料安作2-5 第2回安全・信頼性検討作業班資料 事故・障害の発生状況と 安全・信頼性向上の取り組み 2006年10月25日 c Copyright 2006 ○ ○ 2005 Oki Electric Industry Co.,Ltd. OKI CONFIDENTIAL S OKIS CONFIDENTIAL 目次 1.事故、障害状況 ■最近の事故・障害の傾向 ■最近の障害事例 2.事故、障害対策への取り組み ■高信頼性に向けた取り組み ■ネットワークの運用改善に向けた製品提供 3.設備管理の実態、改善策 ■IP電話導入当初からの変化 ■改善ポイント ■運用品質向上策の実例 4.安全、信頼性向上のために検討すべき事項 c Copyright 2006 Oki Electric Industry Co.,Ltd. ○ S OKI CONFIDENTIAL 1 1.事故・障害状況 ■最近の事故、障害の傾向 ① 障害時のサービス回復までが長時間 ② 障害のサービス影響範囲が大きい ③ 装置の冗長構成動作の不具合 (装置の運用機能および運用における 事業者殿/メーカ連携が未習熟) (サーバ高性能化・伝送路大容量化) (系切り替え動作不良) ■最近の障害事例(長時間の障害) 事象 発生状況・原因 対策 ハード故障時に系切り替え不可 (影響:IP電話、1時間) ・OSパッチ不具合 ・検証条件漏れ ・回復手順不備 ・不具合ソフト処理の修正 ・ファイルリリース試験項目追加 ・サービス回復作業手順見直し サーバファイル更新時、系切り替わ らず呼処理停止 ・冗長機能の不具合 ・回復手順不備 ・不具合ソフト処理の修正 ・系構成切替条件の強化(設定変更) ・サービス回復作業手順見直し(時短) ・ディスク制御部不 具合 ・事業者様/メーカ 連携不備 ・ディスク制御部の処理修正(ソフト変更) ・サービス回復作業手順見直し (影響:IP電話、3時間、収容加入者数0) ディスク故障時にディスク予備系組 み込めず呼処理停止 (影響:IP電話、2時間) c Copyright 2006 Oki Electric Industry Co.,Ltd. ○ S OKI CONFIDENTIAL 2 2.IP化にともなう事故・障害対策の取り組み(1/2) ■高信頼性にむけた取り組み CenterStageNXシリーズ システム信頼性コンセプト 高可用性のプラットフォームによる、サービス中断時間の最小化を実現する 高可用性のプラットフォームによる、サービス中断時間の最小化を実現する ・・ システムダウンしない対策 システムダウンしない対策 ・・ システムダウンした場合短時間で復旧できる対策 システムダウンした場合短時間で復旧できる対策 ・・ 運用において、ハード工事やソフト工事によってサービス停止を起こさせない対策 運用において、ハード工事やソフト工事によってサービス停止を起こさせない対策 高可用性を実現する技術の完全自主開発により、問題発生時の対応の迅速化が実現 高可用性を実現する技術の完全自主開発により、問題発生時の対応の迅速化が実現 ・システムの高可用性を実現する機能改善の迅速化 ・システムの高可用性を実現する機能改善の迅速化 項目 システムダウ ンの回避 システム復旧 (再開) 故障条件 ハード異常 ・自己診断機能により故障状況の早期検出 ソフト異常 ・特定呼処理中に矛盾が発生した場合の特定呼初期設定 外部条件の異常 ・DOS攻撃を想定した、特定加入者からの自動受付拒否 ブラックリスト規制、ワン切り対策 ・バーストトラヒック発生時の輻輳制御(入出規制、CC使用率規制) 自系再開 /他系再開 PH1:呼救済 PH2、PH3 クラスタリング技術 サービス無中断 保守 具体的対策内容 PH1:呼救済のデータ(インスタンス)呼処理プロセスと分割、メモリ同期 PH2:プロセス再開、PH3:再開データの最小化 ・高速で確実な切替の実現、周辺装置と切替先の高速化 系切り替え作業 ・コマンドによるサービス無中断でACT/SBY切替 パッチ投入 ・エントリテーブルの切り替えにより、部分的プログラムの差換 ファイル更新 ・新旧プログラムを並列実行し、サービス処理中に新データを生成 増設時の試験面制御 ・試験呼により、データの正常性確認後、運用面に切替 c Copyright 2006 Oki Electric Industry Co.,Ltd. ○ S OKI CONFIDENTIAL 3 2.IP化にともなう事故・障害対策の取り組み(2/2) ■ネットワークの運用改善に向けた製品提供 (設備監視システム BBNMS) 一般的なNMSソフトの特徴 BBNMSの特徴 ●監視対象数が多くても、polling周期を 維持できる。 障害管理 ●監視対象数が多いと、polling周期を 維持できない。 ●ツリーで選択して、リスト形式で監視対 象を一覧できる。 ●監視対象数が多くても、構成管理のツ リー選択・リスト表示に多くの時間を要 する事はない。 構成管理 ●接続図マップを階層表示できる。 ●監視対象数が多いと、構成管理の接 続状態表示に多大な時間を要する。 ●監視対象数が多くても、NMSの階層化 は不要。 監視装置 形態 ●監視対象数が多いと、NMSの階層化 が必要となる。 BBNMSのソリューション(解決する課題) ●大規模NWを、一定周期で安定して監視できる。 ●大規模NW監視用システム自体が、大規模・複雑化(階層化)する事を回避できる。 ●短い周期の監視でも、安定的に実現できる。 c Copyright 2006 Oki Electric Industry Co.,Ltd. ○ S OKI CONFIDENTIAL 4 3.設備の管理体制の実態、改善策 <事業者様との連携の観点で> ■IP電話導入当初からの変化 (導入当初⇒最近) 機器の死活監視中心の設備監視 ⇒障害探索情報や予兆の収集機能および設備設計基礎データの収集機能の充実化 個々のサービスシステム毎の保守運用系システム ⇒保守運用系の統合化 保守運用におけるメーカへの依存度高(障害探索、回復手段のエスカレーション頻度高) ⇒エスカレーション頻度の減少(保守業務分解点事業者様にばらつきあり) システム仕様要件定義においてサービス機能面が主眼 ⇒運用面における考慮もれや認識ずれを無くす観点の比重増 ■改善ポイント サービス回復時間の短縮対策 障害箇所探索の迅速化 ■運用品質向上施策の事例 事業者保守運用部門とメーカの密な連携体制での問題管理、継続的な改善検討スキーム サービス回復フローの改善 監視装置における保守者操作機能の向上、改善 EOL製品の延命対策(延命のための特別契約、保守部材確保) 予備品の潜在故障防止(予備品のHOT-Stundby保管) c Copyright 2006 Oki Electric Industry Co.,Ltd. ○ S OKI CONFIDENTIAL 5 4.安全・信頼性向上のために検討すべき事項 ユーザ、事業者相互接続における不正アクセス、DOS攻撃の検出・特定と ネットワーク防御の観点の対応 規制、遮断等のネットワークオペレーションの迅速化、事業者間連携 (例えば特定サーバ向けトラヒック軽減のための連携制御) 災害等の緊急時や優先通信の確保における事業者間連携 ネットワークレベルでの冗長構成(予備サーバ、拠点冗長、相互接続冗長) 故障発生時のユーザへのタイムリーな案内、周知 c Copyright 2006 Oki Electric Industry Co.,Ltd. ○ S OKI CONFIDENTIAL 6