Comments
Description
Transcript
KDDIのクラウドサービスを える Zabbix
KDDIのクラウドサービスを⽀える Zabbix KDDI株式会社 プラットフォーム技術部 加藤 真⼈ ⾃⼰紹介 KDDI⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやKDDI クラウドプラットフォー ムサービス(KCPS)の前⾝であるバーチャルデータセンターなどを開発。その後、 KCPS(KDDIクラウドプラットフォームサービス)の開発を初期メンバーとして参加し、 現在は数千台のサーバを⽀えるインフラ設計業務を担当。ODM機器の採⽤や、Open Compute Projectへの参加など積極的にインフラのコモディティ化を推進してる。 KCPSのサービス概要 クラウドシステムでのZabbix設計 キャリアならではのクラウド基盤 「KDDI クラウドプラットフォームサービス」 KCPSの特⻑は、Quality Cloud 1. とめない(⾼可⽤性) 2. まもる (⾼信頼性) 3. つながる(⾼接続性) 5 Copyright © 2016 KDDI Corporation. All Rights Reserved 1.とめない:徹底的な冗⻑構成 インターネット 物理サーバ HAによる冗⻑構成を標準装備 インターネット接続 NW機器の冗⻑構成 Active Standby ・・・ DRサイト KDDI バックボーン回線 HA(フェイルオーバー) サーバ・ストレージ・ネットワーク機器は完全冗⻑化 ストレージ RAIDによる冗⻑構成を標準装備 RAID RAID システムデータ バックアップ イントラ接続 NW機器の冗⻑構成 6 2重バックアップ バックアップ Copyright © 2016 KDDI Corporation. All Rights Reserved 1.とめない:徹底的な冗⻑構成 稼働実績は99.999%以上 99.9999% 32秒/年間 99.999982% 99.99999% 3秒/年間 KDDI Cloud Blogで稼働率と故障内訳を公開! 7 Copyright © 2016 KDDI Corporation. All Rights Reserved 1.とめない:2x2=4重化も提供 業界最⾼⽔準の可⽤性を有したエクストラアベイラビリティ機能で サーバとストレージの同時故障にも対応 KCPSのお客さま専有サーバ(KCPSでの名称:Premiumサーバ) 通常のクラウド基盤サービス スイッチ スイッチ ホストサーバ 故障 故障 Act Act 仮想サーバ Act 仮想サーバ Stb 冗⻑化 故障 Act Act 仮想サーバ Act ・・・ 故障 #1 ストレージ ホストサーバ 故障 Stb 正常 稼動 故障 Stb 冗⻑化 ・・ #1 ストレージ Act 仮想サーバ Stb Act Stb ・・ #2 故障 ストレージ 別POD POD(ポッド)…データーセンター内のラックに相当 8 Copyright © 2016 KDDI Corporation. All Rights Reserved 2.まもる:万全の運⽤保守体制 「2時間以内に多重故障から復旧」を⽬標 故障時は能動通知で「30分以内」を⽬標 9 Copyright © 2016 KDDI Corporation. All Rights Reserved 2.まもる:万全の運⽤保守体制 IT管理者をしっかりサポート! 10 Copyright © 2016 KDDI Corporation. All Rights Reserved 2.まもる:万全の運⽤保守体制 クラウドとネットワークの 提供会社が異なる場合 KCPSの場合 A社 クラウドサービス ネットワークとクラウドの ワンストップ ワンストップ提供で 故障発⽣も迅速に解決 障害の切り分けが難しい B社 イントラネットワーク 11 Copyright © 2016 KDDI Corporation. All Rights Reserved 3.つながる:ニーズに合わせてどこからでも 外出先のスマートデバイスからクラウドへもセキュアにアクセス マルチクラウド環境でのシームレスな連携 KDDI Flex Remote Access さまざまな通信デバイス・通信環境 からお客さまの社内ネットワークへ リモートアクセスできるサービス KCPS FRE お客さま環境 iPhone iPad 12 Copyright © 2016 KDDI Corporation. All Rights Reserved 3.つながる:イントラだけでも便利に使える イントラネット網内で管理系サーバにつながる WSUSサーバ KMS Symantec Endpoint Protection yumリポジトリサーバ オブジェクト ストレージ 共有サーバ 専有サーバ お客さま環境 13 Copyright © 2016 KDDI Corporation. All Rights Reserved Quality Cloud を 簡単に使う システム構成図が⾃動⽣成されるので、構成図が不要 14 Copyright © 2016 KDDI Corporation. All Rights Reserved さまざまなサーバをご⽤意 KCPSは⼤企業の周辺システムや中⼩企業の重要システムを中⼼に 利⽤が広がっています。 ⼤企業 Premium HCIオプションetc データ通信料は、インプット/アウトプットとも無料 (⽉額27万円〜) (専有サーバ) (⽉額98万円〜) (物理サーバ) 情報系・周辺システム 基幹系・重要システム Value イントラネット(KDDI (共有サーバ) (⽉額8千円〜) ※表⽰価格はすべて税抜価格です。 ※詳細はKDDIのウェブサイトをご参照ください。 Premium WVS)との接続料も無料 (専有サーバ) (⽉額27万円〜) 中⼩企業 15 Copyright © 2016 KDDI Corporation. All Rights Reserved 「HCIオプション」とは New!10⽉提供開始 ビジネスクリティカルなアプリケーションに 最適なスペックをプライベートクラウドでご提供 • ⾼機能なHCI機器4ノードをパッケージ化し⽉額モデルでご提供 • 必要に応じてノード追加(⽉額30万円/ノード)も可能 ※ HCIオプション以外でも、データセンターに設置したお客さま指定機器と 仮想サーバを同⼀セグメントで接続することも可能(データセンターコネクト) インターネット Value バックアップ ストレージ オブジェクトストレージ バックアップオプション Premium システム ストレージ データ ストレージ ストレージオブション 16 HCIオプション (データセンター) すべて 同⼀セグメント で接続可能 Copyright © 2016 KDDI Corporation. All Rights Reserved 「HCI」とは 物理のプラットフォーム部分をシンプル化し、 スケールアップや性能アップをより簡単にしたプラットフォーム HCI ハイパー・コンバージド・インフラストラクチャー (Hyper-Converged Infrastructure) Nutanix のソフトウエアを基盤としたHCI アプライアンス「Dell XC シリーズ」 17 Copyright © 2016 KDDI Corporation. All Rights Reserved 「Dell XC シリーズ」事例:保険機関 A社さま 相互DR環境での600ユーザのVDI(仮想デスクトップインフラ) 東京 Desktop x300 検証環境 XC730xd-24 x4node ⼤阪 WAN 仮想サーバ 群 XC730xd-24 x4node Desktop x300 XC730xd-24 x4node XC機能に よるバック アップ XC730xd-24 x4node Backup x300 Backup x300 • PowerEdge R730xdベースのXCシリーズでシンプルにサーバ仮想化、 VDI+DR環境を実現、災害時には⽚系のサイトで 全VDIリソースのフェイルオーバーが可能 Node追加による900ユーザまで拡張、ユーザー数の増加へ柔軟に対応可能 • • ⾼可⽤性でミッションクリティカルなシステムに適⽤ 18 XC730⼀台あたりのスペック CPU :E5-2698 v3 (16core x2) Memory :320GB SSD(GB) :800GB x4 HDD(TB) :1TB x16 OS :ESXi+Citirix Copyright © 2016 KDDI Corporation. All Rights Reserved さまざまなストレージもご⽤意 インターネット Value システム ストレージ データ ストレージ ストレージオプション Premium バックアップ ストレージ バックアップオブション 19 オブジェクト ストレージ Copyright © 2016 KDDI Corporation. All Rights Reserved オブジェクトストレージとは インターネット ゲートウェイ サーバ 1 2 3 4 5 3 6 7 8 分 DC1 東⽇本サイト 9 10 11 12 13 14 15 16 17 18 散 DC2 保 存 DC3 ⻄⽇本サイト 20 ゲートウェイサーバで 受信したデータを 18分割 分割された各データは、 3つの国内DCの複数 サーバへ暗号化の上で 分散配置 ⽉額8,000円(税抜)/TB (サーバ契約必要なし) Copyright © 2016 KDDI Corporation. All Rights Reserved クラウドシステムでのZabbix設計 21 Copyright © 2015 KDDI Corporation. All Rights Reserved KCPSのシステム規模(関連基盤含む) 国内:4拠点 物理サーバ:数千台 Zabbixサーバ数: 約50台 冗⻑化: あり(Active-Active構成) マルチテナント監視: あり 監視対象機器数: 約27,000台 トリガー数: 約800,000 アイテム数: 約600,000 Zabbixがインストールされているハードウェア: 仮想サーバ及び物理サーバ CPUコア数:4〜16コア(⽤途により異なる) メモリ:16GB〜128GB(⽤途により異なる) システム概要 状況を整理 して連絡 LOG 解析基盤 仮想サーバ CloudStack 23 Copyright © 2015 KDDI Corporation. All Rights Reserved 「Quality Cloud」を⽀える 29ヶ⽉連続で、99.999%を達成しています 24 Copyright © 2015 KDDI Corporation. All Rights Reserved クラウド基盤を考慮した監視ポイント ・変化の激しい仮想サーバの増減に対応した⾃動監視登録 ・仮想サーバの正常動作と異常動作を⾃動で判断する!! ・⾃動化のリスクを⾃動化で守る! ・複雑なインフラ環境における詳細な障害影響をどう特定するか? ・⼆重障害などの物理障害の破壊⼒はすごい! どう ⾃動化の仕組みを取り⼊れるか! どこまで 利⽤シーンを想定できるか! 仮想サーバ⾃動監視登録 Zabbixのログ監視機能を使⽤し、CloudStackのAPIログから「仮想サーバ作成コマンド」「KVMホスト 追加コマンド」の実⾏を検知し⾃動登録を実現しています。 上記を検知した際に、ZabbixAPIを利⽤したZabbix監視ホスト追加を実⾏するスクリプトを登録したア クションがキックされることで、Zabbix監視ホストを登録します。 ④:アクション実行 監視ホスト登録 ②:APIログ出力 ③:ログ監視から①の実行検知 CloudStack ①:ユーザが仮想サーバ/KVMホスト作成 ポイント 仮想サーバのホスト名はお客様によって適時変更 されてしまいます。これに追従する仕組みを取り⼊れ 実機との差分が発⽣しないようにしています。 仮想サーバ再起動時の動作を考慮 クラウドサービスでは、サービス利⽤者が⾃由に仮想サーバを使⽤するため、仮想サーバ停⽌や再起動 時に事前にZabbix監視の無効化やメンテナンス状態へ移⾏が困難です。 このため、icmppingやagent.ping監視を実施の場合、アラートが発報され運⽤負荷が上がります。 監視対象ホストの停⽌や再起動などの処理をAPIログから検知し、該当サーバの監視ステータス(有効/ 無効)を⾃動で切り替えることで、不要なアラートが発報されないようにしています。 ④:アクション実行 監視ホストの ステータスを変更 ②:APIログ出力 ③:ログ監視から①の実行検知 CloudStack ①:ユーザが仮想サーバ停止/削除/再起動 KVMホストメンテナンス/削除を実行 CloudStack⇔Zabbix監視の登録状態の同期 CloudStackの操作とZabbix設定のリアルタイム連携は前述の通りですが、万が⼀リアルタイム同 期に失敗した場合、ユーザが作成した仮想サーバが監視登録されてない状態となる可能性があり ます。不測の事態に備え、CloudStackAPIおよびZabbixAPIを実⾏し、仮想サーバやホストの設 定状態をZabbix監視ホスト設定の状態と⽐較し、差分吸収する夜間同期処理を実施しています。 ②:ZabbixAPI を実行し 監視ホスト一覧を取得 ①:CloudStackAPI を実行 CloudStack ③:①②の結果を比較し、差分吸収 障害影響を短時間で特定する 【初報連絡が精度が重要】 クラウドシステムにおいて、複雑に変化して いる仮想レイヤでの障害影響を短時間で把握 し、お客様へ連絡することは⾮常に難しい! Zabbixにて障害を検知する、各種LOGから障 害時の影響を瞬時に判断し、影響のあったお 客様を特定し初報連絡を⾏っています。 CloudStack 本システムにより、故障発⽣時(⼆重故障を含む)には、30分以内にお客様へ通 知を⾏える運⽤を実現し、運⽤効率、習熟度のさらなる向上に努めています。 29 Copyright © 2015 KDDI Corporation. All Rights Reserved ⼤規模障害を考慮した復旧ツール ⼆重故障などが発⽣した場合、⼤量のアラームが発⽣ し数時間監視が機能しないことがあります。これを考 慮した設計が重要となり、発⽣した場合の代替⼿段を 事前に準備しておく必要があります。 たとえば、LOG通知をまとめる、Trapの受信制限を ⾏うとかの⼿段があります。 Zabbixで検知した結果から、⾃動復旧させるツールな どを利⽤していますが、⾼負荷な状況となった場合に はツールが起動しないことも想定されます。 負荷を考慮することはもちろん、Zabbixとは別で復旧 ツールの準備が必要です。 30 Copyright © 2015 KDDI Corporation. All Rights Reserved キャリアーグレードの運⽤体制 ⼀旦故障が発⽣しご迷惑をお掛けしたお客様には、故障レポートを作成し、故障 原因や対策を明確にすることで、少しでも安⼼してご利⽤を継続頂けるように努 めております。勿論、故障を発⽣させないことを第⼀に、今後とも関連部⾨が⼀ 丸となって取り組んでまいります。 31 Copyright © 2015 KDDI Corporation. All Rights Reserved KDDI Cloud Blog クラウドに関する最新の情報を発信 32 Copyright © 2016 KDDI Corporation. All Rights Reserved Quality Cloud