...

KDDIのクラウドサービスを える Zabbix

by user

on
Category: Documents
25

views

Report

Comments

Transcript

KDDIのクラウドサービスを える Zabbix
KDDIのクラウドサービスを⽀える
Zabbix
KDDI株式会社
プラットフォーム技術部
加藤 真⼈
⾃⼰紹介
KDDI⼊社以来インフラ系サービスの開発を担当。
これまでに、お客様のシステムを監視するサービスやKDDI クラウドプラットフォー
ムサービス(KCPS)の前⾝であるバーチャルデータセンターなどを開発。その後、
KCPS(KDDIクラウドプラットフォームサービス)の開発を初期メンバーとして参加し、
現在は数千台のサーバを⽀えるインフラ設計業務を担当。ODM機器の採⽤や、Open
Compute Projectへの参加など積極的にインフラのコモディティ化を推進してる。
 KCPSのサービス概要
 クラウドシステムでのZabbix設計
キャリアならではのクラウド基盤
「KDDI クラウドプラットフォームサービス」
KCPSの特⻑は、Quality Cloud
1. とめない(⾼可⽤性) 2. まもる (⾼信頼性)
3. つながる(⾼接続性)
5
Copyright © 2016 KDDI Corporation. All Rights Reserved
1.とめない:徹底的な冗⻑構成
インターネット
物理サーバ
HAによる冗⻑構成を標準装備
インターネット接続
NW機器の冗⻑構成 Active
Standby
・・・
DRサイト
KDDI
バックボーン回線
HA(フェイルオーバー)
サーバ・ストレージ・ネットワーク機器は完全冗⻑化
ストレージ
RAIDによる冗⻑構成を標準装備
RAID
RAID
システムデータ
バックアップ
イントラ接続
NW機器の冗⻑構成
6
2重バックアップ
バックアップ
Copyright © 2016 KDDI Corporation. All Rights Reserved
1.とめない:徹底的な冗⻑構成
稼働実績は99.999%以上
99.9999% 32秒/年間
99.999982%
99.99999% 3秒/年間
KDDI Cloud Blogで稼働率と故障内訳を公開!
7
Copyright © 2016 KDDI Corporation. All Rights Reserved
1.とめない:2x2=4重化も提供
業界最⾼⽔準の可⽤性を有したエクストラアベイラビリティ機能で
サーバとストレージの同時故障にも対応
KCPSのお客さま専有サーバ(KCPSでの名称:Premiumサーバ)
通常のクラウド基盤サービス
スイッチ
スイッチ
ホストサーバ
故障
故障
Act
Act
仮想サーバ
Act
仮想サーバ
Stb
冗⻑化
故障
Act
Act
仮想サーバ
Act
・・・
故障
#1
ストレージ
ホストサーバ
故障
Stb
正常
稼動
故障
Stb
冗⻑化
・・
#1
ストレージ
Act
仮想サーバ
Stb
Act
Stb
・・
#2
故障
ストレージ
別POD
POD(ポッド)…データーセンター内のラックに相当
8
Copyright © 2016 KDDI Corporation. All Rights Reserved
2.まもる:万全の運⽤保守体制
「2時間以内に多重故障から復旧」を⽬標
故障時は能動通知で「30分以内」を⽬標
9
Copyright © 2016 KDDI Corporation. All Rights Reserved
2.まもる:万全の運⽤保守体制
IT管理者をしっかりサポート!
10
Copyright © 2016 KDDI Corporation. All Rights Reserved
2.まもる:万全の運⽤保守体制
クラウドとネットワークの
提供会社が異なる場合
KCPSの場合
A社 クラウドサービス
ネットワークとクラウドの
ワンストップ
ワンストップ提供で
故障発⽣も迅速に解決
障害の切り分けが難しい
B社 イントラネットワーク
11
Copyright © 2016 KDDI Corporation. All Rights Reserved
3.つながる:ニーズに合わせてどこからでも
外出先のスマートデバイスからクラウドへもセキュアにアクセス
マルチクラウド環境でのシームレスな連携
KDDI Flex Remote Access
さまざまな通信デバイス・通信環境
からお客さまの社内ネットワークへ
リモートアクセスできるサービス
KCPS
FRE
お客さま環境
iPhone
iPad
12
Copyright © 2016 KDDI Corporation. All Rights Reserved
3.つながる:イントラだけでも便利に使える
イントラネット網内で管理系サーバにつながる
WSUSサーバ
KMS
Symantec Endpoint Protection
yumリポジトリサーバ
オブジェクト
ストレージ
共有サーバ
専有サーバ
お客さま環境
13
Copyright © 2016 KDDI Corporation. All Rights Reserved
Quality Cloud を 簡単に使う
システム構成図が⾃動⽣成されるので、構成図が不要
14
Copyright © 2016 KDDI Corporation. All Rights Reserved
さまざまなサーバをご⽤意
KCPSは⼤企業の周辺システムや中⼩企業の重要システムを中⼼に
利⽤が広がっています。
⼤企業
Premium
HCIオプションetc
データ通信料は、インプット/アウトプットとも無料
(⽉額27万円〜)
(専有サーバ)
(⽉額98万円〜)
(物理サーバ)
情報系・周辺システム
基幹系・重要システム
Value
イントラネット(KDDI
(共有サーバ)
(⽉額8千円〜)
※表⽰価格はすべて税抜価格です。
※詳細はKDDIのウェブサイトをご参照ください。
Premium
WVS)との接続料も無料
(専有サーバ)
(⽉額27万円〜)
中⼩企業
15
Copyright © 2016 KDDI Corporation. All Rights Reserved
「HCIオプション」とは
New!10⽉提供開始
ビジネスクリティカルなアプリケーションに
最適なスペックをプライベートクラウドでご提供
•  ⾼機能なHCI機器4ノードをパッケージ化し⽉額モデルでご提供
•  必要に応じてノード追加(⽉額30万円/ノード)も可能
※ HCIオプション以外でも、データセンターに設置したお客さま指定機器と
仮想サーバを同⼀セグメントで接続することも可能(データセンターコネクト)
インターネット
Value
バックアップ
ストレージ
オブジェクトストレージ
バックアップオプション
Premium
システム
ストレージ
データ
ストレージ
ストレージオブション
16
HCIオプション
(データセンター)
すべて
同⼀セグメント
で接続可能
Copyright © 2016 KDDI Corporation. All Rights Reserved
「HCI」とは
物理のプラットフォーム部分をシンプル化し、
スケールアップや性能アップをより簡単にしたプラットフォーム
HCI
ハイパー・コンバージド・インフラストラクチャー
(Hyper-Converged Infrastructure)
Nutanix のソフトウエアを基盤としたHCI アプライアンス「Dell XC シリーズ」
17
Copyright © 2016 KDDI Corporation. All Rights Reserved
「Dell XC シリーズ」事例:保険機関 A社さま
 相互DR環境での600ユーザのVDI(仮想デスクトップインフラ)
東京
Desktop
x300
検証環境
XC730xd-24
x4node
⼤阪
WAN
仮想サーバ
群
XC730xd-24
x4node
Desktop
x300
XC730xd-24
x4node
XC機能に
よるバック
アップ
XC730xd-24
x4node
Backup
x300
Backup
x300
•  PowerEdge R730xdベースのXCシリーズでシンプルにサーバ仮想化、
VDI+DR環境を実現、災害時には⽚系のサイトで
全VDIリソースのフェイルオーバーが可能
Node追加による900ユーザまで拡張、ユーザー数の増加へ柔軟に対応可能
• 
•  ⾼可⽤性でミッションクリティカルなシステムに適⽤
18
XC730⼀台あたりのスペック
CPU
:E5-2698 v3
(16core x2)
Memory
:320GB
SSD(GB) :800GB x4
HDD(TB) :1TB x16
OS
:ESXi+Citirix
Copyright © 2016 KDDI Corporation. All Rights Reserved
さまざまなストレージもご⽤意
インターネット
Value
システム
ストレージ
データ
ストレージ
ストレージオプション
Premium
バックアップ
ストレージ
バックアップオブション
19
オブジェクト
ストレージ
Copyright © 2016 KDDI Corporation. All Rights Reserved
オブジェクトストレージとは
インターネット
ゲートウェイ
サーバ
1
2
3
4
5
3
6
7
8
分
DC1
東⽇本サイト
9
10 11 12 13 14 15 16 17 18
散
DC2
保
存
DC3
⻄⽇本サイト
20
ゲートウェイサーバで
受信したデータを
18分割
分割された各データは、
3つの国内DCの複数
サーバへ暗号化の上で
分散配置
⽉額8,000円(税抜)/TB
(サーバ契約必要なし)
Copyright © 2016 KDDI Corporation. All Rights Reserved
クラウドシステムでのZabbix設計
21
Copyright © 2015 KDDI Corporation. All Rights Reserved
KCPSのシステム規模(関連基盤含む)
 国内:4拠点 物理サーバ:数千台
 Zabbixサーバ数: 約50台
 冗⻑化: あり(Active-Active構成)
 マルチテナント監視: あり
 監視対象機器数: 約27,000台
 トリガー数: 約800,000
 アイテム数: 約600,000
 Zabbixがインストールされているハードウェア: 仮想サーバ及び物理サーバ
 CPUコア数:4〜16コア(⽤途により異なる)
 メモリ:16GB〜128GB(⽤途により異なる)
システム概要
状況を整理
して連絡
LOG
解析基盤
仮想サーバ
CloudStack
23
Copyright © 2015 KDDI Corporation. All Rights Reserved
「Quality Cloud」を⽀える
29ヶ⽉連続で、99.999%を達成しています
24
Copyright © 2015 KDDI Corporation. All Rights Reserved
クラウド基盤を考慮した監視ポイント
・変化の激しい仮想サーバの増減に対応した⾃動監視登録
・仮想サーバの正常動作と異常動作を⾃動で判断する!!
・⾃動化のリスクを⾃動化で守る!
・複雑なインフラ環境における詳細な障害影響をどう特定するか?
・⼆重障害などの物理障害の破壊⼒はすごい!
どう ⾃動化の仕組みを取り⼊れるか!
どこまで 利⽤シーンを想定できるか!
仮想サーバ⾃動監視登録
 Zabbixのログ監視機能を使⽤し、CloudStackのAPIログから「仮想サーバ作成コマンド」「KVMホスト
追加コマンド」の実⾏を検知し⾃動登録を実現しています。
 上記を検知した際に、ZabbixAPIを利⽤したZabbix監視ホスト追加を実⾏するスクリプトを登録したア
クションがキックされることで、Zabbix監視ホストを登録します。
④:アクション実行
監視ホスト登録
②:APIログ出力
③:ログ監視から①の実行検知
CloudStack
①:ユーザが仮想サーバ/KVMホスト作成
ポイント
仮想サーバのホスト名はお客様によって適時変更
されてしまいます。これに追従する仕組みを取り⼊れ
実機との差分が発⽣しないようにしています。
仮想サーバ再起動時の動作を考慮
 クラウドサービスでは、サービス利⽤者が⾃由に仮想サーバを使⽤するため、仮想サーバ停⽌や再起動
時に事前にZabbix監視の無効化やメンテナンス状態へ移⾏が困難です。
 このため、icmppingやagent.ping監視を実施の場合、アラートが発報され運⽤負荷が上がります。
 監視対象ホストの停⽌や再起動などの処理をAPIログから検知し、該当サーバの監視ステータス(有効/
無効)を⾃動で切り替えることで、不要なアラートが発報されないようにしています。
④:アクション実行
監視ホストの
ステータスを変更
②:APIログ出力
③:ログ監視から①の実行検知
CloudStack
①:ユーザが仮想サーバ停止/削除/再起動
KVMホストメンテナンス/削除を実行
CloudStack⇔Zabbix監視の登録状態の同期
 CloudStackの操作とZabbix設定のリアルタイム連携は前述の通りですが、万が⼀リアルタイム同
期に失敗した場合、ユーザが作成した仮想サーバが監視登録されてない状態となる可能性があり
ます。不測の事態に備え、CloudStackAPIおよびZabbixAPIを実⾏し、仮想サーバやホストの設
定状態をZabbix監視ホスト設定の状態と⽐較し、差分吸収する夜間同期処理を実施しています。
②:ZabbixAPI を実行し
監視ホスト一覧を取得
①:CloudStackAPI を実行
CloudStack
③:①②の結果を比較し、差分吸収
障害影響を短時間で特定する
【初報連絡が精度が重要】
クラウドシステムにおいて、複雑に変化して
いる仮想レイヤでの障害影響を短時間で把握
し、お客様へ連絡することは⾮常に難しい!
Zabbixにて障害を検知する、各種LOGから障
害時の影響を瞬時に判断し、影響のあったお
客様を特定し初報連絡を⾏っています。
CloudStack
本システムにより、故障発⽣時(⼆重故障を含む)には、30分以内にお客様へ通
知を⾏える運⽤を実現し、運⽤効率、習熟度のさらなる向上に努めています。
29
Copyright © 2015 KDDI Corporation. All Rights Reserved
⼤規模障害を考慮した復旧ツール
⼆重故障などが発⽣した場合、⼤量のアラームが発⽣
し数時間監視が機能しないことがあります。これを考
慮した設計が重要となり、発⽣した場合の代替⼿段を
事前に準備しておく必要があります。
たとえば、LOG通知をまとめる、Trapの受信制限を
⾏うとかの⼿段があります。
Zabbixで検知した結果から、⾃動復旧させるツールな
どを利⽤していますが、⾼負荷な状況となった場合に
はツールが起動しないことも想定されます。
負荷を考慮することはもちろん、Zabbixとは別で復旧
ツールの準備が必要です。
30
Copyright © 2015 KDDI Corporation. All Rights Reserved
キャリアーグレードの運⽤体制
⼀旦故障が発⽣しご迷惑をお掛けしたお客様には、故障レポートを作成し、故障
原因や対策を明確にすることで、少しでも安⼼してご利⽤を継続頂けるように努
めております。勿論、故障を発⽣させないことを第⼀に、今後とも関連部⾨が⼀
丸となって取り組んでまいります。
31
Copyright © 2015 KDDI Corporation. All Rights Reserved
KDDI Cloud Blog
クラウドに関する最新の情報を発信
32
Copyright © 2016 KDDI Corporation. All Rights Reserved
Quality Cloud
Fly UP