サービスに影響を与えるリソース障害のパターン

特定のサービスリソースの関係があまりに複雑すぎて、モデルの「状態」属性を監視するだけでは関係を把握することができないリソース監視シナリオに遭遇することがあります。より具体的には、モデルの「状態」には、追加リソースの監視条件に応じて、何らかの重要性があります。

casp1032jp

以下のようなシナリオについて考えてみます。リモートオフィスに勤務するアカウント管理チームは、カスタマ情報にアクセスするため、ローカルデータベースサーバを使用します。ローカルシステムがダウンしている場合、アカウント管理チームは本社のサーバに接続することで、必要な情報にアクセスできます。カスタマアカウントシステムを表すサービスは、以下のように機能します。

ローカルサーバがダウンしていて、本社のサーバが稼働状態の場合、カスタマアカウントサービスは「やや低下」と考えられます

ローカルサーバが稼働状態で、本社のサーバがダウンしている場合、カスタマアカウントサービスは「稼働」と考えられます。

ローカルサーバがダウンしていて、本社のサーバがダウンしている場合、カスタマアカウントサービスは「ダウン」と考えられます。

ローカルサーバがダウンしていて、本社のサーバが保守状態の場合、カスタマアカウントサービスは「ダウン」と考えられます。

ローカルサーバが保守状態で、本社のサーバが保守状態の場合、カスタマアカウントサービスは「ダウン」と考えられます。

サービスに影響を与えるシナリオは非常に複雑です。サービスを提供する 2 つのサーバがある場合でも、サーバは平等に処理されません。

相関ドメインを使って個々のリソースを監視する複雑さを管理するなど、リソース監視シナリオを処理する場合があります。

2 つのリソースモニタを利用するサービスを使って、この例を実装できます。まず、ローカルサーバをシンプルな障害マトリックスを使用する、独自のリソースモニタに分離します。ローカルサーバ RM は、このパターンをサポートするポリシーを使用します。

ローカルサーバ	サービスヘルス
稼働	稼働
ダウン	わずかに低下

ローカルおよびリモートドメイン RM である、2 番目のリソースモニタには、次のようなシンプルな障害マトリックスがあります。

ローカルおよびリモートドメイン	サービスヘルス
稼働	稼働
ダウン	ダウン

ローカルおよびリモートドメイン RM は、ローカルサーバ用のホストモデルと、本社サーバ用のホストモデルを含んでいる相関ドメインを監視します。

相関ドメインの「状態」の以下のステータステーブルを確認します。

ローカルサーバ	リモートサーバ	ドメイン状態
正常	正常	正常
接続切断	正常	正常
正常	接続切断	正常
接続切断	接続切断	重大
接続切断	保守	重大
保守	保守	重大
保守	接続切断	重大

ドメインは、以下のルールのポリシー（すべてが根本原因ターゲットに対してドメインを利用する）を使用します。

Device Contact Lost Count = 2 Implied Cause Service Impact Down

DeviceInMaintenance Count = 2 Implied Cause Service Impact Down

Device Contact Lost Exists AND DeviceInMaintenance Exists AND Device Contact Lost Model Does Not Equal DeviceInMaintenance Model Implied Cause Service Impact Down

カスタマアカウントサービスは、以下の方法で 2 つのリソースモニタのサービスヘルスを監視します。

ローカルサーバ RM	ローカルおよびリモートデーモン	サーバヘルス
稼働	稼働	稼働
わずかに低下	稼働	わずかに低下
わずかに低下	ダウン	ダウン
稼働	ダウン	ダウン

カスタマアカウントサービスのヘルスは、2 つのリソースモニタのうちの最低のステータス（一般的には高感度パターン）に基づいています。

この方法を使用すると、シナリオに複雑な要件がある場合でも、サービスに対する正確なリソース監視機能を作成できます。

サービス定義の改善

Content feedback and comments

CA Spectrum - 10.3.2 - Japanese - Japan

サービスに影響を与えるリソース障害のパターン