サービスに影響を与えるリソース障害のパターン
特定のサービス リソースの関係があまりに複雑すぎて、モデルの「状態」属性を監視するだけでは関係を把握することができないリソース監視シナリオに遭遇することがあります。より具体的には、モデルの「状態」には、追加リソースの監視条件に応じて、何らかの重要性があります。
casp1032jp
特定のサービス リソースの関係があまりに複雑すぎて、モデルの「状態」属性を監視するだけでは関係を把握することができないリソース監視シナリオに遭遇することがあります。より具体的には、モデルの「状態」には、追加リソースの監視条件に応じて、何らかの重要性があります。
以下のようなシナリオについて考えてみます。リモート オフィスに勤務するアカウント管理チームは、カスタマ情報にアクセスするため、ローカル データベース サーバを使用します。ローカル システムがダウンしている場合、アカウント管理チームは本社のサーバに接続することで、必要な情報にアクセスできます。カスタマ アカウント システムを表すサービスは、以下のように機能します。
- ローカル サーバがダウンしていて、本社のサーバが稼働状態の場合、カスタマ アカウント サービスは「やや低下」と考えられます
- ローカル サーバが稼働状態で、本社のサーバがダウンしている場合、カスタマ アカウント サービスは「稼働」と考えられます。
- ローカル サーバがダウンしていて、本社のサーバがダウンしている場合、カスタマ アカウント サービスは「ダウン」と考えられます。
- ローカル サーバがダウンしていて、本社のサーバが保守状態の場合、カスタマ アカウント サービスは「ダウン」と考えられます。
- ローカル サーバが保守状態で、本社のサーバが保守状態の場合、カスタマ アカウント サービスは「ダウン」と考えられます。
サービスに影響を与えるシナリオは非常に複雑です。サービスを提供する 2 つのサーバがある場合でも、サーバは平等に処理されません。
相関ドメインを使って個々のリソースを監視する複雑さを管理するなど、リソース監視シナリオを処理する場合があります。
2 つのリソース モニタを利用するサービスを使って、この例を実装できます。まず、ローカル サーバをシンプルな障害マトリックスを使用する、独自のリソース モニタに分離します。ローカル サーバ RM は、このパターンをサポートするポリシーを使用します。
ローカル サーバ | サービス ヘルス |
稼働 | 稼働 |
ダウン | わずかに低下 |
ローカルおよびリモート ドメイン RM である、2 番目のリソース モニタには、次のようなシンプルな障害マトリックスがあります。
ローカルおよびリモート ドメイン | サービス ヘルス |
稼働 | 稼働 |
ダウン | ダウン |
ローカルおよびリモート ドメイン RM は、ローカル サーバ用のホスト モデルと、本社サーバ用のホスト モデルを含んでいる相関ドメインを監視します。
相関ドメインの「状態」の以下のステータス テーブルを確認します。
ローカル サーバ | リモート サーバ | ドメイン状態 |
正常 | 正常 | 正常 |
接続切断 | 正常 | 正常 |
正常 | 接続切断 | 正常 |
接続切断 | 接続切断 | 重大 |
接続切断 | 保守 | 重大 |
保守 | 保守 | 重大 |
保守 | 接続切断 | 重大 |
ドメインは、以下のルールのポリシー(すべてが根本原因ターゲットに対してドメインを利用する)を使用します。
- Device Contact Lost Count = 2 Implied Cause Service Impact Down
- DeviceInMaintenance Count = 2 Implied Cause Service Impact Down
- Device Contact Lost Exists AND DeviceInMaintenance Exists AND Device Contact Lost Model Does Not Equal DeviceInMaintenance Model Implied Cause Service Impact Down
カスタマ アカウント サービスは、以下の方法で 2 つのリソース モニタのサービス ヘルスを監視します。
ローカル サーバ RM | ローカルおよびリモート デーモン | サーバ ヘルス |
稼働 | 稼働 | 稼働 |
わずかに低下 | 稼働 | わずかに低下 |
わずかに低下 | ダウン | ダウン |
稼働 | ダウン | ダウン |
カスタマ アカウント サービスのヘルスは、2 つのリソース モニタのうちの最低のステータス(一般的には高感度パターン)に基づいています。
この方法を使用すると、シナリオに複雑な要件がある場合でも、サービスに対する正確なリソース監視機能を作成できます。