仮想化・HCI・クラウド・IT関連の備忘録: Nutanixクラスタの正常性の確認について～Health Monitoring～

みなさん、こんにちは

本日投稿の内容について、以前別サイトで私が投稿したブログの内容です。

サイトの閉鎖に伴い、こちらで再度掲載いたします。

今回はNutanixのヘルスモニタリングについてご紹介します。

まず、はじめにNutanixの正常性を確認するというが何を⾒ることができるのか︖ということをお話します。

１．ヘルスモニタリング

Nutanixはクラスターの正常性をモニターするための一連の状況チェックを行います。

仮想マシン、ホスト、およびディスクの状態をホームダッシュボードに表示
仮想マシン、ホスト、およびディスクの深刻度、ヘルス状態の情報をダッシュボードに表示
スケジュールされたヘルスチェックの頻度と実行頻度をカスタマイズ
Prismから直接NCCヘルスチェックを実行
すべてのノードとコンポーネントのログを収集

ヘルスダッシュボード

ヘルスダッシュボードには、クラスタ内のVM、ホスト、およびディスクに関する更新された情報が表示します。

ヘルスダッシュボードを表示するには、メインメニューのプルダウンリストから[Health]を選択。

ヘルスチェックの設定

一連のヘルスチェックが定期的に実行され、一連のクラスタヘルスインジケータが提供され、実行する検査を指定し、スケジューリング可能な検査および各ヘルスチェックのための他のパラメータを構成することが可能。

NCC（Nutanix Cluster Check）の間隔の設定

NCCがPrismから指定された時間後に自動的に実行されるように設定するには、次の手順を実行。

Webコンソールを使用したチェックの実行

Prism WebコンソールのヘルスダッシュボードからNCCチェックを実行できるようになりました。すべてのチェックを一度に実行するように選択することができます。失敗したチェックや警告を表示したり、選択した特定のチェックを表示したりすることができます。

Webコンソールを使用したログの収集

Prism Webコンソールのダッシュボードから直接ログを収集可能。コントローラVM、ファイルサーバ、ハードウェア、アラート、ハイパーバイザ、およびシステムのログを収集可能。タスクが完了するとタスクダッシュボードからログバンドルをダウンロードできます。

２．ヘルスダッシュボード

ヘルスダッシュボードには、クラスタ内のVM、ホスト、およびディスクに関する動的に更新された正常性情報が表⽰されます。ヘルスダッシュボードを表⽰するには、メインメニューの左側にあるプルダウンリストから[Health]を選択します。

メニューオプション
ヘルスダッシュボードには、メインメニュー以外のメニューオプションはありません
画面の詳細
ヘルスダッシュボードは3つの列に分かれています。

左側の列には、各エンティティタイプ（VM、ホスト、ディスク、ストレージプール、ストレージコンテナ、クラスタサービス、および[構成されている場合]保護ドメインとリモートサイト）のタブが表⽰されます。各タブには、クラスタのエンティティの合計（ディスクの総数など）と各正常性状態の数が表⽰されます。タブをクリックすると、表⽰された情報が展開されます（次のセクションを参照）。
中央の列には、左側の列で選択されているものに関する詳細情報が表⽰されます。
右側の列には、すべてのヘルスチェックの要約が表⽰されます。また、チェックボタン（成功、警告、失敗、無効）から個々のチェックを表⽰するオプションもあります。
[Summary]タブには、チェックステータスとチェックタイプに従って、すべてのヘルスチェックのSummaryが表⽰
[Checks]タブには、個々のチェックに関する情報が表⽰されます。カーソルを項⽬の上に移動すると、そのヘルスチェックに関する詳細情報が表⽰されます（次の図を参照）。適切なフィールドタイプをクリックして[Apply]をクリックすると、チェックをフィルタリングできます。チェック内容は以下のように分類されます。

ステータスでフィルタリング
合格(Passed), 失敗(Failed), 警告(Warning), エラー(Error), オフ(Off), またはすべて(all)
タイプでフィルタリング
スケジュールされていない、スケジュールされていない、イベントトリガーされている、またはすべて
エンティティタイプ別にフィルタリングする
VM、ホスト、ディスク、ストレージプール、ストレージコンテナ、クラスタサービス、またはすべて

たとえば、Failureをチェックのみを表⽰する場合は、[ Failure ]オプションを選択してチェックをフィルタします。特定のチェックをクリックすると、中央の列に、チェックが失敗した⽇時とチェック失敗の割合の詳細な履歴が表⽰されます。バーをクリックすると、合格と失敗の履歴の詳細グラフが表⽰されます（上図参照）。

マウスをグラフの線に沿って動かすと、その時点に関する情報が表⽰されます。

また検索ボックスに⽂字列を⼊⼒することで、特定のチェックを検索することもできます。「Action」タブにはチェックを管理し、チェックを実⾏し、ログを収集するオプションがあります。

フォーカスとフィルタリングのオプション
ヘルスダッシュボードでは、さまざまなビューを通じてエンティティのヘルス情報を表示できます。左の列タブをクリックすると、そのタブが展開され、そのエンティティタイプ（VM、ホスト、またはディスク）のグループ化カテゴリが表示されます。また、中央のセクションは追加の詳細で拡張されます。チェックし右の列のタブには、そのエンティティタイプに関連するヘルスチェックを表示します。

グループ化カテゴリをクリックすると、そのグループ化に関する詳細情報が表示されます。左側の列が展開され、グループ化とフィルタオプションのセットが表示されます。選択したグループが強調表示されます。そのグループをクリックすると、別のグループを選択できます。各グループエントリには、そのグループに含まれるカテゴリの数が表示され、中央のセクションにはそれらのカテゴリに関する情報が表示されます。次の例では、ディスクストレージ階層が選択されており、そのグループには2つのカテゴリ（SSDとHDD）があります。デフォルトでは、すべてのエンティティ（この例ではすべてのディスク）がカテゴリ情報に含まれています。1つまたは複数のフィルタをクリックすると、含まれているリストを絞り込むことができます。

中央の列には、選択したグループ内の各カテゴリのフィールドが表示されます。各フィールドには、そのカテゴリの詳細が表示されます。特定のエントリにカーソルを置くと、追加情報が表示されます。フィルタリング用のドロップダウン選択リスト（グループ化フィルタと同じ）と、情報を並べ替えるためのリストによるドロップダウンソートがあります。

右側の列には、そのエンティティタイプに関連するヘルスチェックが引き続き表示されます。

中央の列には、ダイアグラムビューとテーブルビュー（次ページ参照）の2つの表示オプションがあります。

テーブルビューは詳細な情報を表形式で提供します。列ヘッダーをクリックしてエントリを並べ替えることができます。

中央の列には、最上部にウォッチリスト情報（「現在見ているHDD」または「現在 IOPS total DISK IOPS」）も含まれています。

ヘルスダッシュボードは、現在のウォッチリスト内のエンティティに関する情報を反映するように動的に調整されます。

この画面では、ステータス情報（中央の列）と関連するヘルスチェック（右の列）が18個のディスクを反映するように、ウォッチリスト（現在は18/18個のディスクを合計しているディスク）ですべてのディスクが選択されています。

監視リストを現在のエンティティタイプ（単一ディスクなど）または別のエンティティタイプ（ホストなど）のサブセットに変更すると、ステータス情報と関連するヘルスチェックが新しいウォッチリストに応じてカスタマイズされます。

⼀連のヘルスチェックが定期的に実⾏され、⼀連のクラスタヘルスインジケータが提供されます。実⾏する検査を指定し、スケジューリング可能な検査および各ヘルスチェックのための他のパラメータを構成することができます。

クラスターヘルスチェックは、AOS、ハイパーバイザー、およびハードウェアコンポーネントを含むさまざまなエンティティをカバーします。チェックのセットはデフォルトで有効になっていますが、いつでもチェックの実⾏、無効化、または再設定ができます。1つまたは複数のヘルスチェックを再設定するには、次の⼿順を実⾏します。

１．ヘルスのダッシュボードでは、Action > Manage Check でクリックします

ヘルスダッシュボードには、ヘルスチェックに関する情報が再表⽰されます。特定のヘルスチェックをクリックすると、そのチェックが強調表⽰されます。ヘルスチェックを選択するか（最初に選択するか）、以前に選択したヘルスチェックが強調表⽰されます。次の情報が表⽰されます。

左側の列には、ハイライトされた状態が正常性チェックの⼀覧として表⽰されます。いずれかのエントリをクリックして、そのヘルスチェックを選択して強調表⽰します。
中央の列には、このヘルスチェックの機能が記載されており、影響を受けるエンティティ（ホスト、ディスク、またはVM）全体で実⾏スケジュールと履歴が提供されます。
右の列には、このヘルスチェックが失敗した原因（原因、解決、影響）が記載されています。

２．特定のチェックを実⾏するには、[Run Check]をクリックします。

３．ヘルスチェックをオフにする（またはオンにする）には、中央の列の上部にあるチェックオフ（またはチェックオン）リンクをクリックし、ダイアログボックスで[Yes]ボタンをクリックします。

４．パラメータの設定を変更するには（設定可能なパラメータがあるヘルスチェックの場合）、中央の列の上部にあるパラメータリンクをクリックし、ドロップダウンウィンドウでパラメータ値の1つ以上を変更して、[Update]ボタンをクリックします。このリンクは、ヘルスチェックに設定可能なパラメータが含まれている場合にのみ表⽰されます。設定可能

なパラメータは、そのヘルスチェックに固有です。たとえば、CPU Utilizationヘルスチェックには、ホスト平均CPU使⽤率のしきい値とホストピークCPU使⽤率のしきい値の割合を指定するパラメータが含まれています。

5. ヘルスチェックを実行するスケジュールを変更するには、中央の列の上部にあるスケジュール可能なチェックのスケジュールリンクをクリックし、ドロップダウンリストから間隔を選択します。1分から48時間までの間隔を選択できます。各Checkにはデフォルトの間隔があり、ヘルスチェックに応じて1分に1回から1日に1回まで変更可能。

ほとんどの場合、デフォルトの間隔が最適であり間隔を変更することは推奨されません（Nutanixのカスタマーサポートによって要求されない限り）。

３．NCC（Nutanix Cluster Checkの間隔）

Prismから指定された時間が経過した後にNCCを自動的に実行する設定を行うには、次の手順を実行ヘルスダッシュボードの[Action]ドロップダウンメニューから[Set NCC Frequency]を選択構成スケジュールを選択します。

→4時間ごと：4時間間隔でNCCチェックを実行するには、このオプションを選択

→毎日：NCCチェックを毎日実行するには、このオプションを選択します。開始時刻フィールドからチェックを実行する時刻を選択

→毎週：毎週 NCCチェックを実行するには、このオプションを選択します。あなたからのチェックを実行する曜日と時刻を選択しオンと開始時刻のフィールドを。たとえば、[オン]フィールドで日曜日と月曜日を選択し、[開始時刻]フィールドから午後3時を選択すると、毎週日曜日と午後3時にNCCチェックが自動的に実行します

電子メールのアラート設定を使用して設定した電子メールアドレスも表示されます。レポートはすべての受信者に電子メールとして送信します[Save]をクリックします。

４．Webコンソールを使用したCheckの実行

Prism WebコンソールのHealthダッシュボードからNCCチェックを実行可能

すべてのチェックを一度に実行するように選択することができます。失敗したチェックや警告を表示したり、選択した特定のチェックを表示したりすることができます。

ヘルスダッシュボードの[Action]ドロップダウンメニューからCheckを実行します。
クラスタに対して実行するチェックを選択します。
a. すべてのチェック：すべてのチェックを一度に実行するには、このオプションを選択
b. 失敗および警告チェックのみ（Only Failed and Warning Checks）：ヘルスチェックの実行中に、失敗または警告を出したCheckのみを実行するには、このオプションを選択
c. 特定のチェック：このオプションを選択し、実行するテキストボックスにCheckまたはCheckの名前を入力します。
このフィールドは、Checkの名前の入力を開始すると自動入力。
この実行のために選択したすべてのチェックは、[Added Checks]ボックスに表示されます。
選択した電子メールのクラスタチェックレポートを送信クラスタチェック後にレポートを受信するためのオプションを選択し、電子メール構成を受信するには、アラートの電子メール構成を構成していることを確認します。

実行のステータス（成功または中止）は、タスクダッシュボードで使用できます。デフォルトでは、すべてのイベントトリガーチェックが渡されます。また、ヘルスダッシュボードの[Summary]ページは、ヘルスチェックの実行状況に応じて更新

5．Webコンソールを使用したログの収集

Prism Webコンソールのホームダッシュボードから直接ログを収集可能。コントローラVM、ファイルサーバ、ハードウェア、アラート、ハイパーバイザ、およびシステムのログを収集可能。タスクが完了すると、タスクダッシュボードからログバンドルをダウンロード可能です。

正常性ダッシュボードの[アクション]ドロップダウンメニューから[ログコレクタ]を選択します。
ログを収集します。
a. Collect Logs starting nowを収集する：時間数または日数に基づいてログを収集するには、このオプションを選択します
b. Custom Date Range：このオプションを選択すると、開始日と終了日のフィールドに日付範囲を指定します。時間フィールドは、現在の時間で自動的に更新されます。ただし、収集操作を開始する時刻を選択するオプションもあります。
[Run Now]をクリックして操作を開始します。

操作が終了すると、最後の2回分のログバンドルをタスクダッシュボードからダウンロードして、後で分析することができます。

参考にして頂ければ幸いです。よろしくお願い致します。

仮想化・HCI・クラウド・IT関連の備忘録

2021年7月27日火曜日

Nutanixクラスタの正常性の確認について～Health Monitoring～

0 件のコメント:

コメントを投稿