リソースの割り当てに関する問題のトラブルシューティング

アプライアンスにおける一般的なリソース割り当ての問題のトラブルシューティング

メモ

継続的インテグレーション (CI) システム、ビルドサーバー、またはその他のクライアント (Git や API クライアントなど) からお使いの GitHub Enterprise Server インスタンスへのリクエスト（ポーリング）を定期的に繰り返し行うと、システムが過負荷になる可能性があります。これがサービス拒否 (DoS) 攻撃になり、重大なパフォーマンスの問題とリソース不足が発生する可能性があります。

これらの問題を回避するために、Webhook を使用して更新プログラムを受信することを強くお勧めします。 Webhook を使用すると、システムは更新プログラムを自動的にプッシュできるため、常にポーリングする必要がなくなります。さらに、条件付き要求とキャッシュ戦略を使用して、不要な要求を最小限に抑えることも検討してください。大規模な同時バッチ (thundering herds、つまり雷鳴の群れ) の中でジョブを実行することを避け、代わりに Webhook イベントがアクションをトリガーするのを待ちます。

詳しくは、「webhook について」をご覧ください。

モニターダッシュボードを使用してアプライアンスリソースの健全性を常に把握して、このページで説明している問題などの高利用率の問題の解決方法を判断することをお勧めします。

システムクリティカルな問題については、アプライアンスを変更する前に、 GitHub Enterprise サポートにアクセスしてサポートバンドルを含めることで、Microsoft にお問い合わせすることを強くお勧めします。詳しくは、「GitHub サポートにデータを提供する」をご覧ください。

CPU 使用率が高い

考えられる原因

インスタンスの CPU がワークロードに対して適切にプロビジョニングされていません。
新しい GitHub Enterprise Server リリースにアップグレードすると、多くの場合、新機能により CPU とメモリの使用量が増加します。さらに、アップグレード後の移行または調整のバックグラウンドジョブが完了するまで、パフォーマンスが一時的に低下する可能性があります。
Git または API に対する要求の増加。 Git または API への要求の増加は、過剰なリポジトリの複製、CI/CD プロセス、API スクリプトや新しいワークロードによる意図しない使用など、さまざまな要因によって発生する可能性があります。
GitHub Actions ジョブの数が増加しました。
大量の Git コマンドによる大規模なリポジトリの実行。

推奨事項

CPU コアが適切にプロビジョニングされていることを確認します。
アラートのしきい値を設定します。
アップグレード後、ghe-check-background-upgrade-jobs を実行して、バックグラウンドアップグレードジョブが完了したかどうかを確認します。
プルする代わりに Webhook を使用します。
API レート制限を使用します。
現在の操作と Git トラフィックを確認して、Git の使用状況を分析します。

メモリ使用量が多い

考えられる原因

インスタンスのメモリが適切にプロビジョニングされていません。
Git または API に対する要求の増加。 Git または API への要求の増加は、過剰なリポジトリの複製、CI/CD プロセス、API スクリプトや新しいワークロードによる意図しない使用など、さまざまな要因によって発生する可能性があります。
個々のサービスが予想されるメモリ使用量を超え、メモリ不足 (OOM) になっている。
バックグラウンドのジョブ処理が増加しました。

推奨事項

時間の経過に伴う使用量が最小推奨要件を超える可能性があるため、インスタンスのメモリがワークロードやデータボリュームに対して適切にプロビジョニングされていません。
Nomad グラフ内で、メモリ不足の傾向を持つサービスを特定します。その後に、多くの場合、再起動後に空くメモリが示されています。詳しくは、「モニターダッシュボードについて」をご覧ください。
rg -z 'kernel: Out of memory: Killed process' /var/log/syslog* を実行してメモリ不足になるプロセスのログを調べます (このためには、まず SSH を使って管理シェルにログインします。「管理シェル (SSH) にアクセスする」をご覧ください)。
CPU サービスに対するメモリの正しい比率が満たされていることを確認します (少なくとも 6.5:1)。
バックグラウンド処理のためにキューに登録されているタスクの量を調べます。「モニターダッシュボードについて」をご覧ください。

ディスクの空き容量の低下

1 つはルートファイルシステムパス (/) にマウントされ、もう 1 つはユーザーファイルシステムパス (/data/user) にマウントされている 2 つストレージボリュームは、ディスク領域が不足している場合にインスタンスの安定性に問題が発生する原因になる可能性があります。

ルートストレージボリュームは、同じサイズの 2 つのパーティションに分割されることに注意してください。パーティションの 1 つがルートファイルシステム (/) としてマウントされます。もう 1 つのパーティションは、アップグレード時およびロールバック時にのみ /mnt/upgrade としてマウントされ、必要に応じて簡単にロールバックできるようになります。詳しくは、「システムの概要」をご覧ください。

考えられる原因

ログの量が増加するサービスエラー
オーガニックトラフィックによるディスク使用量の増加

推奨事項

(/var/log) を実行するか、手動でログのローテーション (sudo du -csh /var/log/*) を実行して、sudo logrotate -f /etc/logrotate.conf フォルダーのディスク使用量を確認します。
削除されているがファイルハンドルがまだ開いている大きなファイルがないか、ディスクをチェックします (ghe-check-disk-usage)。
ディスクストレージの容量を増やします。「ストレージ容量の増加」をご覧ください。

通常よりも長いレスポンスタイム

考えられる原因

Git または API に対する要求の増加。 Git または API への要求の増加は、過剰なリポジトリの複製、CI/CD プロセス、API スクリプトや新しいワークロードによる意図しない使用など、さまざまな要因によって発生する可能性があります。
データベースクエリの速度低下。
アップグレード後、ElasticSearch のサービスリソースの使用量が増加しました。
ディスク上の IOPS クォータに到達している、または入力出力の競合が多い。
過負荷のワーカー。
Webhook の配信遅延。

推奨事項

「ディスク保留中の操作: キューに入った操作の数」グラフで急激な上昇や持続する数値を確認します。
[アプリケーションの要求/応答] パネルで、特定のサービスのみが影響を受けるかどうかを確認します。
アップグレード後、ghe-check-background-upgrade-jobs を実行して、バックグラウンドアップグレードジョブが完了したかどうかを確認します。
データベースログの /var/log/github/exceptions.log で遅いクエリを確認します (このためには、まず SSH を使って管理シェルにログインします。詳細については、管理シェル (SSH) にアクセスするを参照してください)。例えば、URLによるトップ10の遅延リクエストを確認することができます: grep SlowRequest github-logs/exceptions.log | jq '.url' | sort | uniq -c | sort -rn | head。
キューに入った要求グラフで特定のワーカーを確認し、稼働中のワーカー数の調整を検討します。
IOPS/スループットが高いストレージディスクを増やします。
バックグラウンド処理のためにキューに登録されているタスクの量を調べます。「モニターダッシュボードについて」をご覧ください。

エラーレートの増大

考えられる原因

Git または API に対する要求の増加。 Git または API への要求の増加は、過剰なリポジトリの複製、CI/CD プロセス、API スクリプトや新しいワークロードによる意図しない使用など、さまざまな要因によって発生する可能性があります。
haproxy サービスが失敗したか、個々のサービスが使用できません。
時間の経過に伴うリポジトリネットワークのメンテナンスに失敗しました。

推奨事項

[アプリケーションの要求/応答] パネルで、特定のサービスのみが影響を受けるかどうかを確認します。
haproxy ログを確認し、不適切なアクターが原因であるかどうかの特定を試みます。
失敗したリポジトリネットワークメンテナンスジョブを確認します (http(s)://[hostname]/stafftools/networks にアクセスしてください)。

リソースの割り当てに関する問題のトラブルシューティング

この記事で