Nの外部記憶

作ったアプリや、作成時の備忘録を書くブログ。やりたいことが多すぎるッ!

監視におけるアンチパターンについて

はじめに

オライリーから出ている「入門 監視」を読んで、監視におけるアンチパターンを自分なりにまとてみた

1. ツールへの依存

  • すべてを網羅し、見やすいツールは存在しない
  • システム全体を見て、それぞれの監視したい内容に特化したツールを使うべき
  • ツールの多さは問題なし
  • ツールの使用実績よりも、システムとして必要なのかを見極める

2. 「監視する人」という役割を作成

  • システムに関わる人全員が、設定されている監視についてある程度知っているべき
  • 全員が知ることで、監視の仕組みを考えやすくなる
  • そもそも、チーム全体でシステム(本番環境)の責任を背負うべき

3. 表面的な安心を得るためだけに監視

  • なにをもって「システムは正常に動いている」のかを明確にしておくべき
  • 正常系の理由が明確になっていない監視のアラートは無意味
  • 監視間隔は短くするべき(なお、環境次第。検証環境で要検証)

4. 監視によってシステムの正常性を確保

  • システムでなにか異常系が発生するたびに、監視を追加するのはナンセンス
  • 監視でカバーしなくちゃいけないほど不安定なシステムは、一度止めて作り直すべき
  • 監視をすることでシステムが改善することはない

5. 手動による設定、障害対応

  • 自動化させるべき
  • 手動だと、監視の追加設定や修正などに多くの時間をかける羽目になる
  • 「監視の設定方法」「障害発生時の対処方法」は簡潔にすべき

アンチパターンまとめ

  1. ツールへの依存
  2. 「監視する人」という役割を作成
  3. 表面的な安心を得るためだけに監視
  4. 監視によってシステムの正常性を確保
  5. 手動による設定、障害対応

おわりに

「2025年の崖」の件もあるし、この辺意識して業務を可能な限りRPA、RBAを進めていくべきなのかもしれない。