はじめに
オライリーから出ている「入門 監視」を読んで、監視におけるアンチパターンを自分なりにまとてみた
1. ツールへの依存
- すべてを網羅し、見やすいツールは存在しない
- システム全体を見て、それぞれの監視したい内容に特化したツールを使うべき
- ツールの多さは問題なし
- ツールの使用実績よりも、システムとして必要なのかを見極める
2. 「監視する人」という役割を作成
- システムに関わる人全員が、設定されている監視についてある程度知っているべき
- 全員が知ることで、監視の仕組みを考えやすくなる
- そもそも、チーム全体でシステム(本番環境)の責任を背負うべき
3. 表面的な安心を得るためだけに監視
- なにをもって「システムは正常に動いている」のかを明確にしておくべき
- 正常系の理由が明確になっていない監視のアラートは無意味
- 監視間隔は短くするべき(なお、環境次第。検証環境で要検証)
4. 監視によってシステムの正常性を確保
- システムでなにか異常系が発生するたびに、監視を追加するのはナンセンス
- 監視でカバーしなくちゃいけないほど不安定なシステムは、一度止めて作り直すべき
- 監視をすることでシステムが改善することはない
5. 手動による設定、障害対応
- 自動化させるべき
- 手動だと、監視の追加設定や修正などに多くの時間をかける羽目になる
- 「監視の設定方法」「障害発生時の対処方法」は簡潔にすべき
アンチパターンまとめ
- ツールへの依存
- 「監視する人」という役割を作成
- 表面的な安心を得るためだけに監視
- 監視によってシステムの正常性を確保
- 手動による設定、障害対応
おわりに
「2025年の崖」の件もあるし、この辺意識して業務を可能な限りRPA、RBAを進めていくべきなのかもしれない。