アクトインディ開発者ブログ

子供とお出かけ情報「いこーよ」を運営する、アクトインディ株式会社の開発者ブログです

1人体制での死活監視

一定規模以上のWebサイトを運営しているエンジニアの方、業務時間外の障害対応ってどういう風にやっていますか? ルールとか体制とかを中心に教えてほしいです。 ちなみに.. – 人力検索はてな

ちなみにぼくの会社では、監視ツールや自作監スクリプトでアラートをエンジニア社員全員に送って、誰かが対応することになっています。(たまに誰も対応やレスをしなくて上司に怒られます) これはぼくら社員にとって正直ストレスになるので、なにかよいルールや体制を上司に提案したいなと考えています。

はてなでこういう質問がありました。たしかに大きいところではストレスになりますよね。 うちは「一定規模以上のWebサイトを運営してい」ないので特にストレスは感じないです。(アラート受ける人も2人しかいないし・・・)
Montasticという無料でWebのステータスをチェックしてアラートを送ってくれるサービスを使っています。
これだとHTTPしかチェックしてくれないのでライブドアのDATAHOTEL PATROLというやつも試してみたいところです。
それとRailsのExceptionNotifierプラグインのみです。
社内に監視システムを構築するとその監視システム自体の維持が大変なのでやってません。
品質とのトレードオフだと思いますが、基本的に、
「人員1人体制想定でどこまで品質を高められるか」
という方向でがんばってみたいと思います。