Tech Magazine

45
進行をストップした深夜メンテナンスとこれから

進行をストップした深夜メンテナンスとこれから

こんにちは。はっさん (@hassasa3) です。 今回はとある日に深夜メンテナンスを行ったものの、途中で進行をストップした話を書きます。このような決断に至るまでに学びが多くあったので、一つの経験談として読者に共有します。 前提今回はデータベースの再作成を伴うアップデートをする予定でした。修正は Terraform を経由して行います。ダウンタイムが発生するため、メンテナンス画面に切り替えての作業になります。 これまでのメンテナンス作業は AWS に詳しい方にお願いし

スキ
14
SREチームのアラート対応について

SREチームのアラート対応について

はじめまして!SREチームの高山です。 2020年5月にJOINし、ちょうど3ヶ月が経とうとしているので、そろそろ記事を書こうかと思います! 5月にJOINしたばかりですが、中々に濃密な3ヶ月でしたので、その中で取り組んだアラート整理について書いていければと思います。 もし、僕に興味があるようでしたら、Wantedlyのプロフィールを参照ください! https://www.wantedly.com/projects/475948/staffings/1946316

スキ
6
SREチームのインシデント対応について

SREチームのインシデント対応について

こんにちは!SREチームの岩崎です。コロナでドタバタしてる間にすっかり夏になってしまいました。早いものです。みなさんはいかがお過ごしでしょうか? 今回はSREチームのインシデント対応について書きたいと思います。 インシデントとはインシデント(incident)とは一般的に「出来事」や「障害」を意味する用語ですが、必ずしも大きな障害だけをさすわけではなく、重大な事態に繋がりかねない軽微な事象も含みます。SRE本に出てくるインシデントは障害やアラートといったところでしょうか。

スキ
19