マガジンのカバー画像

Tech Magazine

67
CAMPFIREの開発者が「技術的な課題と解決策」や組織について綴っている記事をまとめたマガジンです。
運営しているクリエイター

2020年8月の記事一覧

進行をストップした深夜メンテナンスとこれから

こんにちは。はっさん (@hassasa3) です。 今回はとある日に深夜メンテナンスを行ったものの、途中で進行をストップした話を書きます。このような決断に至るまでに学びが多くあったので、一つの経験談として読者に共有します。 前提今回はデータベースの再作成を伴うアップデートをする予定でした。修正は Terraform を経由して行います。ダウンタイムが発生するため、メンテナンス画面に切り替えての作業になります。 これまでのメンテナンス作業は AWS に詳しい方にお願いし

SREチームのアラート対応について

はじめまして!SREチームの高山です。 2020年5月にJOINし、ちょうど3ヶ月が経とうとしているので、そろそろ記事を書こうかと思います! 5月にJOINしたばかりですが、中々に濃密な3ヶ月でしたので、その中で取り組んだアラート整理について書いていければと思います。 もし、僕に興味があるようでしたら、Wantedlyのプロフィールを参照ください! https://www.wantedly.com/projects/475948/staffings/1946316

SREチームのインシデント対応について

こんにちは!SREチームの岩崎です。コロナでドタバタしてる間にすっかり夏になってしまいました。早いものです。みなさんはいかがお過ごしでしょうか? 今回はSREチームのインシデント対応について書きたいと思います。 インシデントとはインシデント(incident)とは一般的に「出来事」や「障害」を意味する用語ですが、必ずしも大きな障害だけをさすわけではなく、重大な事態に繋がりかねない軽微な事象も含みます。SRE本に出てくるインシデントは障害やアラートといったところでしょうか。