マガジンのカバー画像

Tech Magazine

66
CAMPFIREの開発者が「技術的な課題と解決策」や組織について綴っている記事をまとめたマガジンです。
運営しているクリエイター

#SRE

CAMPFIREのこれからのSREは面白い

こんにちは、CAMPFIRE SREテックリードの榊原です。 現在、CAMPFIREのSREチームでは新メンバーを募集中です。 候補者の方が、より具体的にイメージをもてるようにチームの魅力や課題などを率直に書いていきたいと思います。 SREとして戦う準備ができた!SREという名前であっても、実情はインフラ運用を行うチームになってしまうことってよくありますよね。 CAMPFIREのSREチームも、直近までは障害対応をおこなったり、新サーバーを構築したり、古いverをupgr

CAMPFIREとDatadogとオブザーバビリティの1年

この記事は Datadog Advent Calendar 2021 15日目の記事です。 こんにちは。SREチームのオブザーバビリティチョットデキル加我です。 なんとこちらで記事を書くのは1年ぶりでした。 去年の10月にDatadogの導入に取り組んでから1年が経過しました。 今に至るまで起きた出来事をざっくりまとめておきたいなと思ったので、定例の資料を基に当時を振り返りつつ書き残しておきます。 過去の記事の繰り返しになる部分もあるので、適度に読み飛ばして頂けると幸い

プロダクションミーティングをやってみた

これは CAMPFIRE Advent Calendar 2021 2日目の記事です。 お久しぶりです、CAMPFIRE VPoE兼SREチームマネージャーの岩崎です。今年の初めに一度はSREチームを離れたのですが、その後紆余曲折あり、VPoEとしてSREチームに戻ってくることになりました。改めてまたよろしくお願いします! プロダクションミーティングとは皆さんはプロダクションミーティングという言葉をご存知でしょうか。プロダクションミーティングはSRE本の後半に少しだけ出て

SREチームのマネージャーを引退します!

こんにちは、岩崎です。いつの間にか桜の季節ですね🌸東京は今週が見頃のようです。 これまで約2年に渡って、私が中心になってこの SRE note を書いてきたのですが、諸々の体制変更があり私がSREチームのマネージャーを降りることになったため、今回はそのことについて書きたいと思います。 CAMPFIRE SRE のはじまり私がSREチームのマネージャーとして記事を書くのは今回が最終回、ということで、まずはこれまでの CAMPFIRE SRE について簡単に振り返っていきたい

SREの採用で意識していること

お久しぶりです、岩崎です。年が変わってもコロナはまだまだ収まる気配がありませんが、2021年は良い年にしていきたいですね。 今回は私がSREの採用に関わるようになって意識していることを書いていきたいと思います。 どういう人に来てほしいかSREを採用しようと思った時に、みなさんはどういう人に来てほしいでしょうか。インフラに詳しい人でしょうか、それともソフトウェアエンジニアリングができる人でしょうか、あるいは全く別のバックグラウンドを持っている人でしょうか。 SREはインフ

SREチームとオンボーディングのちょっといい話

これは CAMPFIRE Advent Calendar 2020 の18日目の記事です。 こんにちは。SREチームの加我です。12日ぶりですね。 今回はSREチームのオンボーディングについて話していきます。 以前とあるテックカンファレンスにて「コロナ禍で入社後即リモートってオンボーディングが難しいよね」みたいな話をしたことがあります。 一方、同じ状況下でも弊社のSREチームは比較的上手くいってると感じており、それについて自分なりの考察をしていこうと思います。 ※オンボー

Datadog APMの活用で爆速改善の巻

これはCAMPFIRE Advent Calendar 2020の6日目の記事です。 はじめまして。SREチームの加我です。 CAMPFIREのモニタリング周りを12月に刷新しました。 刷新に至った経緯や感じていた課題、導入して良かった事を書きます。 これまでのCAMPFIRECAMPFIREは Mackerel というモニタリングサービスを利用していました。 (余談ですが別のサービスでは今でもMackerelをバリバリ使っています) Mackerelは導入のハードルの

SREチームのアラート対応について

はじめまして!SREチームの高山です。 2020年5月にJOINし、ちょうど3ヶ月が経とうとしているので、そろそろ記事を書こうかと思います! 5月にJOINしたばかりですが、中々に濃密な3ヶ月でしたので、その中で取り組んだアラート整理について書いていければと思います。 もし、僕に興味があるようでしたら、Wantedlyのプロフィールを参照ください! https://www.wantedly.com/projects/475948/staffings/1946316

SREチームのインシデント対応について

こんにちは!SREチームの岩崎です。コロナでドタバタしてる間にすっかり夏になってしまいました。早いものです。みなさんはいかがお過ごしでしょうか? 今回はSREチームのインシデント対応について書きたいと思います。 インシデントとはインシデント(incident)とは一般的に「出来事」や「障害」を意味する用語ですが、必ずしも大きな障害だけをさすわけではなく、重大な事態に繋がりかねない軽微な事象も含みます。SRE本に出てくるインシデントは障害やアラートといったところでしょうか。

一ヶ月でアクセスが4倍になった話

こんにちは!SREの岩崎です。今回は「一ヶ月でアクセスが4倍になった話」と題して、最近の急激なアクセス増に対応した話を書こうと思います。SEO対策やグロース施策でアクセスが4倍になった話ではありませんのでご了承ください…。 コロナウィルスサポートプログラム前回も少し触れた通り、CAMPFIREではコロナウィルスサポートプログラムというコロナで被害を受けられた方々向けのプログラムを展開しています。 そして非常にありがたいことに、現在までたくさんの方々にこのプログラムを利用し

SREチームのミッションについて

こんにちは、SREの岩崎です。最近はコロナウィルスの影響でリモート勤務になっている会社さんが多いですね。弊社も先月からリモート体制なので、最近は自宅からサイトの信頼性を守っております。 さて、今回はCAMPFIREのSREチームのミッションについて書きたいと思います。 CAMPFIRE SREのミッションCAMPFIRE SREチームのミッションは以下になります。 Mission ・サービスの信頼性を担保する     ・ 定常的な運用業務     ・ セキュリティの堅

SRE本の輪読会が終わりました!

明けましておめでとうございます!SREの岩崎です。去年の終わりに約一年続けてきたSRE本の輪読会が終わったので、そちらについて書きたいと思います。 去年全体の振り返りについてはSREアドベントカレンダーという形で書かせてもらいましたので、よければそちらもご参照ください。 https://qiita.com/yuzoiwasaki/items/d8b56a98822e2b2bb6e7 SRE勉強会CAMPFIREのSREチームでは、去年の2月からSRE勉強会という名前の社内

ポストモーテムとは

ポストモーテム(Postmortem)とは想定外のインシデントが発生した後に書かれる内部向けの報告書である。ポストモーテムの目的は組織的な学習であり、インシデントの細部を明らかにするために非難のない文化を重視する。ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれる。 ポストモーテムの作成ポストモーテムを書くことの主な目的は、インシデントが

エラーバジェットとは

エラーバジェット(Error Budgets)とはエラーに対する予算であり、SLOに基づき算出される損失可能な信頼性である。サービスの計測された稼働時間がSLOを超えている、換言すればエラーバジェットがまだ残っている状態であれば、チームは新しいリリースをプッシュ(デプロイ)できる。エラーバジェットはプロダクトマネージャーによって規定される客観的なメトリクスであり、SREとプロダクト開発者の緊張を取り除くものである。 SREにおけるエラーバジェット一般的にプロダクト開発チーム