こんにちは。SREチームの吉澤です。先日のSRE KaigiではFindyさんのSRE Quizを全問正解してTシャツをもらってしまい、完全に勘で答えたので気まずくなったりしてました。
1/26(日)開催のSRE Kaigi 2025にて、アンドパッドCREチームの杉本さん、島根さんが「SREじゃなくてもできる!インシデント対応で鍛えたCREチームの5年史」というタイトルで発表しました!SREチームの私と角井さんも現地に駆けつけ、お二人を応援しました。
今回は、SRE Kaigi 2025の様子と、現地参加したメンバーによるおすすめセッションをご紹介します。これから内容を追う方の参考になれば幸いです。
- SRE Kaigi 2025会場の様子
- アンドパッドCREチームの杉本さん、島根さんによるセッション
- SRE/CREメンバーがおすすめするセッション
- SRE Kaigi 2025全体を通しての感想
- 2月開催イベントのお知らせ
- We are hiring!
SRE Kaigi 2025会場の様子
SRE Kaigiはコミュニティベースの技術カンファレンスで、今回が初開催でした。ゆるSRE勉強会やSRE Magazineの立ち上げをされたしょっさんが実行委員長を務められています。
会場は、中野四季の森公園内にある中野セントラルパークカンファレンスのB1Fおよび1Fで、セッションは3並列。オンライン配信がない(アーカイブは後日公開予定)こともあってか来場者はとても多く、立ち見の出るセッションもあり、会場は熱気に包まれていました。
スポンサーブースはB1Fロビーと1Fの専用ルームにあり、いずれも盛況でした。今回のためにSRE向けのアンケートパネルやクイズを新たに用意している企業も多く、SRE採用にかける熱意を感じました(弊社もSRE募集中です!)。
アンドパッドCREチームの杉本さん、島根さんによるセッション
アンドパッドからは、CREチームの杉本さんと島根さんがプロポーザル採択され、「SREじゃなくてもできる!インシデント対応で鍛えたCREチームの5年史」というタイトルで発表しました。
この内容について、CREチームの島根さんがブログ記事を執筆されていますので、こちらも併せてぜひご覧ください。
今回はCREチームの活動の概要をご紹介いただきましたが、まだまだ発表していただける内容はありそうです。杉本さんも発表続編のブログを書く意欲が高まってきていますので、もし「ここをもっと詳しく聞きたい」といった感想がありましたら、ぜひXの#srekaigiハッシュタグなどにお寄せください!
発表続編のブログを書きたいが、やることリストをどんな感じでまとめたとかあれば役に立つだろうか?書ける範囲で #srekaigi_a
— まゆぞーん (@nanaka1103) 2025年1月26日
SRE/CREメンバーがおすすめするセッション
ここからは、現地参加したSRE/CREメンバーによる、おすすめセッションのご紹介です。現地で聴講したセッションのなかから、1人あたり数本に厳選してもらいました。
SREチーム吉澤のおすすめ
信頼性を支えるテレメトリーパイプラインの構築(アマゾンウェブサービスジャパン合同会社 山口さん)
- プレゼン資料:Speakerdeck
SREに関する書籍の翻訳*1に尽力されていることで有名な、AWSジャパンの山口さんによる、OpenTelemetryのテレメトリーパイプラインのパターンと、パイプライン構築時の要検討事項をまとめたセッション。
以下の4つのパターンをわかりやすく紹介されていました。テイルサンプリングとの関係についても話してくれて、利点/欠点がわかりやすく、勉強になりました。状況に応じた使い分けが必要なんですね。
- パターン1: 直結
- パターン2: サイドカー
- パターン3: プロキシ
- パターン4: コレクタープール
Improving Incident Response using Incident Key Metric(株式会社Topotal 高村さん)
- プレゼン資料:Speakerdeck
インシデント対応をサポートしてくれるSaaS「Waroom」を開発しているTopotalの代表取締役である、高村さんによるセッション。
セッションの前半では、インシデント対応の改善の評価指標としてMTTR(Mean Time To Recovery、平均復旧時間)は適さない、ということを、Incident Metrics in SREの内容をもとに詳しく解説してくれました。
そしてセッションの後半では、Waroomを開発するなかでSRE本などにあるベストプラクティスを調査してまとめたという、改善の評価指標として活用できるTTX(Time To X)を紹介してくれました。特に、「こういう点を改善したいときはこのTTXが重要」という観点で整理されているのがすばらしいです!私が今後、インシデント対応について考えるときには、必ずこの資料を読み返すことになりそうです。
Platform EngineeringがあればSREはいらない!? 新時代のSREに求められる役割とは(株式会社メルカリ 渋谷さん、那珂さん)
- プレゼン資料:Speakerdeck
メルカリのSREである渋谷さんと、メルカリハロのSREである那珂さんによるセッション。かなりドキッとするタイトルですが、メルカリはPlatform Engineeringにかなり昔から(私が知っているだけでも5年以上前から)取り組まれている先進企業のため、ぜひ聞きたい内容でした。
メルカリハロというサービスの立ち上げ時に、那珂さんがPlatformと開発チームの間を繋ぐ役割を果たした経験をもとに、タイトルにある「新時代のSREに求められる役割」を話されていました。
メルカリのようにPlatformが成熟している企業でも、開発チームがPlatformを使う際には高い認知負荷や、Platformの想定するユースケースと実際の現場のギャップが問題になったとのこと。SREは、Platform Readiness Check(PRC)などの活動を通し、その橋渡しとなったそうです。
このセッションの結論は、「今後は、SREがPlatformと開発者の橋渡しをすることが求められる」という内容と理解しました。ただ、個人的にそれはSREの延長というより、インフラエンジニアの延長のように感じました。あるいは、Platformのカスタマーサクセスのような存在?
このあとの草間さんのプレゼン資料p.36〜37でも語られていたのですが、Platform Engineerの働き方にはいくつかのバリエーションがありそうです。このセッションで語られたSREは、従来のSREとPlatform Engineerの間に位置するような、Platform Engineerの一形態と受け取りました。
あなたの興味は信頼性?それとも生産性? SREとしてのキャリアに悩むみなさまに伝えたい選択肢(PagerDuty株式会社 草間さん)
- プレゼン資料:Speakerdeck
クラウドネイティブイノベーターズ協会の代表理事であり、現在はPagerDutyのProduct Evangelistである草間さんによるセッション。これもドキッとするタイトルですね。
SREのよく感じる悩みについて一通り触れたのちに、SREの探求にある図を用いて、SREのありがちな悩みを以下のように整理されていました。これは、SRE歴がもうすぐ8年になる自分としても、とてもよくわかる説明でした(確かにやってるのってこの「実態」の範囲ですね)。
そのうえで、今後SREとPlatform Engineerのどちらに進むか考える際には、このどちらの矢印(右から左か、左から右か)に自分のモチベーションがあるのかを考えると良い、とまとめられていました。
そして、セッションの最後には、SREとPlatform Engineeringのどちらを志向するにせよ、AI Agentの影響は避けられない、まずは自分で触ってみて、と強く主張されてました。お恥ずかしながら私はまだ触っていなかったので、まずはClineを触ってみたいと思っています。
SREチームマネージャー角井さんのおすすめ
Site Reliability Engineering on Kubernetes(株式会社スリーシェイク nwiizoさん)
- プレゼン資料:Speakerdeck
Kubernetesを使ったSRE、GitOps、ObserverbilityのCloud Nativeベースの実装事例や、それらを支えるOSSツールの紹介が主だった内容でした。
CloudEventsやCrossplaneは知らなかったので、新しいナレッジの吸収が出来たと思います。アンドパッドで採用している技術も多く登場し、改めてどのように役立っているか、なにを実現しているかの理解が深まりました。
また、最近の本や有名なページから引用して分かりやすく正しく説明しており、親切なセッションでした。
- GitHub - jamiehannaford/what-happens-when-k8s: 🤔 What happens when I type kubectl run?
- tag-observability/whitepaper.md at main · cncf/tag-observability · GitHub
口頭にて、成熟度に合わせて選定や設計をするのが大事という説明がありました。何を持って組織がある程度成熟したと判断するかは難しいので、実際になにか決めるときは認識合わせが重要そうだと思いました。
実践: Database Reliability Engineering ~ クラウド時代のデータベースエンジニアの役割 ~(KINTOテクノロジーズ株式会社 粟田さん)
- プレゼン資料:Speakerdeck
1人目DBREから始まって、高難易度なプロジェクトをどのようなツールセット・責務で乗り切ってきたかを説明していました。
多くの場面でチームを主語にしていたので、マネジメントを意識した内容になっているように思えました。
DB Catalog(shenron)はとても便利そうだなと感じました。また、Auroraアップグレード時の動作確認を、本番ワークロード再現して行っている点について、徹底的な仕事に感心しました。これらの取り組みを実践できると、効果が高い組織は多そうです。
Ask the Speakerが混んでいたため、人が捌けてから話を聞きに行ったところつい長話してしまい、気付いたら次のセッションが終わっていました。主に、レギュレーションと施策の折り合いの付け方、DBRE/SREがどう事業貢献するか、マネジメントの役割、などについて意見交換をしました。
SREとしてスタッフエンジニアを目指す(newmo株式会社 tjunさん)
- プレゼン資料:Speakerdeck
タイトル通りの経歴をお持ちのtjunさんのキャリア・経験をもとに、SREのキャリアパスを示す内容でした。
スタッフエンジニアというタイトルでポジションを用意していない会社も多いと思いますが、長いキャリアを考える上で先を走っている方の発信はとてもためになりました。
実際にスタッフエンジニアに相当する上級技術職のポジションを用意している会社のJDから、どのような能力を求めているかを読み取ることができ、おおよそ共通しているのは、以下の3点だそうです。
- 技術力と実行力
- コミュニケーションと信頼感
- 戦略的な思考(コストの意識はここに含まれる)
組織の重要な課題に取り組み、大きな影響を与えることができるので、とてもやりがいがありそうです。
印象に残っているスライドは以下で、改めて見ると凄いですね。1度マネジメントからICに戻ってらっしゃるのも印象的でした。
特に、組織や事業に対して影響力を大きくしていく必要がある点については刺さった人が多いのではないでしょうか。私自身も自分のキャリアや歩みたい方向性を再確認できた良いセッションでした。
CREチームマネージャー杉本さんのおすすめ
どうやればインシデント対応能力を鍛えられるのか?(株式会社フライル 髙石さん)
- プレゼン資料:Speakerdeck
個人のインシデント対応能力を高めるにはどうすればよいか?についてまとめてくださったセッションでした。
杉本はCREとしてインシデント対応をしていますが、ここの能力を鍛えるというのは(特に後進育成の面で)悩む部分が多いので参考になりました。特に4つの要素に分解してくれたことが個人的には目からウロコで、明確に「ここを鍛えよう」という意識が向きやすくなる効果を感じました。
- インシデント対応のスキル要素を以下の4つに分割する
- ハードスキル:プログラミング言語、データベース、Linuxなど
- ソフトスキル:チーム内外のコミュニケーション、リーダーシップなど
- 経験:これまでに行ったインシデント対応経験の量
- システム理解:対象システムについてどこまで理解しているか
- 上記の要素の掛け合わせでインシデント対応能力を鍛えることができる
- ハードスキルは、可搬性の高いものを習得することが近道
- ただし、実業務によって習得すべきものは変わる
- ソフトスキルは可搬性が高く、寿命も長い
- 実践で身につける部分が大きそう
- (杉本感想)個人的にとても同意
- 実践で身につける部分が大きそう
- 経験は擬似的な対応で経験を積める
- シャドーイング
- (杉本感想)これはアンドパッドCREでもよくやっていることです
- (杉本感想)なんとなくこのやり方から始めていたのですが、言語化できて腑に落ちました
- 障害対応訓練
- イベント
- シャドーイング
- システム理解は、個人・組織の両面で取り組むのが大事
- (杉本感想)確かに、CREが各プロダクトの仕様をまとめていったところ、インシデント対応(緊急でないものも含む)をされるPdMやSWEに感謝されたことがありました
- (杉本感想)このように組織的に対応していくことが、インシデント対応能力を高める近道になるのだと感じました
CREチーム島根さんのおすすめ
もっとSREの裾野を広げるための初学者向け技術研修設計(株式会社GMOペパボ 染矢さん)
- プレゼン資料:Speakerdeck
自分が所属するCREチームでも業務平準化に取り組んでいるため、参考にしたいと思って聴講しました。
SREは求められるスキルが幅広いのに、属人化しがちで、スキルの学習機会も少ない。そのため、新卒エンジニア向けに行なっている技術研修に、SREスキルを育成する内容を盛り込んだそうです。
「他者に伝わるように出力することで習得が深まる」との考えから、研修ではアウトプットを重視されたようです。個人的に最も参考になったのは研修の進め方の部分で、Why > How > Why(技術へのモチベーションを最初に与えて、修得した技術に腹落ちさせていく)という方法がなるほどと思いました。
この研修を実施してみて成果を感じられた一方、インプットとのバランスや時間配分といった課題も見つかったとのことで、やはりどの会社さんでもやってみないと分からないことってあるよねと共感しました。
全体的にスライドがまとまっていましたが、何よりも染矢さんの話が非常に上手で終始聞き入ることができたので、そうした点も今後の参考にしていきたいと感じた素晴らしいセッションでした。
SRE Kaigi 2025全体を通しての感想
SRE Kaigiはこれが初開催にも関わらず、セッションの内容も、スポンサーブースの展示も、初開催とは思えないほど充実したイベントでした。このような素晴らしいイベント、特にSREにとっての新しい発表の場を作っていただいたことについて、すべてのスタッフおよび関係者の皆様に感謝申し上げます。
セッションの傾向としては、SREの探求のp.204にある「SRE/DevOps/アジャイル戦略のLimoncelliモデル」を引用したセッションの多さが印象に残りました(例えば、草間さんのプレゼン資料のp.18)。SREをはじめようのp.9にも同じ図が掲載されており、そちらを引用されている方もいました。それらのセッションはいずれも盛況で、SREとPlatform Engineerの違いに関心を持つ人が増えているのを感じました。
アンドパッドのSREチームでも、まさにPlatform Engineeringの領域に含まれる取り組みが増えてきました。来年のSRE Kaigiでは、SREチームからもプロポーザルを通せるよう頑張ります!
2月開催イベントのお知らせ
最後に、アンドパッドのSREメンバーの登壇予定をご紹介します。
2/21(金)のゆるSRE勉強会 #9は、秋葉原のアンドパッド本社9F「ANDPADコミュニティ」で開催します!
会場スポンサーLTとして、SREチームマネージャーの角井から「Amplify で SPA をホスティングする際の注意点(仮)」というタイトルでお話しします。また、スポンサーブースを設置し、各種ノベルティが当たるおみくじを実施予定です。
すでに満席になっており、キャンセル待ちの状態で恐縮ですが、もしご都合が合いましたら当日は是非会場までお越しください。
We are hiring!
アンドパッドでは、「幸せを築く人を、幸せに。」というミッションの実現のため、一緒に働く仲間を大募集しています。アンドパッドのマルチプロダクト戦略を支えるSREチームにご興味がありましたら、以下のページからご応募ください。カジュアル面談も実施しています。
*1:最新の訳書は入門OpenTelemetry。会場のオライリーブースで買いました!