こんにちは。SREチームの吉澤です。最近はインフラコストマネジメントプロジェクトという新しいプロジェクトも兼務し、Cost Explorerとにらめっこする日々を過ごしています。これはANDPAD Advent Calendar 2024 6日目の記事です。
アンドパッドは、11/28(木)〜29(金)開催のCloudNative Days Winter 2024(CNDW2024)にブーススポンサーとして協賛しました!
今回はアンドパッドブースの様子と、現地参加したメンバーによるおすすめセッションをご紹介します。これからCNDW2024の内容を追うぞ!という方は、ぜひご参考ください。
- アンドパッドブースの様子
- SRE/CREメンバーがおすすめするセッション
- CNDW2024全体を通しての感想
- 今年から来年にかけての登壇予定
- We are hiring!
アンドパッドブースの様子
アンドパッドでは、SREチームのプレゼンス向上および採用強化を目的に、2023年からクラウド関連イベントでスポンサーブースを出展しています。今回はCNDT2023、SRE NEXT 2024に続く、3回目の出展でした。
過去2回のブース出展を踏まえ、今回は以下のような思いから、SREチームと関連の強い他チームも巻き込んだ活動を検討しました。
- アンドパッドでは、本人の希望とスキル次第で、(現在のSREチーム単体よりも)広い範囲の活躍の場があると来場者にわかってほしい
- そのために、SREに限らず、xRE/セキュリティチームの範囲を含む、広い範囲の取り組みをアピールしたい
そして各チームと相談を重ねた結果、今回のイベントでは、SREとその隣接分野に関わるチーム(CRE/DBRE/セキュリティ/インフラコストマネジメント)の技術トピックを伝えるチラシを配布しました。
来場者からは各チームの活動をイメージしやすいと好評でした。次回も、アンドパッド社内の技術トピックやチームメンバーの人となりが伝わるような新作を用意しますので、その際はぜひアンドパッドブースにお越しください!
SRE/CREメンバーがおすすめするセッション
ここからは、現地参加したSRE/CREメンバーによる、おすすめセッションのご紹介です。すべては紹介しきれないので、1人あたり1〜2本に厳選してもらいました。
プレゼン資料については、私が見つけた範囲でリンクを張りました。もし、新たに公開された資料が見つかりましたら、記事を更新します。
SREチームマネージャー角井さんのおすすめ
成熟度別 Platform Engineering アーキテクチャ道場!(Amazon Web Services Japan G.K. Yamadaさん)
- アーカイブ動画:CNDW2024公式サイト
- プレゼン資料:Speakerdeck
「Platform Engineeringの成熟度モデル」に基づき、各段階に対応するリファレンスアーキテクチャを具体的に示してくれるセッションでした。黎明期から成熟期まで、段階的に責任範囲を広げ、高度な実践内容を盛り込んでいく考え方は、これからPlatform Engineeringを始める組織にとって非常に参考になります。
セッションでは、クラスターのB/G Upgrade・Gatekeeping・CI環境・コスト最適化・プロジェクトTemplateなど、この先アンドパッドでチャレンジしていきたい領域や、その他のPlatformアーキテクチャが紹介されていました。PlatformチームとDevチームの責任範囲の考え方と、その具体的な方法論が学べるセッションでした。
SREチーム千明さんのおすすめ
システムリプレイスプロジェクト発足から7年、改めてコスト最適化に向き合う(株式会社ZOZO 横田さん、亀井さん)
- アーカイブ動画:CNDW2024公式サイト
- プレゼン資料:未公開
システムの可用性や生産性に課題があってマイクロサービス化を進めた結果、サービス単位でのコストの把握・管理が難しくなったので、コストを可視化して、最適化を進めていますという内容でした。
近年アンドパッドでもコスト可視化を実施していて、リソースにコスト配分タグを付与してCost Explorer上でサービス毎にコストを確認できるようにしたり、Kubecostを導入してサービス毎のリソース使用状況を確認できるようにしたりしています。ただ、コスト最適化にはまだまだ課題が残っており、本講演で紹介されていた最適化の実践例は今後の参考にできそうです。
CREチーム島根さんのおすすめ
今はまだ小さい東京ガス内製開発チームが、これからもKubernetesと共に歩み続けるために(東京ガス株式会社 杉山さん、迫田さん)
- アーカイブ動画:CNDW2024公式サイト
- プレゼン資料:Speakerdeck
非IT業界かつJTCの会社が2人体制でプロダクトを内製化したという内容。2016年の都市ガス小売全面自由化に伴って、エネルギー業界でデジタル接点による顧客の獲得と顧客体験の向上が急務となったことが内製化するキッカケになったそうです。
元々管理していたアプリケーションがFat BFFとなっており、十分な改修ができなかったそうで、当初はフロントエンドのみ内製化すると言う決断をされたとのこと。そうした苦しい状況からスタートした2名体制のチームがこれまで経てきた苦難だけでなく、何を大切にして来たのか、そしてこれからどうして行きたいのかを伺うことができました。
市場から見た自分たちの見え方(使命感)というのを大事にした動き方をされており、「エンジニアだから〇〇」みたいな固定観念を払って取り組む姿勢にとても共感しました。一方でこうした歴史ある大きな組織は、新しいことに対して周りからの理解を得ることが重要と同時にとても難しいため、周囲から理解してもらうための努力も併せて参考にしたいと思えました。
間違いだらけのポストモーテム - ホントに役立つレビューはこうだ!(PagerDuty株式会社 草間さん)
- アーカイブ動画:CNDW2024公式サイト
- プレゼン資料:Speakerdeck
ポストインシデントレビュー(ポストモーテム)の正しい進め方についての講演でした。アンドパッドでも、CREチームが中心となって、ポストモーテムの文化を5年ほど醸成してきた経緯があるため、興味深く聞きました*1。
講演では、ポストインシデントレビューを行う際に人間的な要素に注目する、と言うことをポイントとして挙げられていました。現代のシステムは人が人のために構築したもので、有意義なポストインシデントレビューを行うには技術的な課題とそれを処理した社会的背景の両方を考慮する必要とのこと。
私はいままで、人間的な要素は観点としてあまり重視したことがなかったものの、理由を伺ってしっくりきました。また、それに付随してBlame-aware(非難する要素を認識した上で、それを乗り越える)と言う観点も新しい学びでした。
責任の所在を明確にしたいという傾向は人間の本性として自然な反応である一方で、メンバーがインシデントについてオープンに議論できる心理的安全性を確保する環境を作り、この障壁を乗り越えていくことで有意義になるとのこと。確かに問題の本質を理解しようとする際に当たり障りの無さすぎる進め方をしても目的から逸れてしまうだけなので、この考え方は当社でも活かしていきたいと思いました。
SREチーム吉澤のおすすめ
50以上のマイクロサービスを支えるアプリケーションプラットフォームの設計・構築の後悔と進化(株式会社LegalOn Technologies 杉田さん)
- アーカイブ動画:CNDW2024公式サイト
- プレゼン資料:Speakerdeck
LegalOn Cloudというサービスのリリースと並行して、Google Cloudへの一本化と、Platform Engineeringの実践を進めたというパワフルな事例の紹介でした。
「人的拡張性」「地域的拡張性」「プロダクト的拡張性」という3つの後悔を踏まえて、現在プラットフォームをどのように進化させているかという話をされており、プラットフォームの開発スピードの速さに驚きました。
アンドパッドのプラットフォームはまだここまでの規模ではありませんが、LegalOn Technlogogies社の事例のなかに、将来の自分たちの課題もありそうに感じました。Platform Engineering Advent Calenderに詳細な記事を書く予定とのことなので、楽しみにしています。
クラウドコストと使用量を最適化し、ビジネス価値の最大化へと導く「FinOps」の実践アプローチのご紹介(株式会社日立製作所 松沢さん)
- アーカイブ動画:CNDW2024公式サイト
- プレゼン資料:未公開
CNDW2024ではFinOps関係のセッションが数多くありました。この講演ではFinOpsの基本を紹介されていて、FinOps関係のセッションのよい導入になっていました。
前半はFinOps Foundationが提供しているFinOps Frameworkというフレームワーク(ポスターの日本語訳)の解説、後半は今年リリースされたFinOps Open Cost and Usage Specification(FOCUS)というクラウド請求書のデータフォーマットを統一規格で扱えるようにするオープンソースの技術仕様の解説でした。
FinOps Foundationには認定トレーニングや資格があり、無償のトレーニングもあるので、まずはそこから入門するのがよいとのことでした。また、日本のFinOpsコミュニティとして、Japan FinOps Meetupをご紹介されていました。
CNDW2024全体を通しての感想
アンドパッドのSREチームは、Amazon EKSを利用したマイクロサービス基盤の延長として、最近はPlatform Engineeringを推進しています。具体的にはArgo CDやAtlantisの導入を進めています。今回のCNDW2024では、Argo CDやAtlantisの導入事例に関するセッションがいくつかあり、今後の方向性を考えるうえでとても参考になりました。
また、CNDW2024ではFinOpsに関するセッションも多く、インフラコスト・クラウドコストに対する世間の関心の高まりも感じました。個人的には、FinOpsとCloudNative Daysは頭の中であまり繋がっていなかったのですが、今後はFinOpsに関する情報収集・情報発信の場としても考えたいですね。
スポンサーとしても、来場者の方と各社のSREの取り組みについてお話しでき、有意義な時間を過ごすことができました。このような貴重な場を提供して頂き、すべてのスタッフの皆様に感謝申し上げます。
今年から来年にかけての登壇予定
最後に、アンドパッドのxREメンバーの登壇予定を簡単にご紹介させてください。
クラウドセキュリティを再吟味するために〜実例から学ぶ、考慮すべき観点とその対策事例〜
12/13(金)開催のクラウドセキュリティに関するオンラインイベントで、「マルチプロダクト開発の現場でAWS Security Hubを1年以上運用して得た教訓」というタイトルで、SREチームの吉澤(私)が登壇します。
アンドパッドでは昨年の9月からAWS Security Hubを本格的に運用しています。この1年以上の運用から得られた、AWS Security Hubの運用を軌道に乗せるためのコツを「3つの教訓」にまとめてご紹介します。お昼時の、オンライン参加しやすい時間帯に開催されますので、ぜひご参加ください!
SRE Kaigi 2025
来年の1/26(日)開催のSRE Kaigi 2025で、CREチームの杉本さん、島根さんによるセッション「SREじゃなくてもできる!インシデント対応で鍛えたCREチームの4年史」が採択されました!
私が去年の3月に入社して一番驚いたのが、CREチームがポストモーテムを含むインシデント管理を主導して、ときにはインシデント指揮者の役割も果たしつつ、それがうまくいっていることでした。登壇者のお二人は、そんなインシデント管理に長年取り組んできた方なので、どんなお話が聞けるのか私もいまから楽しみにしています。
SRE Kaigiは今回が初開催のカンファレンスなので、トーク一覧を見ればすぐわかるほどの登壇者の豪華さと比べて、まだまだ知らない人が多いようです。
個人的には、SRE NEXTに次ぐxREの貴重な発表の場として注目し、応援したいと思っています。残念ながら懇親会チケットは売り切れてしまっていますが、一般参加チケットはまだ販売中なので、ぜひチェックしてみてください!
We are hiring!
アンドパッドでは、「幸せを築く人を、幸せに。」というミッションの実現のため、一緒に働く仲間を大募集しています。アンドパッドのマルチプロダクト戦略を支えるSREチームにご興味がありましたら、以下のページからご応募ください。カジュアル面談も実施しています。