こんにちは。SREチームの吉澤です。
7/2(火)に開催されたSRE Lounge #17の会場として、秋葉原のアンドパッド本社の9Fにあるイベントスペース「ANDPADコミュニティ」と懇親会用の飲食物を提供させていただきました!
面白い発表が多いイベントでしたので、今回はこのSRE Lounge #17のイベントレポートをお送りします。また記事の最後に、8/3(土)〜4(日)に開催されるSRE NEXT 2024でのアンドパッドブースも軽くご紹介します。
SRE Lounge #17のアーカイブ配信
今回のイベントはハイブリッド開催でした。YouTubeでアーカイブ配信をご視聴いただけます。配信を準備してくださった、SRE Lounge/NEXTの最強配信チームの皆様ありがとうございました!
アンドパッドのスポンサーセッション
会場スポンサーとして、私から「開発チームとともに進めるインフラセキュリティの継続的な改善」というタイトルで発表しました。
アンドパッドのSREチームでは、インフラセキュリティの継続的な改善をSREチームだけのタスクにせず、開発チームとともに進めるためにいろいろな工夫をしています。今回は、以下の取り組み2件を題材に、その具体的な内容をご紹介しました。
- 継続的なセキュリティ診断の導入
- AWS Security Hubを導入し、ベストプラクティスに基づいたチェック結果を確認しやすくした事例
- ウイルススキャンシステムのリプレースおよび運用改善
- これまで使っていたシステムをAntivirus for Amazon S3というソフトを使ったシステムにリプレースすると同時に、ウイルススキャンの設定を把握しやすくした事例
今回の発表内容は、開発チームとの連携にフォーカスしたため、システムの詳細には触れませんでした。システムの詳細については、以下の記事をご参考ください。
Xで頂いた質問
残念ながら、私はイベント直前に、コロナの濃厚接触者になっている可能性があるとの連絡を受けたため、(SREらしく)安全側に倒してオンラインで参加しました。そのため、X上で、頂いた質問にいくつか回答しました。その一部を要約してご紹介します。
- [Q] Security Hubの「セキュリティスコア」は何らかの形で運用に活用できていますか?
- [A] セキュリティスコアは特に活用していません!必要なコントロールを精査したり、問題を徐々に解決することで、徐々にスコアは良くなっていますが、これ自体をなんらかの判断には用いていません
- [Q] Antivirus for Amazon S3と、2024/6/11にリリースされたAmazon GuardDuty Malware Protection for Amazon S3はどちらがよいのでしょうか。費用比較などはされましたか
- [A] 発表された直後に機能と費用を確認しました。弊社の事例では、Amazon GuardDuty Malware Protection for Amazon S3は機能要件を満たさず、スキャンコストも上がりそうなので、今のところ移行は考えていません。今後のアップデートに注目しています
各セッションの紹介と感想
以下、各セッションの紹介と、私の感想です。プレゼン資料が公開されているものは添付しています。
飲食店のインフラサービス “ダイニー” のトラブル対応のすべて(dinii, inc. 唐澤さん)
少し前に、マクドナルドのシステム障害がニュースになっていました。ダイニーがターゲットとする居酒屋ではマクドナルドよりオペレーションが複雑(予約&長時間&後会計)なのでシステム障害のインパクトもより大きくなる、という導入から始まり、インシデント対応の改善に関する最近のトピック(下記)をご紹介されていました。
- 大規模障害訓練
- スタンドアロン機能
- ユーザーサポートとの連携
- インシデントレポート
- オンコール
- ポストモーテム
- パフォーマンスレビュー
「大規模障害訓練」の話が個人的にとても面白く、X上でも盛り上がっていました!
障害訓練をするだけでもきちんとインシデント対応に投資されているのがわかりますが、エンジニア、ユーザーサポート、営業の全メンバーを集めているというのには驚きました。
この障害訓練では役割をインシデントオーナー、対外発信責任者、顧客対応責任者、飲食店役に分けているそうです。SREワークブックにあるコミュニケーションリードの役割(私が過去に書いた解説)を、さらに「対外発信責任者」と「顧客対応責任者」の2つに分けているのは、過去の経験が生かされていそうで面白いと思いました。
他にも、ダウンタイムが発生した場合も飲食店のオペレーションが回るようにするためのスタンドアロン機能の話や、24時間毎のローテーションでほぼ全エンジニアが対応しているオンコールの話(spike.shを使っているそうです)など、飲食業界ならではのポイントが色々あるんだなと勉強になりました。
あと、発表の冒頭で秋葉原のおすすめ飲食店情報を紹介されていたのは、ダイニーらしさが出てて面白かったです(おすすめ飲食店情報のタイムスタンプ)。
イベント後には、広報の方が以下の関連記事をポストされていました。こちらも、ダイニーのインシデント対応への力の入れ方がわかる、勉強になる内容でした。
WAFでどのリクエストがBlockされたのか、ログを集計してSlackで簡単に見れるようにした(株式会社メタップスホールディングス 是永さん)
WAFがブロックしたアクセスの内容をSlackへ通知するために構築したシステムと、WAFのログを深堀りしてルールの調整や訓練をする運用についてご紹介されていました。
WAFでブロックしたアクセスが一定ラインを超えたらDatadogでアラートする仕組みを作ったところ、通知が多くて確認が大変になったため、ブロックしたアクセスの内容を通知できるようにしたそうです。内容を通知すれば、無差別に来る悪意のあるリクエスト(WAFのブロックに任せて問題ないもの)は一目で判断できるようになる、とのことで、なるほどと思いました。
CodeBuild上でGitHub Actionsを動かしてDBマイグレーション効率化(ウェルスナビ株式会社 森さん)
ウェルスナビでは複数の新規プロダクト開発が活発化しているとのことで、そのような複数のプロダクトアカウントにSQLを実行するためのシステム構成を解説されていました。
もし開発中に任意のSQLを実行できると、データを盗み見るようなことにも使えてしまいます。そのためこのシステムでは、プルリクエストのレビューが完了し、マージした段階でdry-runが実行されるそうです。確かに、素直に実装すると見逃しそうな観点だと思いました。
こちらのシステムはまだ開発中で、開発完了したらウェルスナビの開発者ブログで紹介予定とのことでした。期待してお待ちしています!
開発者が安心して実行可能なSQL実行基盤の取り組み(株式会社LayerX 多田さん)
Bytebaseというツールを導入して、データベースに対するデータ変更を、承認後のみ、各ユーザーに権限を渡すことなく行えるようにした事例をご紹介いただきました。
データベースのデータ変更のために踏み台サーバを使うというシステム構成はよくありますが、踏み台サーバでは様々なことができてしまうため、セキュリティ的に望ましくありません。私はこのBytebaseを知らなかった(Xでも知らなかったという意見が多かった)のですが、ぜひ使ってみたいと思いました。
また、イベント後に詳しいブログ記事が公開されました!発表にはなかった情報(プランの話など)が補足されていて、勉強になりました。
ポストモーテム運用を導入した話(株式会社BookLive 日向野さん)
直近でチームメンバーの増減があり、新規メンバーへの知識共有や、サイロ化の解消を目的としてポストモーテムを導入した事例をご紹介いただきました。
システム的に安定した状態が続くと、確かにポストモーテムを書く機会は減りそうです。安定しているシステムでもポストモーテム導入の意義があったという話は面白いと思いました。
おわりに
久しぶりに参加したSRE Loungeでしたが、いろいろ面白い発表を聞けて、自分の発表にもコメントをたくさんいただけて、非常に有意義な時間を過ごせました。SRE Loungeスタッフの皆さん、そして会場・懇親会スポンサーに向けて動いてくださったアンドパッド広報の広瀬さん、本当にありがとうございました。
SRE NEXT 2024 アンドパッドブースおよびスポンサーLTのご案内
アンドパッドは、8/3(土)〜4(日)に渋谷のAbema Towersで開催されるSRE NEXT 2024にゴールドスポンサーとして協賛しています。
アンドパッドブースでは、恒例のおみくじとノベルティをご用意する予定です。以前から好評の軍手に加えて、先日のRubyKaigi 2024からはミニ工具セットもノベルティに加わりました。私は両日ともブースに居る予定ですので、ぜひお越しください。今日のプレゼンのことも含め、アンドパッドのSREについて色々お話しします!
また、8/3(土)のTrack CのスポンサーLTにて、SREチームリーダーの角井が「アンドパッドのマルチプロダクト戦略を支えるSRE」というタイトルで発表します。こちらも、ぜひご参加ください!
アンドパッドでは、「幸せを築く人を、幸せに。」というミッションの実現のため、一緒に働く仲間を大募集しています。このような改善活動を進めているSREチームにご興味がありましたら、以下のページからご応募ください。カジュアル面談も実施しています。