セキュリティAIエージェントによる脆弱性診断を試してみました

こんにちは、アンドパッドセキュリティチームの小野寺です。この記事は ANDPAD Advent Calendar 2025 17 日目の記事です。

現在、セキュリティチームでは脆弱性診断の内製化に取り組んでいます。今回はセキュリティAIエージェントを活用して、Webアプリケーションに対する脆弱性診断を試験的に実施したお話をしたいと思います。

アンドパッドにおける脆弱性診断

アンドパッドはこれまで脆弱性診断の内製化は行っておらず、セキュリティベンダーに依頼して診断を実施していました。しかし、アンドパッドが成長を続けていく中で、以下の課題が生じています。

マルチプロダクトを展開しており、年々プロダクト数が増えることによるコスト増加
セキュリティベンダーとのスケジュール調整が必要なため、タイムリーな診断実施が難しい

こうした課題を解決するため、脆弱性診断の内製化に取り組み始めています。

もちろん、全てを内製で賄うのではなく、プロダクトのローンチ時や大きな機能追加・改修を行ったタイミングなどの必要なタイミングでセキュリティベンダーによる診断を受診しつつ、内製化による高頻度でタイムリーな診断の実現を目指しています。

AIエージェントによる脆弱性診断

2025年は、GoogleのCodeMender、OpenAIのAardvark、AWSのAWS Security Agentなど、セキュリティに特化したAIエージェントが相次いで発表され、セキュリティの領域でもAIエージェントへの注目度が高まっています。

アンドパッドでは、上記のサービスより先行してリリースされていたGMO Flatt Security社のセキュリティAIエージェント「Takumi」を期間を定めて試験的に利用しています。

flatt.tech

導入当初はソースコードを対象としたホワイトボックス診断機能が中心のサービスでしたが、2025年11月からWebアプリケーションを対象としたブラックボックス診断機能がリリースされました。

脆弱性診断の内製化の中でDAST製品の導入を検討しており、従来型のAIを使わないDAST製品と比較するため、Takumiのブラックボックス診断機能も試してみることにしました。

ブラックボックス診断を試してみる

ここでは、Takumiのブラックボックス診断の流れを簡単に紹介します。

まずは診断の設定を行います。診断タイプ、診断対象のURL、必要に応じて認証情報を入力すれば診断を開始できます。

診断タイプで「一部だけ診断」を選ぶと、まずクロールのみが実行され、その結果を確認してから診断対象の機能や観点を選択することができます。

診断対象のエンドポイント数が多すぎて大量にクレジットを消費するのを避けるため、基本的に「一部だけ診断」を選択し、クロール結果を確認してから診断を実施していました。

診断が終了するとレポートを確認できます。レポートはセキュリティベンダーに依頼したときのアウトプットに近いフォーマットで、Markdown形式でダウンロードすることも可能です。

使ってみての感想

簡単に診断できる

実際にTakumiを使ってみて、まず感じたのは診断開始までのハードルの低さです。これまでにいくつかDAST製品のトライアルをしたのですが、以下のような点で苦労していました。

SPAやデザインコンポーネントなどの使用により、クロールがうまくできなかった
上記の問題もあり、認証を突破させるのにも苦労した
APIスキーマ定義からエンドポイント登録する場合も、スキーマ定義によってはエラーが発生したり、定義を変更する必要があった

Takumiでは診断対象のURLと認証情報を渡すだけで、高精度にクロールを実行できました。アプリケーションとは別で認証基盤が切り出されている場合でも、追加指示として認証基盤のURLや操作説明を与えることで、問題なく認証に成功しました。

また、あるプロダクトから別のプロダクトへの導線があるケースでは、何も指示せずにクロールすると対象アプリケーション以外のエンドポイントもクロールしてしまいましたが、追加指示として「これらのドメインだけをクロールして」と指示を出すことでスコープを絞ることができました。

もちろん、他のDAST製品で全く診断できないということはないのですが、初期設定や継続運用の際の負荷が懸念され、少ない設定で診断が実施できる点は魅力的に感じました。

レポートの品質が高い

診断レポートは、以下の内容を含んでいます。

診断概要
検査項目
診断対象
診断結果外観
指摘事項一覧
試行結果一覧

指摘事項には深刻度、脆弱性の説明、リスク、対策といった基本的な情報に加えて、再現手順が含まれています。

この再現手順は、例えば以下のように細かく記載されています。

手順1: URLにアクセスして A を選択する
手順2: 項目B に C を入力して登録を完了する
手順3: URLにアクセスして D が発生することを確認する

従来型のDAST製品ではあまり提供されない情報ですが、このような詳細な再現手順があると検出結果の検証に非常に役立ちます。

また、試行結果一覧では、どのエンドポイントに対して、どのようなテストを目的に、どのようなリクエストを送ったか、結果と "問題なし" と判断した理由が記録されています。これにより、Takumiでどのような検証が行われたかを詳細に確認できるのがありがたいです。

従来型のDASTでは検出できない脆弱性を見つけられる

Takumiは、従来型のDASTでは検出が難しいビジネスロジックに関連する脆弱性の検出が可能とされています。

実際に試験利用した際、ビジネスロジックの脆弱性が検出されました。検出された脆弱性は別のセキュリティ対策によりカバーされているため、悪用可能なものではありません。しかし、人間による脆弱性診断でしか見つけることが困難だったビジネスロジックの脆弱性が検出できるという点は、大きなメリットだと感じました。

クレジット消費量が読めない

Takumiの料金体系はクレジット制となっており、タスクの内容や対象の特性などに応じてクレジット消費量が変動します。

診断実施前にどの程度クレジットを消費するかが予測しにくく、気軽に診断を試してみることが難しいと感じました。

診断タイプを「一部だけ診断」とすることで、クロール後に対象機能や対象エンドポイント数は確認・選択できますが、単純にエンドポイント数でクレジット消費量が決まるわけではないため、診断の計画を立てる際に悩ましいポイントです。

とはいえ、セキュリティベンダーによる脆弱性診断より費用は抑えられ、診断を繰り返していくうちにある程度予測はつくようになっていくと思うので、クリティカルな課題ではないと感じています。

まとめ

今回は、セキュリティAIエージェントによる脆弱性診断を試してみました。

実際に試してみて、予想以上に簡単に診断を実施でき、レポートの品質も高く、従来型のDASTでは検出が難しいビジネスロジックの脆弱性も検出できる点が印象的でした。

Takumiに限らず機能特性的にブラックボックス診断ツールだけではカバーできないケースや、より高い専門性を持つ人間による診断が必要なケースもあり、これさえ実施すれば完璧というわけではありません。

ホワイトボックス診断やセキュリティベンダーによる脆弱性診断など、他の診断手法も併用しつつ、より安全性の高いプロダクトの実現を目指していきたいと思います。

おわりに

セキュリティチームでは、ANDPADのセキュリティをより強固なものにする仲間を募集しています！少しでも興味を持った方は以下採用ページをご確認ください。

hrmos.co

明日のANDPAD Advent Calendar 2025はセキュリティチームの川村による「本当に「被害がなかった」と言い切れますか？npmサプライチェーン攻撃調査の振り返り」です。お楽しみに！