目次を開く
Shannon

【驚異の96%】AI自律ペンテストツールShannonが変えるセキュリティ診断の未来 — 誤検知ほぼゼロで脆弱性を自動発見・実証

Shannon とは何か

Shannon は、KeygraphHQ が開発した完全自律型の AI ペネトレーションテストツールだ。従来のスキャナーが「脆弱性の可能性」を報告するのに対し、Shannon は実際にエクスプロイトを実行し、再現可能な PoC(概念実証)付きで報告する。

コマンド一つで起動し、認証処理(2FA/TOTP を含む)からブラウザ操作、レポート生成まで人手を介さず完了する。XBOW Benchmark で 96.15% の成功率を記録し、GitHub では 16,500 以上のスターを獲得している。

「No Exploit, No Report」— 証拠ベースの脆弱性検出

Shannon の最大の特徴は Proof-by-Exploitation(実証による証明) というアプローチだ。

従来のセキュリティスキャナーは、パターンマッチやシグネチャベースで「脆弱性の疑いがある箇所」を大量に報告する。結果として誤検知(False Positive)が多発し、開発チームのトリアージ工数が膨大になることが課題だった。

しかし、Shannon はこの問題を根本から解決する。

  1. ソースコード解析で攻撃対象を特定
  2. 実際にブラウザや CLI で攻撃を実行
  3. エクスプロイトに成功した場合のみレポートに記載
  4. 再現手順をコピー&ペースト可能な形式で提供

つまり、レポートに載った脆弱性はすべて「実際に突破できた」ものであり、誤検知がゼロに近い。Help Net Security は 2026年2月の記事で「Open-source AI pentesting tools are getting uncomfortably good(OSS の AI ペンテストツールが不気味なほど優秀になってきた)」と評している。

従来ツールとの比較

Shannon の立ち位置を明確にするため、代表的なセキュリティツールと比較する。

観点OWASP ZAPBurp SuiteSonarQubeSnykShannon
検出方式シグネチャファジング+手動AST ルールCVE DBLLM コード解析
検証方法レスポンス分析プロキシ検査静的のみCVE 照合実エクスプロイト
誤検知率高(40-60%)中(20-30%)高(30-50%)低(5-10%)極低(<5%)
ソースコード不要不要必要依存関係のみ必要(ホワイトボックス)
実行時間15-30 分数時間(手動含む)2-5 分30 秒60-90 分
認証フロー対応基本のみ手動設定N/AN/ATOTP/2FA/OAuth

特に注目すべきは誤検知率の差だ。ZAP が OWASP Juice Shop に対して 150 以上のアラートを出すのに対し、Shannon は 20 件超の脆弱性を報告する。そしてその 20 件はすべて実際に突破できたものだ。開発チームのトリアージ工数は桁違いに変わる。

4 フェーズのアーキテクチャ

Shannon は Anthropic の Agent SDK をベースに構築されたマルチエージェントシステムで、以下の 4 フェーズで動作する。

Phase 1: 偵察(Reconnaissance)

ソースコード解析と外部ツール(Nmap、Subfinder、WhatWeb、Schemathesis)を組み合わせ、攻撃対象のサーフェスをマッピングする。ソースコードを読むことで、UI に表示されない隠しエンドポイントやデバッグ用パスも特定できる。

Phase 2: 脆弱性分析(Vulnerability Analysis)

OWASP カテゴリごとに並列で専門エージェントが動作し、データフロー解析を通じて脆弱性候補を特定する。現在対応しているカテゴリは以下の 4 種類だ。

カテゴリ検出対象の例
InjectionSQL インジェクション、コマンドインジェクション、SSTI
XSSReflected / Stored / DOM-based XSS
SSRFサーバサイドリクエストフォージェリ
Broken Auth認証バイパス、権限昇格、IDOR、JWT アルゴリズム混同

ホワイトボックスである利点はここにある。たとえばソースコード上で SELECT * FROM Users WHERE email='${email}' のような文字列補間を見つけると、その入力パラメータを追跡し、サニタイズの有無まで確認したうえでエクスプロイトを構成する。ブラックボックスの総当たりとは精度が違う。

Phase 3: エクスプロイト(Exploitation)

各エージェントがブラウザ自動操作やコマンドライン経由で実際に攻撃を実行する。再現できなかった脆弱性は破棄され、レポートには含まれない。

Phase 4: レポート生成(Reporting)

再現可能な PoC、影響範囲、修正推奨事項を含む包括的なセキュリティ評価レポートを自動生成する。スクリーンショットとログが証拠として添付される。

XBOW Benchmark — 96.15% の文脈

Shannon Lite は XBOW Benchmark のヒントなし・ソースコード参照ありバージョンで 104 問中 100 問を突破し、96.15% を達成した。

ただし、この数字にはいくつか重要な文脈がある。

  • Shannon はホワイトボックス(ソースコード参照あり) で評価されている
  • XBOW プラットフォーム自体はブラックボックスで 75-85% の成功率
  • 人間のトップクラスのペンテスターは 40 時間の作業で約 85%

言い換えれば、ソースコードへのアクセスがあるという条件下での数字だ。それでも、人間が 40 時間かかるところを 1〜1.5 時間で 96% という事実は、ツールの有効性を十分に示している。

実プロジェクトでの検出実績

Shannon は複数のやられアプリ(意図的に脆弱性を仕込んだ学習用アプリ)で実力を実証している。

OWASP Juice Shop

20 件以上の高影響度脆弱性を発見。認証バイパス、SQL インジェクションによるデータベース窃取、権限昇格、IDOR、SSRF を確認。

c{api}tal API

約 15 件の Critical / High 脆弱性を検出。コマンドチェイニングによる root レベルのインジェクション、UI に存在しないレガシーエンドポイント経由の認証バイパス、マスアサインメントによる権限昇格を特定。

OWASP crAPI

15 件以上の Critical / High 脆弱性を発見。JWT アルゴリズム混同攻撃(alg:none を含む)、インジェクションによるデータベース侵害、トークン転送付き SSRF を検出。XSS 防御に対する誤検知はゼロだった。

OWASP Top 10 カバレッジと補完戦略

Shannon が現状カバーしているのは OWASP Top 10(2021)の 4 カテゴリだ。残りはツールの組み合わせで補う必要がある。

OWASP カテゴリShannon補完ツール
A01: アクセス制御の不備対応
A02: 暗号化の失敗一部SSL Labs、testssl.sh
A03: インジェクション対応
A04: 安全でない設計一部脅威モデリング(手動)
A05: セキュリティの設定ミス一部Lynis、CIS Benchmarks
A06: 脆弱なコンポーネント未対応Snyk、Trivy
A07: 識別と認証の失敗対応
A08: ソフトウェアとデータの整合性未対応Sigstore、SLSA
A09: ログと監視の失敗未対応ELK、Splunk
A10: SSRF対応

一方で、Shannon は万能ではない。ライブラリの既知脆弱性(Log4Shell 等)やインフラ設定ミスは検出範囲外だ。SAST/SCA と組み合わせることで初めて実効的なセキュリティパイプラインになる。

DevSecOps パイプラインへの組み込み方

Shannon は実際にエクスプロイトを実行するツールであり、本番環境での実行は厳禁だ。推奨される統合ポイントは以下のとおり。

開発 → ユニットテスト → ビルド → SAST/依存関係スキャン →
  ステージングデプロイ → 結合テスト → 【Shannon 実行】 →
  手動承認 → 本番デプロイ

実行環境の要件

  • ネットワーク分離: ステージング環境を本番と隔離(専用 VPC またはネットワークポリシー)
  • データリセット: スキャン後にデータベースをスナップショットから復元
  • 専用テストアカウント: 本番認証情報は絶対に使わない
  • 書面による承認: アプリケーションオーナーからの実行許可

Lite でも定期実行はできる

なお、Shannon Pro には GitHub Actions 等との CI/CD 連携が組み込まれているが、Lite でも cron + Docker で週次スキャンを回すことは可能だ。レポートは JSON / Markdown で出力されるので、完了後に Slack Webhook や GitHub Issue に結果を流すスクリプトを組めば、チームへの共有も自動化できる。60〜90 分かかるため PR 単位のゲートには向かないが、週末夜間のバッチ実行なら十分実用的だ。

コスト感

  • Shannon Lite: 無料(AGPL-3.0)
  • API コスト: 1 回のスキャンで $16〜50(Anthropic Claude API 利用料)
  • 実行時間: 中規模アプリで約 60〜90 分
  • リソース: Docker 必須、RAM 6GB 以上推奨

週次スキャンで年間 $2,600〜5,000 程度。年 1 回の外部ペネトレーションテスト(200〜500 万円)と比べると、コスト効率は大きく改善する。ただし、Shannon は人間のペンテスターの代替ではなく補完だ。ビジネスロジックの脆弱性や設定ミスは依然として人間の目が必要になる。

Lite と Pro の違い

Shannon LiteShannon Pro
ライセンスAGPL-3.0(OSS)商用ライセンス
対象セキュリティチーム・研究者エンタープライズ
コード解析単一ファイル解析LLM 駆動のデータフロー解析(複数ファイル横断)
CI/CD 連携GitHub Actions / GitLab CI / Jenkins
デプロイセルフホストクラウド or セルフホスト
推奨規模〜5 万行10 万行以上

とはいえ、Lite でも十分な検出力はある。まずは Lite で自社のステージング環境を試し、規模が大きくなったら Pro を検討するのが現実的だ。

注意点と限界

Shannon を導入する前に把握しておくべき制約がある。

  1. ホワイトボックス専用: ソースコードがなければ動かない。SaaS のセキュリティテストには使えない
  2. 検出範囲が狭い: OWASP Top 10 のうち 4 カテゴリのみ。ビジネスロジック脆弱性や設定ミスは対象外
  3. 本番実行不可: 実際にデータを書き換える攻撃を行うため、本番環境では使えない
  4. LLM の限界: レポートに LLM 由来の不正確な記述が混入する可能性がある。人間によるレビューは必須
  5. API コスト: 継続的に利用するとトークン消費が積み上がる。コスト管理が必要
  6. 実験的モデルサポート: Anthropic Claude が推奨。OpenAI/Gemini は実験的で結果が不安定

まとめ

Shannon は「脆弱性を見つけて終わり」ではなく、実際にエクスプロイトを成功させて証明するという新しいアプローチを取る AI ペンテストツールだ。

  • 誤検知ほぼゼロ: 報告された脆弱性はすべて実証済み
  • 96.15%: XBOW Benchmark(ホワイトボックス)での成功率
  • 60〜90 分: 人間のペンテスターが 40 時間かかる作業を自動化
  • 年間 $2,600〜: 外部診断の 1/10 以下のコスト

セキュリティ対策の実効性を客観的に検証するハードルは高いのが現状だ。Shannon のようなツールを開発フローに組み込むことで、「本当に攻撃可能か」を継続的に検証できるようになる。

ただし、人間のペンテスターの代替にはならない。SAST、SCA、DAST と組み合わせた多層防御の一要素として位置づけるのが正しい使い方だ。

OSS の Lite 版が公開されているので、まずはステージング環境で試してみてほしい。

関連記事

参考リンク

記事をシェアする