AI on GAO AI Blog

DeepTeam で RAG にプロンプト攻撃を投げてみた

Mon, 01 Jun 2026 16:30:00 +0900

概要
#

DeepTeam は LLM アプリの脆弱性を自動で突きにいく OSS（Confident AI 製、DeepEval の兄弟）
50+ の脆弱性カテゴリと多数の攻撃手法（バージョンにより増減）を組み合わせてくれるので、自分で攻撃プロンプトを考えなくていい
Acme 社という架空のヘルプデスク Bot にプロンプトインジェクション × 3 をぶつけたら、Gemini 2.5 Flash + 短いシステムプロンプトで 今回の 3 ケースでは漏洩なし (Mitigation 100%)
Langfuse に @observe + create_score を入れるだけで、攻撃シミュレーションの結果が 時系列ダッシュボード になる
単発の CLI 結果で終わらせず、Trace・Score・Session として保存して PR ごと・リリースごとに差分を追える状態を作るのが本記事のゴール

1. DeepTeam とは
#

DeepTeam は、LLM アプリに対する 攻撃シミュレーション（英語圏では “red teaming”）を自動化するフレームワークです。評価フレームワーク DeepEval の兄弟プロダクトで、Confident AI が出しています。